# Выявление и устранение проблем В этой секции кандидат вместе с интервьюером разыгрывают гипотетическую ситуацию критического отказа на production. Интервьюер играет роль этакого источника абсолютного знания о системе и происшествии, которому можно задавать вопросы и получать ответы. В рамках данной секции задача интервьюера оценить: 1. Насколько структурно и системно кандидат умеет двигаться по проблеме: от фактов к гипотезе, от гипотезы к эксперименту и от эксперимента к решению 2. Насколько быстро и эффективно кандидат способен разобраться в общих принципах построения системы, в проблемах которой необходимо разобраться. Достаточно ли у кандидата кругозора и опыта относительно типовых дизайнов распределенных систем? (Веб сервисов, АПИ, сервисов работы с состоянием и т.д.) 3. Как хорошо кандидат работает с данными - способен ли верно сформулировать полезные и эффективные для поиска аномалий запросы в телеметрические системы? Хорошо ли получается у кандидата интерпретировать полученные данные? ## Материалы для подготовки ### Книги: - [The Site Reliability Workbook](https://sre.google/workbook/table-of-contents/) - [Site Reliability Engineering](https://sre.google/sre-book/table-of-contents/) ### Курсы: - [Слерм SRE](https://slurm.io/sre) ### Сайты: - [Ультимативный сборник материалов по SRE-подготовке](https://github.com/mxssl/sre-interview-prep-guide) ### Выступления про наш процесс найма SRE: - [Собеседование SRE: Troubleshooting и System Design](https://apolomodov.medium.com/troubleshooting-interview-3690b40a3d77)