Аналоговый атлас инцидентов: как сделать складную бумажную карту, чтобы выжить в самый тяжёлый дежурный неделю
Как спроектировать физический, складной «атлас инцидентов», который проведёт вас через обнаружение, триаж, коммуникацию, стабилизацию и последующий разбор — когда всё горит, а голова больше не помогает.
Аналоговый атлас инцидентов: как сделать складную бумажную карту, чтобы выжить в самый тяжёлый дежурный неделю
Когда на вас сваливается худшая дежурная неделя, кулер ноутбука воет, в Slack сплошная стена красных точек, Jira штампует инциденты, и все вам пишут, пейджер не замолкает, а кто‑то уже звонит на телефон.
И именно в этот момент ваш мозг становится наименее надёжным инструментом во всём стеке.
Аналоговый атлас инцидентов — это складная бумажная карта, которая лежит на столе или в вашем go‑bag, и даёт ощутимый, низкотехнологичный, но очень понятный ориентир посреди хаоса. Он не заменит вам мониторинг и ранбуки, но организует то, как вы думаете, действуете и коммуницируете под давлением.
В этом посте разберём, как спроектировать такой атлас, опираясь на ключевые элементы современной on‑call‑модели: стадии инцидента, инструменты, диаграммы и формализованные стандарты.
Зачем бумажный «атлас» для инцидентов?
Цифровые инструменты прекрасны — пока не перестают работать для людей. Во время стресса люди:
- Кликают по кругу в инструментах вместо того, чтобы следовать плану
- Забывают, как эскалировать и по каким правилам коммуницировать
- Теряют общую картину происходящего
Складная бумажная карта решает несколько ключевых проблем:
- Снятие нагрузки с памяти: процесс лежит на бумаге, а не в голове.
- Минимальное трение: не нужно бесконечно Alt+Tab‑аться между доками и дашбордами.
- Всегда доступна: не страдает от проблем с Wi‑Fi, SSO и хаоса из вкладок.
- Общее поле зрения: её легко развернуть на столе во время war room‑сессии.
Ваш аналоговый атлас инцидентов — это не замена полной документации. Скорее, это аварийный чек‑лист + карта, которая связывает воедино мониторинг, алертинг, документацию и коммуникации.
Хребет атласа: простой flowchart реакции на инцидент
В центре атласа должен быть простой flowchart (блок‑схема) обработки инцидента. Это «позвоночник», на который навешано всё остальное. На нём должны быть чётко обозначены стадии:
- Обнаружение (Detection)
- Триаж (Triage)
- Коммуникация (Communication)
- Стабилизация / смягчение последствий (Mitigation)
- Разбор инцидента (Post‑incident review)
Старайтесь уместить это в одну страницу, идеально — первый разворот.
1. Обнаружение (Detection)
Здесь вы отвечаете на вопрос: «Как мы понимаем, что что‑то сломалось?»
На карте укажите:
- Основные системы мониторинга (например, Prometheus, Datadog, CloudWatch)
- Интегрированную систему алертинга (например, Jira Service Management, PagerDuty, Opsgenie)
- Типичные каналы обнаружения: сообщения от пользователей, автоматические алерты, внутреннее QA, системы безопасности
Визуально это может выглядеть максимально просто:
- Блок с надписью «Получен алерт / репорт»
- Стрелки от Monitoring и User Reports
2. Триаж (Triage)
На этом этапе вопрос: «Насколько всё плохо и кто за это отвечает?»
Flowchart должен подсказывать:
- Классификацию по серьёзности: короткая таблица с определениями Sev1/Sev2/Sev3
- Ответственность: кто становится Incident Commander (IC) и когда нужно вызывать узких специалистов
- Базовые первичные проверки: простые вопросы вроде:
- Это влияет на клиентов или только на внутренние системы?
- Уже есть известный инцидент по этой проблеме?
- Есть ли простой немедленный rollback или failover?
3. Коммуникация (Communication)
Здесь вы определяете кого, когда и как уведомлять.
Нанесите на карту:
- Внутренние каналы (например,
#incidents-sev1,#on-call, видеомост) - Внешние обновления (status page, Customer Success, Support)
- Частоту обновлений для каждой серьёзности (например, Sev1: каждые 15–30 минут)
Простой решающий блок вроде «Sev1?» может ветвиться на: «Создать отдельный канал инцидента + назначить IC + писаря» против «Обновить существующий тикет и продолжать работу».
4. Стабилизация / Mitigation
Mitigation — это ответ на вопрос: «Что мы делаем прямо сейчас, чтобы остановить утечку крови?»
На бумаге не нужно расписывать все ранбуки. Вместо этого:
- Укажите ссылки / ID ключевых ранбуков
- Покажите, где их искать (пространства в Confluence, индекс ранбуков по сервисам)
- Выделите безопасные действия «по умолчанию» (например, «откатиться на последнюю стабильную версию», «порезать rate‑limit на конкретном endpoint», «переключиться на регион X» — если применимо)
5. Разбор инцидента (Post‑incident review)
Здесь вопрос: «Что мы поняли и как сделать так, чтобы это не повторилось?»
Ваш flow всегда должен заканчиваться:
- Документацией произошедшего (в выбранном инструменте документации, например в Confluence)
- Назначением разбора инцидента (в фиксированные сроки, например, в течение 48–72 часов)
- Обновлением ранбуков, диаграмм и стандартов на основе выводов
Смысл блок‑схемы в том, что посреди хаоса вы буквально можете ткнуть пальцем, где вы находитесь:
«Сейчас мы на стадии триажа; мы ещё не задали серьёзность и не назначили IC. Сначала делаем это».
On‑call‑фреймворк, который стоит за картой
Атлас настолько хорош, насколько хороша система, которую он описывает. Эффективное дежурство — это целостный фреймворк: процессы, инструменты и протоколы, которые координируют каждый аспект реакции на инциденты.
В атласе стоит визуально связать всё это хотя бы на одном полном развороте:
- Процессы: жизненный цикл инцидента (обнаружение → триаж → коммуникация → стабилизация → разбор)
- Инструменты:
- Стек мониторинга
- Алертинг и тикетинг (например, Jira Service Management)
- Документация (например, Confluence)
- Коммуникация (Slack/Teams, Zoom, email)
- Протоколы:
- Кто становится Incident Commander
- Правила эскалации
- Когда подключать руководство, юристов или PR
Этот разворот — не про красоту дизайна, а про схему проводки вашей системы реагирования.
Интеграция алертинга и мониторинга: карта должна отражать реальность
Если в атласе нарисован прекрасный процесс, который не совпадает с тем, как на самом деле работают ваши инструменты, его просто перестанут открывать.
Убедитесь, что карта отражает реальную интеграцию мониторинга и алертинга:
- Инструменты мониторинга шлют алерты в Jira Service Management (или вашу систему)
- Графики дежурств и on‑call‑расписания живут там же
- Пейджинг и политики эскалации максимально автоматизированы
В атлас стоит включить:
- Небольшую схему потока:
Monitoring → Alert → Jira Incident → On-call Pager → IC
- Короткий cheat sheet:
- Где посмотреть, кто сейчас on‑call
- Где настраиваются политики эскалации
- Как эскалировать вручную, если автоматизация даёт сбой
Когда всё горит, главный вопрос, на который вы хотите получить ответ с одного взгляда:
«Если на этот пейдж никто не реагирует, какова моя следующая ступень эскалации?»
Этот путь должен быть в атласе.
Фиксируем бой: как эффективно использовать инструменты документации
Отдельный инструмент документации вроде Confluence критичен и во время инцидента, и после.
В атласе стоит подсветить два режима документации:
- Живое состояние инцидента (online‑заметки)
- Постмортем‑анализ
Во время инцидента
Карта должна подсказывать:
- Какой шаблон или пространство использовать для живых заметок по инциденту
- Напоминать IC или писарю отслеживать:
- Хронологию событий
- Ключевые решения (кто принял и почему)
- Проверенные гипотезы и результаты
Простой чек‑лист творит чудеса:
- Создать документ инцидента из шаблона
- Приложить все связанные тикеты
- Записывать ключевые решения + timestamps
После инцидента
Для разбора инцидента атлас должен описывать:
- Где создавать postmortem‑документ
- Обязательные разделы (summary, impact, root cause, timeline, contributing factors, actions)
- Кто должен участвовать и кто утверждает результаты разбора
Можно даже оставить пустой блок или место под стикеры с подписью «Follow‑up‑задачи, которые нужно завести в Jira».
Диаграммы под огнём: сначала просто, красиво — потом
Визуализации очень помогают во время инцидентов — но только если их можно быстро нарисовать и легко понять.
В атласе опишите правила для диаграмм в боевом режиме:
-
Во время инцидента:
- Используйте базовые фигуры и текст (прямоугольники — сервисы, стрелки — вызовы, молнии — отказы)
- Подойдёт whiteboard, лист бумаги или простой drawing‑tool
- Фокус на «что сломано и как течёт трафик», а не на идеальной архитектурной схеме
-
После инцидента:
- Доработайте диаграммы для ранбуков, презентаций и обучения
- По возможности зафиксируйте состояния: «как было», «в момент инцидента» и «как стало после фикса»
Включите в атлас маленькие пример‑скетчи:
- Минимальная карта зависимостей сервисов
- Примитивный before/after для митигирующего изменения (например, добавили circuit breaker, поменяли роутинг)
Сделайте акцент: быстрые, некрасивые диаграммы в живом инциденте не просто допустимы — они ожидаемы.
Не импровизируйте: стандарты планирования инцидентов
В последнем разделе аналогового атласа инцидентов сосшлитесь на ваши стандарты планирования инцидентов.
У любой сервисной компании должны быть формализованные стандарты, которые описывают:
- Серьёзности инцидентов и правила классификации
- Роли и зоны ответственности (IC, писарь, communications lead, предметные эксперты)
- Требования к инструментам (мониторинг, алертинг, документация)
- SLA/OLA по реакции и коммуникации
- Периодичность и формат разборов
В атласе это стоит ужать до:
- Cheat sheet по ролям (кто что делает при Sev1)
- Матрица серьёзностей (с примерами для каждой категории)
- Одно короткое предложение про вашу философию работы с инцидентами, например:
«Сначала стабилизировать, потом объяснять. Коммуницировать рано и часто».
Полный стандарт может жить в Confluence, но его суть должна жить в атласе.
Как физически собрать ваш аналоговый атлас инцидентов
Вам не нужна команда дизайнеров. Вам нужны листы для принтера и немного структуры.
Предлагаемый макет:
- Обложка: название, версия, владелец и дата последнего обновления
- Разворот 1: блок‑схема реакции на инцидент (обнаружение → триаж → коммуникация → стабилизация → разбор)
- Разворот 2: обзор on‑call‑фреймворка (процессы, инструменты, протоколы)
- Разворот 3: интеграция мониторинга и алертинга, шпаргалка по эскалации
- Разворот 4: workflow по документации (живые заметки + процесс postmortem)
- Разворот 5: гайд по диаграммам + минимальные примеры
- Разворот 6: стандарты по инцидентам (роли, серьёзности, принципы)
Распечатайте, сложите и держите атлас:
- Рядом с ноутбуком
- В офисной зоне команды
- В выделенных incident room / war room
Обновляйте его регулярно, как обновляете цифровые ранбуки.
Вывод: карта, когда она нужна больше всего
В вашу самую тяжёлую дежурную неделю у вас не будет ни времени, ни ментальных ресурсов заново выстраивать в голове процесс реакции на инциденты. У вас будут дашборды, алерты и инструменты, но по‑настоящему вам понадобится простая, общая для всех карта следующего шага.
Аналоговый атлас инцидентов не пытается вместить всё. Он фиксирует скелет:
- Понятный поток через обнаружение, триаж, коммуникацию, стабилизацию и разбор
- Видимость on‑call‑фреймворка и связей между инструментами
- Простые правила для диаграмм и документации под давлением
- Стандарты, которые делают вашу реакцию последовательной и профессиональной
Сделайте его заранее. Когда начнётся «неделя из ада», эта складная карта может оказаться самым спокойным объектом в комнате.