Rain Lag

Аналоговая кухонная вагонаварка для аварий: один бумажный плейбук, который проходит через все фазы инцидента

Как спроектировать единый, удобный для «аналога» плейбук реагирования на инциденты, который проходит через все фазы аварии — соединяя практики SRE, облачно‑нативный ответ и традиционные ITIL‑процессы.

Аналоговая кухонная вагонаварка для аварий: один бумажный плейбук, который проходит через все фазы инцидента

Представьте: ваш основной дашборд недоступен, корпоративный чат глючит, вики не открывается, а облачная консоль еле шевелится. Но инцидент при этом никуда не делся, и клиенты продолжают страдать.

Что у вас осталось?

Во многих организациях ответ такой: почти ничего. Пара племенных ритуалов, смутное воспоминание «что мы делали в прошлый раз» и кто‑то, бессильно листающий наполовину сломанные инструменты.

И вот здесь появляется «аналоговая кухонная вагонаварка для аварий»: один бумажный плейбук, который продолжает работать, даже когда ваши блестящие гаджеты уже нет. Как компактный кухонный вагончик в поезде, он путешествует с вами через весь путь инцидента — от регистрации до закрытия — независимо от того, что ещё в этот момент лежит.

В этом посте разберём, как спроектировать такой бумажный плейбук так, чтобы он:

  • Проходил через все фазы жизненного цикла инцидента
  • Работал в аналоговых или офлайн‑условиях
  • Подтягивал облачный контекст, когда он доступен
  • Соединял практики SRE, облачно‑нативный ответ и ITIL‑подобные процессы

Почему большинство плейбуков ломаются в самый неподходящий момент

Команды много инвестируют в онлайн‑ранбуки, сложные дашборды и автоматизацию. Это правильно — но эти инструменты почти всегда предполагают нормальные условия:

  • У всех есть полный доступ к привычным системам
  • Сеть, SSO и VPN работают штатно
  • Мониторинг и логи доступны

Крупные инциденты часто нарушают все эти предположения.

То, чего не хватает во многих организациях, — это единый, хорошо структурированный, портативный справочник, который:

  1. Говорит, что делать на любой фазе инцидента
  2. Достаточно короткий, чтобы им реально пользоваться в стрессе
  3. Не зависит от конкретного инструмента или наличия сети

Отсюда идея одного бумажного плейбука.


Одностраничный плейбук: идея и ограничения

Одностраничный плейбук — это:

  • Лаконично: идеально — 2 стороны одного листа (A4 или Letter). Если нужно больше, думайте о небольшом буклете‑гармошке, а не о папке на 100 страниц.
  • Портативно: можно распечатать, носить с собой, приклеить на стену или держать в тревожном чемоданчике.
  • Привязан к фазам: явно соотнесён с полным жизненным циклом инцидента:
    • Регистрация (Logging)
    • Триаж (Triage)
    • Назначение (Assignment)
    • Реагирование (Response)
    • Диагностика (Diagnosis)
    • Восстановление (Resolution)
    • Закрытие (Closure)
  • Дружественно к аналогу: полностью применим, даже если у вас есть только ручка, телефон и, возможно, доска.
  • Независимо от инструментов, но осведомлённо о них: в первую очередь говорит о ролях и действиях, а уже затем отображает их на инструменты (PagerDuty, Jira, ServiceNow, Wiz, Slack и т.д.), которые в момент инцидента могут быть как доступны, так и нет.

Думайте о нём как о кухне в вагончике вашего аварийного поезда: компактной, автономной и доступной в каждом вагоне, где бы вы ни находились в пути инцидента.


Как спроектировать плейбук, который проходит через все фазы

Пройдёмся по жизненному циклу инцидента и посмотрим, что ваш одностраничный плейбук обязан покрывать.

1. Регистрация: зафиксировать событие

Цель: превратить «что‑то выглядит странно» в зарегистрированный инцидент.

В плейбук стоит включить:

  • Чек‑лист триггеров: короткий список сигналов, которые обязательно должны становиться инцидентами (например, P1‑алерты, аномалии безопасности, сбои платежей, падение доступности).
  • Минимальный набор полей для регистрации (даже если инструменты недоступны):
    • Время обнаружения
    • Кто заметил
    • Какие системы или сервисы задеты
    • Влияние на клиентов (известное/предполагаемое)
    • Первичное предположение по серьёзности (severity)

Сформулируйте явно: если сомневаешься — регистрируй инцидент. В стрессе люди часто боятся «поднимать шум» — ваш плейбук не должен этому способствовать.

2. Триаж: решить, действительно ли это инцидент и насколько он серьёзен

Цель: быстро понять серьёзность и определить, по какому треку вести ситуацию.

В плейбук стоит включить:

  • Матрицу серьёзности (P1–P4) на основе влияния и срочности
  • Дерево решений да/нет:
    • «Есть ли текущий или неминуемый эффект для клиентов?» → Если да, минимум P2.
    • «Под угрозой ли выручка, безопасность людей или информационная безопасность?» → Эскалировать до P1.
  • Чёткие ограничения по времени: например, «Триаж должен занять не более 10 минут с момента обнаружения».

Здесь, когда доступен онлайн‑контекст, помогает облачная информация риска — например, данные уровня Wiz:

Если затронутая система помечена как HIGH‑RISK (чувствительные данные, привилегированный доступ, выход в интернет и т.п.), повышайте серьёзность на один уровень.

Зашейте это правило прямо в бумажный плейбук.

3. Назначение: поставить кого‑то ответственным

Цель: чтобы инцидентом владел кто‑то конкретный, и все понимали, кто это.

В плейбуке определите:

  • Ключевые роли:
    • Incident Commander (IC, Командир инцидента) — принимает решения и координирует
    • Communications Lead (Ответственный за коммуникации) — статус‑обновления, взаимодействие со стейкхолдерами
    • Ops/Tech Lead (Технический/Ops‑лид) — координирует техкоманды
  • Правило выбора по умолчанию, если система on‑call недоступна:
    • «Если инструмент ротации недоступен, первый инженер, распознавший P1, временно становится IC, пока не передаст управление официальному on‑call.»
  • Простой шаблон назначения, который можно заполнить от руки:
    • IC: ______
    • Comms: ______
    • Ops Lead: ______

4. Реагирование: стабилизировать, локализовать, коммуницировать

Цель: остановить «кровотечение» до того, как диагностика будет завершена.

На бумаге полезен приоритетный лестничный список:

  1. Сначала безопасность и защита данных — отключите или изолируйте систему, если под угрозой данные, средства или физическая безопасность.
  2. Далее — влияние на клиентов — откат, фейловер, включение деградированного режима.
  3. Снижение шума — ограничьте поток алертов и сообщений, чтобы людям было легче думать.

Добавьте мини‑ранбук по коммуникациям:

  • Внутренний ритм обновлений: например, каждые 15–30 минут для P1.
  • Минимальный шаблон статус‑сообщения:
    • «Что происходит»
    • «Кто затронут»
    • «Что мы делаем сейчас»
    • «Следующее обновление в …»

Чётко пропишите: никаких догадок и предположений. Только подтверждённые факты.

5. Диагностика: понять причину и не потерять контроль над инцидентом

Цель: найти корневую причину, не разваливая управление инцидентом.

Здесь важнее структура, чем глубина деталей:

  • Простой цикл расследования:
    1. Сформулировать гипотезу
    2. Определить безопасный эксперимент
    3. Провести эксперимент
    4. Наблюдать результат
    5. Оставить или отбросить гипотезу
  • Ограничения:
    • «Не проводить эксперименты в продакшене без одобрения IC.»
    • «Перед любыми рискованными изменениями всегда убеждайтесь, что откат возможен и понятен.»

Если онлайн‑сервисы доступны, здесь особенно полезен облачно‑нативный контекст:

  • «Проверить последние изменения конфигурации в облаке.»
  • «Проверить в Wiz (или аналоге) новые критические экспозиции, связанные с затронутыми компонентами.»

На бумаге сформулируйте это обобщённо, но достаточно явно, чтобы в бою люди вспомнили, что такой контекст нужно подтянуть, когда он доступен.

6. Восстановление: безопасно вернуть систему в здоровое состояние

Цель: вернуть систему к нормальной работе контролируемым способом.

Включите:

  • Дерево решений по восстановлению:
    • «Можем ли мы безопасно откатиться на последнюю заведомо рабочую версию?»
    • «Можем ли мы переключиться (failover) на здоровый регион/кластер?»
    • «Нужен ли временный выключатель через feature flag?»
  • Обязательный чек‑лист проверки после восстановления:
    • Ключевые метрики нормальны или явно возвращаются к норме
    • Нет новых алертов, связанных с этим инцидентом
    • Проверен синтетический или реальный пользовательский сценарий

Сделайте «готово» не ощущением, а чек‑листом.

7. Закрытие: зафиксировать уроки и действительно замкнуть цикл

Цель: полноценно завершить жизненный цикл — тикет, выводы и ответственность.

В аналоговом формате вы можете:

  • Включить на том же листе заготовку для пост‑инцидентного разбора:
    • Что произошло (таймлайн)
    • Какое было влияние (внутреннее/внешнее)
    • Сопутствующие факторы
    • Что сработало хорошо
    • Что нужно улучшить
  • Правило вроде:
    • «P1/P2‑инциденты требуют пост‑инцидентного разбора в течение 5 рабочих дней с участием минимум: IC + Tech Lead + представителя продукта.»

Привяжите это явно к вашему ITIL‑стилю работы с тикетами:

  • «Для закрытия требуется: тикет обновлён, статус переведён в ‘Resolved/Resolved/Closed’ по процессу, есть ссылка на отчёт по инциденту и заведены/назначены все follow‑up‑задачи.»

Как структурировать плейбук: архитектура, которая не разваливается под давлением

Хороший одностраничный плейбук — это не просто список пунктов; у него есть ясная архитектура, позволяющая участникам мгновенно:

  • Понимать, на какой фазе они находятся сейчас
  • Видеть, кто за что отвечает
  • Знать, какое следующее решение нужно принять

Практические советы по структуре:

  • Лицевая сторона: крупная схема жизненного цикла (от Регистрации до Закрытия) с 1–3 буллетами на каждую фазу.
  • Оборотная сторона:
    • Описания ролей
    • Матрица серьёзности
    • Шаблоны сообщений для коммуникаций
    • Поля для записи ID инцидента, ключевых времён и имён.
  • Используйте жирные заголовки, иконки или цветные полосы (для печати), чтобы разделять фазы.
  • Избегайте глубокой вложенности и длинных абзацев.

Думайте не как о толстой книге, а как о карте метро.


Как встроить облачный контекст и не сделать плейбук хрупким

Облачные шаблоны — вроде тех, что предлагают инструменты уровня Wiz, — показывают, что актуальный контекст среды (риск, экспозиции, мисконфигурации) может радикально ускорять диагностику и улучшать решения.

Чтобы использовать это, не привязывая плейбук к одному конкретному продукту:

  • Опишите обобщённые действия:
    • «Проверить риск‑профиль (posture) для затронутых облачных ресурсов.»
    • «Просмотреть последние security‑находки по релевантным аккаунтам/проектам.»
  • Добавьте небольшой справочник соответствия инструментов, который можно распечатать:
    • Cloud risk posture → Wiz / CSPM X / Security Center Y
    • Логи → CloudWatch / Stackdriver / Datadog / Splunk
    • Тикетинг → Jira / ServiceNow / внутренний трекер

Так плейбук останется устойчивым, даже если стек инструментов со временем меняется.


Как сделать его рабочим: тренировать, обновлять, дорабатывать

Красивый одностраничный плейбук, которым никто не пользуется, — это просто настенное украшение.

Чтобы он стал рабочим инструментом:

  1. Проводите tabletop‑упражнения, используя только бумажный плейбук и доску.
  2. Симулируйте инциденты, в которых часть инструментов намеренно считается «недоступной».
  3. После каждого реального инцидента задавайте вопросы:
    • Чего в плейбуке не хватало?
    • Что оказалось лишним или запутанным?
  4. Явно версионируйте документ (например, «Версия 1.4 — февраль 2026») и убирайте из обращения старые копии.

Лучшие практики:

  • Пишите простым, ориентированным на действие языком.
  • Синхронизируйте шаги с фактическими процессами и инструментами, а не с тем, как хотелось бы, чтобы всё работало.
  • Храните актуальную версию там, откуда её легко распечатать, и держите несколько экземпляров в ключевых местах.

Мост между SRE, облачно‑нативным миром и ITIL: один вагон, одна кухня

On‑call в стиле SRE, облачно‑нативное реагирование на инциденты и ITIL‑циклы тикетов часто выглядят как разные миры со своим языком. Единый, хорошо продуманный аналоговый плейбук заставляет вас:

  • Определить общий жизненный цикл инцидента, который признают все
  • Ясно описать роли так, чтобы с ними согласились и SRE, и владельцы ITIL‑процессов
  • Свести облачные понятия (risk posture, exposure) с традиционными статусами (New, In Progress, Resolved, Closed)

Когда ваш одностраничный плейбук сделан хорошо, любой — от старшего SRE до сотрудника сервис‑деска — может взять один и тот же лист и:

  • Говорить на одном языке
  • Следовать одним и тем же фазам
  • Корректно передавать инцидент между командами и инструментами

Заключение: постройте свой вагон до того, как въедете в тоннель

Создавать аналоговую кухонную вагонаварку для аварий нужно до того, как вы въедете в тоннель.

Спроектируйте одностраничный плейбук, который:

  • Явно проходит через регистрацию, триаж, назначение, реагирование, диагностику, восстановление и закрытие
  • Работает с ручкой и телефоном, а не только с дашбордами и ботами
  • Использует облачный и риск‑контекст, когда он есть, но не зависит от него
  • Соединяет практики SRE, облачно‑нативный подход и ITIL в единый, согласованный поток

Потом тренируйтесь с ним, пока это не станет рутиной — и обновляйте каждый раз, когда реальность показывает, что что‑то в нём не так.

Когда грянет следующий крупный инцидент и инструменты начнут по очереди падать, этот один лист бумаги может оказаться самым ценным элементом вашей инфраструктуры.

Аналоговая кухонная вагонаварка для аварий: один бумажный плейбук, который проходит через все фазы инцидента | Rain Lag