Аналоговая кухонная вагонаварка для аварий: один бумажный плейбук, который проходит через все фазы инцидента

Представьте: ваш основной дашборд недоступен, корпоративный чат глючит, вики не открывается, а облачная консоль еле шевелится. Но инцидент при этом никуда не делся, и клиенты продолжают страдать.

Что у вас осталось?

Во многих организациях ответ такой: почти ничего. Пара племенных ритуалов, смутное воспоминание «что мы делали в прошлый раз» и кто‑то, бессильно листающий наполовину сломанные инструменты.

И вот здесь появляется «аналоговая кухонная вагонаварка для аварий»: один бумажный плейбук, который продолжает работать, даже когда ваши блестящие гаджеты уже нет. Как компактный кухонный вагончик в поезде, он путешествует с вами через весь путь инцидента — от регистрации до закрытия — независимо от того, что ещё в этот момент лежит.

В этом посте разберём, как спроектировать такой бумажный плейбук так, чтобы он:

Проходил через все фазы жизненного цикла инцидента
Работал в аналоговых или офлайн‑условиях
Подтягивал облачный контекст, когда он доступен
Соединял практики SRE, облачно‑нативный ответ и ITIL‑подобные процессы

Почему большинство плейбуков ломаются в самый неподходящий момент

Команды много инвестируют в онлайн‑ранбуки, сложные дашборды и автоматизацию. Это правильно — но эти инструменты почти всегда предполагают нормальные условия:

У всех есть полный доступ к привычным системам
Сеть, SSO и VPN работают штатно
Мониторинг и логи доступны

Крупные инциденты часто нарушают все эти предположения.

То, чего не хватает во многих организациях, — это единый, хорошо структурированный, портативный справочник, который:

Говорит, что делать на любой фазе инцидента
Достаточно короткий, чтобы им реально пользоваться в стрессе
Не зависит от конкретного инструмента или наличия сети

Отсюда идея одного бумажного плейбука.

Одностраничный плейбук: идея и ограничения

Одностраничный плейбук — это:

Лаконично: идеально — 2 стороны одного листа (A4 или Letter). Если нужно больше, думайте о небольшом буклете‑гармошке, а не о папке на 100 страниц.
Портативно: можно распечатать, носить с собой, приклеить на стену или держать в тревожном чемоданчике.
Привязан к фазам: явно соотнесён с полным жизненным циклом инцидента:
- Регистрация (Logging)
- Триаж (Triage)
- Назначение (Assignment)
- Реагирование (Response)
- Диагностика (Diagnosis)
- Восстановление (Resolution)
- Закрытие (Closure)
Дружественно к аналогу: полностью применим, даже если у вас есть только ручка, телефон и, возможно, доска.
Независимо от инструментов, но осведомлённо о них: в первую очередь говорит о ролях и действиях, а уже затем отображает их на инструменты (PagerDuty, Jira, ServiceNow, Wiz, Slack и т.д.), которые в момент инцидента могут быть как доступны, так и нет.

Думайте о нём как о кухне в вагончике вашего аварийного поезда: компактной, автономной и доступной в каждом вагоне, где бы вы ни находились в пути инцидента.

Как спроектировать плейбук, который проходит через все фазы

Пройдёмся по жизненному циклу инцидента и посмотрим, что ваш одностраничный плейбук обязан покрывать.

1. Регистрация: зафиксировать событие

Цель: превратить «что‑то выглядит странно» в зарегистрированный инцидент.

В плейбук стоит включить:

Чек‑лист триггеров: короткий список сигналов, которые обязательно должны становиться инцидентами (например, P1‑алерты, аномалии безопасности, сбои платежей, падение доступности).
Минимальный набор полей для регистрации (даже если инструменты недоступны):
- Время обнаружения
- Кто заметил
- Какие системы или сервисы задеты
- Влияние на клиентов (известное/предполагаемое)
- Первичное предположение по серьёзности (severity)

Сформулируйте явно: если сомневаешься — регистрируй инцидент. В стрессе люди часто боятся «поднимать шум» — ваш плейбук не должен этому способствовать.

2. Триаж: решить, действительно ли это инцидент и насколько он серьёзен

Цель: быстро понять серьёзность и определить, по какому треку вести ситуацию.

В плейбук стоит включить:

Матрицу серьёзности (P1–P4) на основе влияния и срочности
Дерево решений да/нет:
- «Есть ли текущий или неминуемый эффект для клиентов?» → Если да, минимум P2.
- «Под угрозой ли выручка, безопасность людей или информационная безопасность?» → Эскалировать до P1.
Чёткие ограничения по времени: например, «Триаж должен занять не более 10 минут с момента обнаружения».

Здесь, когда доступен онлайн‑контекст, помогает облачная информация риска — например, данные уровня Wiz:

Если затронутая система помечена как HIGH‑RISK (чувствительные данные, привилегированный доступ, выход в интернет и т.п.), повышайте серьёзность на один уровень.

Зашейте это правило прямо в бумажный плейбук.

3. Назначение: поставить кого‑то ответственным

Цель: чтобы инцидентом владел кто‑то конкретный, и все понимали, кто это.

В плейбуке определите:

Ключевые роли:
- Incident Commander (IC, Командир инцидента) — принимает решения и координирует
- Communications Lead (Ответственный за коммуникации) — статус‑обновления, взаимодействие со стейкхолдерами
- Ops/Tech Lead (Технический/Ops‑лид) — координирует техкоманды
Правило выбора по умолчанию, если система on‑call недоступна:
- «Если инструмент ротации недоступен, первый инженер, распознавший P1, временно становится IC, пока не передаст управление официальному on‑call.»
Простой шаблон назначения, который можно заполнить от руки:
- IC: ______
- Comms: ______
- Ops Lead: ______

4. Реагирование: стабилизировать, локализовать, коммуницировать

Цель: остановить «кровотечение» до того, как диагностика будет завершена.

На бумаге полезен приоритетный лестничный список:

Сначала безопасность и защита данных — отключите или изолируйте систему, если под угрозой данные, средства или физическая безопасность.
Далее — влияние на клиентов — откат, фейловер, включение деградированного режима.
Снижение шума — ограничьте поток алертов и сообщений, чтобы людям было легче думать.

Добавьте мини‑ранбук по коммуникациям:

Внутренний ритм обновлений: например, каждые 15–30 минут для P1.
Минимальный шаблон статус‑сообщения:
- «Что происходит»
- «Кто затронут»
- «Что мы делаем сейчас»
- «Следующее обновление в …»

Чётко пропишите: никаких догадок и предположений. Только подтверждённые факты.

5. Диагностика: понять причину и не потерять контроль над инцидентом

Цель: найти корневую причину, не разваливая управление инцидентом.

Здесь важнее структура, чем глубина деталей:

Простой цикл расследования:
1. Сформулировать гипотезу
2. Определить безопасный эксперимент
3. Провести эксперимент
4. Наблюдать результат
5. Оставить или отбросить гипотезу
Ограничения:
- «Не проводить эксперименты в продакшене без одобрения IC.»
- «Перед любыми рискованными изменениями всегда убеждайтесь, что откат возможен и понятен.»

Если онлайн‑сервисы доступны, здесь особенно полезен облачно‑нативный контекст:

«Проверить последние изменения конфигурации в облаке.»
«Проверить в Wiz (или аналоге) новые критические экспозиции, связанные с затронутыми компонентами.»

На бумаге сформулируйте это обобщённо, но достаточно явно, чтобы в бою люди вспомнили, что такой контекст нужно подтянуть, когда он доступен.

6. Восстановление: безопасно вернуть систему в здоровое состояние

Цель: вернуть систему к нормальной работе контролируемым способом.

Включите:

Дерево решений по восстановлению:
- «Можем ли мы безопасно откатиться на последнюю заведомо рабочую версию?»
- «Можем ли мы переключиться (failover) на здоровый регион/кластер?»
- «Нужен ли временный выключатель через feature flag?»
Обязательный чек‑лист проверки после восстановления:
- Ключевые метрики нормальны или явно возвращаются к норме
- Нет новых алертов, связанных с этим инцидентом
- Проверен синтетический или реальный пользовательский сценарий

Сделайте «готово» не ощущением, а чек‑листом.

7. Закрытие: зафиксировать уроки и действительно замкнуть цикл

Цель: полноценно завершить жизненный цикл — тикет, выводы и ответственность.

В аналоговом формате вы можете:

Включить на том же листе заготовку для пост‑инцидентного разбора:
- Что произошло (таймлайн)
- Какое было влияние (внутреннее/внешнее)
- Сопутствующие факторы
- Что сработало хорошо
- Что нужно улучшить
Правило вроде:
- «P1/P2‑инциденты требуют пост‑инцидентного разбора в течение 5 рабочих дней с участием минимум: IC + Tech Lead + представителя продукта.»

Привяжите это явно к вашему ITIL‑стилю работы с тикетами:

«Для закрытия требуется: тикет обновлён, статус переведён в ‘Resolved/Resolved/Closed’ по процессу, есть ссылка на отчёт по инциденту и заведены/назначены все follow‑up‑задачи.»

Как структурировать плейбук: архитектура, которая не разваливается под давлением

Хороший одностраничный плейбук — это не просто список пунктов; у него есть ясная архитектура, позволяющая участникам мгновенно:

Понимать, на какой фазе они находятся сейчас
Видеть, кто за что отвечает
Знать, какое следующее решение нужно принять

Практические советы по структуре:

Лицевая сторона: крупная схема жизненного цикла (от Регистрации до Закрытия) с 1–3 буллетами на каждую фазу.
Оборотная сторона:
- Описания ролей
- Матрица серьёзности
- Шаблоны сообщений для коммуникаций
- Поля для записи ID инцидента, ключевых времён и имён.
Используйте жирные заголовки, иконки или цветные полосы (для печати), чтобы разделять фазы.
Избегайте глубокой вложенности и длинных абзацев.

Думайте не как о толстой книге, а как о карте метро.

Как встроить облачный контекст и не сделать плейбук хрупким

Облачные шаблоны — вроде тех, что предлагают инструменты уровня Wiz, — показывают, что актуальный контекст среды (риск, экспозиции, мисконфигурации) может радикально ускорять диагностику и улучшать решения.

Чтобы использовать это, не привязывая плейбук к одному конкретному продукту:

Опишите обобщённые действия:
- «Проверить риск‑профиль (posture) для затронутых облачных ресурсов.»
- «Просмотреть последние security‑находки по релевантным аккаунтам/проектам.»
Добавьте небольшой справочник соответствия инструментов, который можно распечатать:
- Cloud risk posture → Wiz / CSPM X / Security Center Y
- Логи → CloudWatch / Stackdriver / Datadog / Splunk
- Тикетинг → Jira / ServiceNow / внутренний трекер

Так плейбук останется устойчивым, даже если стек инструментов со временем меняется.

Как сделать его рабочим: тренировать, обновлять, дорабатывать

Красивый одностраничный плейбук, которым никто не пользуется, — это просто настенное украшение.

Чтобы он стал рабочим инструментом:

Проводите tabletop‑упражнения, используя только бумажный плейбук и доску.
Симулируйте инциденты, в которых часть инструментов намеренно считается «недоступной».
После каждого реального инцидента задавайте вопросы:
- Чего в плейбуке не хватало?
- Что оказалось лишним или запутанным?
Явно версионируйте документ (например, «Версия 1.4 — февраль 2026») и убирайте из обращения старые копии.

Лучшие практики:

Пишите простым, ориентированным на действие языком.
Синхронизируйте шаги с фактическими процессами и инструментами, а не с тем, как хотелось бы, чтобы всё работало.
Храните актуальную версию там, откуда её легко распечатать, и держите несколько экземпляров в ключевых местах.

Мост между SRE, облачно‑нативным миром и ITIL: один вагон, одна кухня

On‑call в стиле SRE, облачно‑нативное реагирование на инциденты и ITIL‑циклы тикетов часто выглядят как разные миры со своим языком. Единый, хорошо продуманный аналоговый плейбук заставляет вас:

Определить общий жизненный цикл инцидента, который признают все
Ясно описать роли так, чтобы с ними согласились и SRE, и владельцы ITIL‑процессов
Свести облачные понятия (risk posture, exposure) с традиционными статусами (New, In Progress, Resolved, Closed)

Когда ваш одностраничный плейбук сделан хорошо, любой — от старшего SRE до сотрудника сервис‑деска — может взять один и тот же лист и:

Говорить на одном языке
Следовать одним и тем же фазам
Корректно передавать инцидент между командами и инструментами

Заключение: постройте свой вагон до того, как въедете в тоннель

Создавать аналоговую кухонную вагонаварку для аварий нужно до того, как вы въедете в тоннель.

Спроектируйте одностраничный плейбук, который:

Явно проходит через регистрацию, триаж, назначение, реагирование, диагностику, восстановление и закрытие
Работает с ручкой и телефоном, а не только с дашбордами и ботами
Использует облачный и риск‑контекст, когда он есть, но не зависит от него
Соединяет практики SRE, облачно‑нативный подход и ITIL в единый, согласованный поток

Потом тренируйтесь с ним, пока это не станет рутиной — и обновляйте каждый раз, когда реальность показывает, что что‑то в нём не так.

Когда грянет следующий крупный инцидент и инструменты начнут по очереди падать, этот один лист бумаги может оказаться самым ценным элементом вашей инфраструктуры.