Rain Lag

Бумажный справочник по учениям по инцидентам: разыгрываем он‑колл-кошмары, пока ещё светло

Как проектировать «бумажные» настольные учения по инцидентам, которые реально отрабатывают ваши ночные он‑колл-кошмары — ещё до того, как они разбудят вас в 3 часа ночи.

Бумажный справочник по учениям по инцидентам: разыгрываем он‑колл-кошмары, пока ещё светло

Спросите любого инженера на он‑колле, чего он боится больше всего, — и вы услышите одни и те же темы: бессмысленные алерты, отсутствующие runbook-и, непонятно, кто владелец, хаос в Slack, руководство требует апдейты, пока ещё никто даже не понимает, что именно сломалось.

Такой хаос не решается покупкой ещё одного инструмента мониторинга. Его решают репетицией инцидентов до того, как они произойдут — «на бумаге», в безопасной, спокойной обстановке, когда все бодры и в сознании.

Именно здесь нужен бумажный справочник по учениям по инцидентам: заранее подготовленные настольные (tabletop) упражнения, которые пошагово проводят команду через реалистичные, специфичные для вашей организации инциденты — до тех пор, пока правильные действия не становятся мышечной памятью.

Ниже — практическое руководство по разработке, проведению и улучшению таких учений.


Почему «бумага вначале» лучше, чем импровизированный хаос

Когда команды впервые пытаются провести учения по инцидентам, часто происходит одно и то же:

  • Кто‑то говорит: «Давайте просто выдумаем сценарий и посмотрим, как справимся».
  • Упражнение превращается в неструктурированный спор вокруг архитектурных диаграмм.
  • Никто так и не отрабатывает сам процесс реагирования на инцидент.

Результат: разговор был интересным, операционной пользы — ноль.

«Бумага вначале» означает, что вы:

  1. Планируете учение заранее, в письменном виде.
  2. Опираетесь на свои реальные процессы и угрозы, а не на абстрактные гипотезы.
  3. Формализуете роли, шаги и подсказки на бумаге (или в документе) до того, как соберётесь в комнате.

Это сдвигает фокус с импровизации к осознанной практике. Как при репетиции спектакля: все работают по одному сценарию — и по ходу выясняется, чего в нём не хватает или что в нём неверно.


Шаг 1. Привяжите учения к реальным процессам

Учение не может улучшить процесс, которого не существует.

Прежде чем придумывать сценарии, определите основные рабочие процессы, которые вы хотите отрепетировать. Для большинства команд это:

  • Обнаружение и первичная triage инцидента (что происходит, когда срабатывает алерт?)
  • Incident command (кто ведёт инцидент? как он коммуницирует?)
  • Техническое расследование и смягчение последствий (как координируются реагирующие?)
  • Коммуникация со стейкхолдерами (как и когда вы обновляете клиентов, руководство, поддержку?)
  • Документация и последующие действия (как инцидент фиксируется и разбирается?)

Убедитесь, что у вас есть как минимум черновой процесс реагирования на инциденты, описанный на бумаге (хотя бы одностраничный чек‑лист), до того, как вы запускаете учение. Затем разрабатывайте сценарии так, чтобы они:

  • Прогоняли этот процесс от начала до конца.
  • Выявляли, где процесс неясен, нереалистичен или просто отсутствует.

Если ваш «процесс» — это по сути только устные договорённости и tribal knowledge, учение быстро это вскроет — и это полезно. Зафиксируйте, что реально происходило во время учения, и используйте это как основу для формализации процесса.


Шаг 2. Проектируйте сценарии, отражающие ваши реальные угрозы

Эффективные tabletop-учения не используют шаблонные катастрофы в стиле кибер‑боевика. Они моделируют ваши наиболее вероятные он‑колл-кошмары.

Чтобы разработать реалистичные сценарии:

  1. Разберите свою историю

    • Прошлые инциденты уровня SEV‑1 или SEV‑2
    • Инциденты «на грани» и повторяющиеся проблемы
    • Аварии у похожих компаний или в вашей отрасли
  2. Сопоставьте это со своей средой Обратите внимание на:

    • Используемые облачные провайдеры и регионы
    • Критические зависимости (платёжные шлюзы, SSO, базы данных, очереди сообщений)
    • Регуляторные ограничения (например, защита данных, SLA по доступности)
  3. Выберите 2–4 сценария с наибольшей ценностью, например:

    • Резкий всплеск трафика, приводящий к каскадным отказам
    • Порча данных или недоступность основной базы данных
    • Инцидент информационной безопасности (скомпрометированные учётные данные, подозрительный доступ)
    • Отказ стороннего сервиса, влияющий на ключевые потоки (платежи, логины, уведомления)

Каждый сценарий должен включать:

  • Контекст: как выглядит норма? что поставлено на карту (выручка, безопасность, соответствие требованиям, репутация бренда)?
  • Триггер: как проявляется первая проблема? (алерты, заявки от клиентов, аномалии на дашбордах.)
  • Ограничения: что сломано или недоступно? есть ли жёсткие рамки по времени?
  • Усложнения: какие «твисты» вы внесёте по ходу учения? (например, «PagerDuty упал», «Ваш основной контакт в Vendor X недоступен».)

Ваша цель — чтобы участники говорили: «Именно от этого я не сплю по ночам».


Шаг 3. Подключите всех нужных стейкхолдеров

Он‑колл-кошмары редко бывают чисто техническими задачками. Это социотехнические истории: всё ломается на стыке людей, процессов и инфраструктуры.

Увидеть эти точки отказа можно только тогда, когда в комнате есть нужные люди.

Кто должен участвовать?

  • Инженеры на он‑колле / SRE / разработчики, которые будут первыми реагировать.
  • Incident commander (или тот, кто сейчас выполняет эту роль).
  • Поддержка / customer success (часто первые слышат о проблеме от клиентов).
  • Владелец продукта / бизнеса для затронутого сервиса.
  • Безопасность (security) — особенно для сценариев с безопасностным уклоном.
  • Коммуникации / PR / маркетинг — при клиентском или публичном воздействии.

Не обязательно звать всех на каждое учение, но для каждого сценария спрашивайте:

«Кто на самом деле был бы задействован в таком реальном инциденте?»

И убедитесь, что они не просто наблюдают — они должны говорить, принимать решения и действовать в рамках учения.

Участие стейкхолдеров помогает выявить:

  • Пробелы в ownership-е («Кто вообще имеет право принять это решение?»)
  • Сбои в передаче задач (поддержка → инженерия, инженерия → руководство и т.д.)
  • Отсутствующие или конфликтующие каналы коммуникации (слишком много каналов, слишком мало структуры).

Шаг 4. Выберите подходящий формат: дискуссионный или практический

Не каждое учение должно быть полноценной технической симуляцией. Есть два основных формата, и оба полезны.

1. Дискуссионное tabletop-учение

Все собираются за одним «столом» (офлайн или онлайн) и пошагово проходят сценарий. Фасилитатор постепенно раскрывает новую информацию.

Лучше всего подходит для:

  • Новых или меняющихся процессов.
  • Отработки кросс‑функциональной коммуникации.
  • Команд с начальным уровнем зрелости, небольших команд или при дефиците времени.

Сильные стороны:

  • Низкая стоимость: достаточно слайдов или общего документа.
  • Проще вовлекать не‑технических участников.
  • Отлично подходит для отработки принятия решений и координации.

2. Операционное / практическое учение

Вы моделируете (или аккуратно создаёте) реальные условия в системе и даёте команде реагировать в тех же инструментах, что и в продакшене.

Лучше всего подходит для:

  • Зрелых команд со стабильными процессами.
  • Отработки технического дебага и mitigation-а.
  • Проверки мониторинга, дашбордов и runbook-ов.

Сильные стороны:

  • Высокая реалистичность: репетиция настоящих алертов, дашбордов и runbook-ов.
  • Формирует глубокую техническую мышечную память.

Многим организациям подходит гибридный подход:

  • Сначала дискуссионные tabletop-учения для шлифовки процессов и ролей.
  • Затем перевод ключевых сценариев в практические учения, когда процесс устоялся.

Шаг 5. Соберите простой бумажный шаблон учения

Вам не нужна навороченная платформа. Хорошо структурированного документа достаточно.

Вот минимальный шаблон учения, который можно адаптировать под себя:

1. Обзор сценария

  • Название: Частичный отказ платёжного шлюза
  • Тип: Доступность / Сторонняя зависимость
  • Затронутые сервисы: Checkout API, Order processing
  • Бизнес‑эффект: Потеря выручки, брошенные корзины, рост нагрузки на поддержку

2. Цели

  • Проверить поток обнаружения инцидента и первичной triage.
  • Отработать коммуникацию со службой поддержки и руководством.
  • Проверить процесс принятия решений по переключению на резервного платёжного провайдера.

3. Участники и роли

  • Incident Commander: Имя
  • Primary Responder (Service X): Имя
  • Support Lead: Имя
  • Владелец продукта: Имя
  • Наблюдатель / ведущий заметки: Имя

4. Таймлайн и «инъекции» (injects)

  • T+0 мин: Алерт от мониторинга: Checkout errors > 15%
  • T+5 мин: Поддержка сообщает о всплеске тикетов «payment failed».
  • T+10 мин: Логи ошибок показывают, что большинство отказов — при обращении к PaymentProviderA.
  • T+15 мин: Новая инъекция: топ‑менеджер спрашивает: «Нужно ли опубликовать апдейт на статус‑странице?»
  • T+20 мин: Новая инъекция: у резервного платёжного провайдера более высокая комиссия; финансовый отдел выражает обеспокоенность.

Для каждой инъекции фасилитатор спрашивает:

  • Что вы делаете?
  • Кто это делает?
  • Где это задокументировано?
  • Как вы это коммуницируете и кому?

5. Артефакты и инструменты

  • Ссылки на runbook-и.
  • Гайд по статус‑странице.
  • Конвенция по именованию внутренних каналов для инцидентов.
  • Дашборды мониторинга.

6. Заметки по разбору (After-Action Review)
Оставьте место для фиксации наблюдений, решений и выявленных пробелов по мере их появления.

Всё это — «бумага вначале»: вы готовите playbook до репетиции.


Шаг 6. Проведите структурированный разбор по итогам (After-Action Review)

Самая важная часть любого учения — то, что происходит после его завершения.

Без структурированного After-Action Review (AAR) те же проблемы всплывут в следующем инциденте.

Проводите AAR как можно раньше (в идеале сразу) и фокусируйтесь на:

  1. Что на самом деле происходило?

    • Хронология ключевых решений и действий.
  2. Что сработало хорошо?

    • Отметьте поведение, инструменты или шаги, которые стоит повторять.
  3. Что было непонятно или сломано?

    • Неясный ownership.
    • Отсутствующие или устаревшие runbook-и.
    • Пробелы в инструментах (нет дашборда, бесполезные алерты).
  4. Что мы изменим до следующего учения?

    • Превратите каждую проблему в маленькое, конкретное действие с владельцем и сроком.

Примеры улучшений:

  • «Создать короткий чек‑лист для incident commander-а».
  • «Ввести стандартный внутренний cadence апдейтов (каждые 15 минут)».
  • «Задокументировать шаги по переключению на резервного платёжного провайдера».

Фиксируйте результаты AAR в своём справочнике по учениям по инцидентам — это живое knowledge base, которое растёт с каждым упражнением.


Шаг 7. Начните с малого и делайте регулярно

Чтобы учения по инцидентам приносили пользу, не нужен огромный бюджет. Регулярность важнее сложности.

Практичный ритм и масштаб:

  • Квартальное кросс‑командное tabletop-учение по крупному сценарию (например, общесистемный outage, серьёзный security-инцидент).
  • Ежемесячное лёгкое учение для критичных сервисов (30–60 минут, несколько участников).
  • Ротуйте сценарии, чтобы со временем покрывать все ключевые виды риска (доступность, безопасность, целостность данных, сторонние зависимости).

Делайте первые учения намеренно простыми:

  • Один сценарий, один час, один фасилитатор.
  • Используйте то, что уже есть: видеозвонок, общий документ, чат‑канал.
  • Цель — 1–3 чётких улучшения за сессию, не больше.

Со временем такая повторяемость формирует:

  • Мышечную память: люди понимают, что делать, когда их будит пейджер в 3 часа ночи.
  • Общие ментальные модели: команды видят, как стыкуются системы и роли.
  • Культуру безопасности: инциденты становятся поводом для обучения, а не личными провалами.

Заключение: тренируйтесь днём, чтобы спать спокойно ночью

Реальные инциденты — это грязно, эмоционально и дорого. Но навыки, нужные для их обработки — ясная коммуникация, уверенное лидерство, эффективная техническая реакция — полностью обучаемы.

Бумажный справочник по учениям по инцидентам даёт вам малорисковый способ:

  • Разыгрывать реальные он‑колл-кошмары до того, как они произойдут.
  • Выявлять пробелы в процессах, инструментах и ownership-е, пока ставки ещё низкие.
  • Превращать каждое учение в устойчивые улучшения за счёт структурированных разборов.

Вам не нужен идеальный план или дорогая платформа, чтобы начать. Вам нужны всего лишь:

  • Простой письменный процесс.
  • Реалистичный сценарий.
  • Правильные люди в комнате.
  • Готовность фиксировать выводы и внедрять изменения.

Проигрывайте свои инциденты на бумаге, пока ещё светло, — чтобы реальный пейджер в 3 часа ночи воспринимался не как кошмар, а как сценарий, который вы уже не раз репетировали.

Бумажный справочник по учениям по инцидентам: разыгрываем он‑колл-кошмары, пока ещё светло | Rain Lag