Rain Lag

Аналоговый чемодан «военной комнаты»: как провести полный инцидент, имея только стикеры и белую доску

Как провести высокорисковый инцидент‑разбор, используя только стикеры, маркеры и белую доску — без сложных инструментов и SaaS.

Аналоговый чемодан «военной комнаты»: как провести полный инцидент, имея только стикеры и белую доску

Когда продакшн «горит», большинство команд по инерции тянется к дашбордам, чатам, инцидент‑ботам и автоматизации. Всё это полезно — но ни один из этих инструментов не является обязательным для эффективного реагирования на инцидент.

Полномасштабный, высокосерьёзный инцидент можно скоординировать, имея под рукой всего лишь:

  • чемодан, набитый стикерами
  • пару маркеров
  • одну или несколько белых досок

Этот аналоговый формат военной комнаты — не ностальгическая игрушка. Это практичный, малотрений способ выровнять команду под давлением, особенно когда цифровые инструменты превращаются в отвлечение или узкое место.

В этом посте разберём, как работает полностью аналоговая военная комната, почему она естественно вписывается в жизненный цикл Site Reliability Engineering (SRE) и как проектировать плейбуки так, чтобы их шаги напрямую превращались в стикеры на доске.


Почему аналоговая военная комната до сих пор работает в цифровом мире

«Чемодан военной комнаты» — это именно то, как звучит: переносной набор всего необходимого, чтобы провести серьёзный инцидент без единой SaaS‑подписки.

Типичное содержимое:

  • стикеры (разных цветов и размеров)
  • перманентные и маркеры для белой доски
  • малярный скотч (для быстрого размечания «дорожек» на стенах)
  • индекс‑карточки и бумага
  • таймер или небольшой настольный часы

Имея этот набор и любую белую доску или свободную стену, вы можете:

  • фиксировать каждую идею, наблюдение и задачу в реальном времени
  • визуально организовывать инцидент по мере его развития
  • за секунды переставлять приоритеты и владельцев задач

Сила подхода — в сочетании простых материалов с большой, «почти бесконечной» поверхностью. Белая доска или стена, оклеенная бумагой, становится общим мозгом команды, где система, инцидент, решения и действия видны одновременно и всем.

Этот подход убирает лишнюю сложность и заставляет команду фокусироваться на главном: ясном мышлении, явных решениях и синхронизированных действиях.


Военные комнаты и жизненный цикл SRE

Военные комнаты нужны не только при авариях. В практике SRE они поддерживают весь жизненный цикл системы:

  • Архитектура и планирование ёмкости – визуальное отображение компонентов, зависимостей и допущений по масштабированию
  • Активная разработка – координация кросс‑командной работы по рискованным изменениям
  • Координация релизов – управление cutover’ами, миграциями и релизами фич
  • Мониторинг и реагирование в реальном времени – реакция на алерты с единой ситуационной картиной
  • Эксплуатация и сопровождение – планирование и проведение maintenance‑окон, работ в дата‑центре или крупных рефакторингов

Во время высокосерьёзных инцидентов эта концепция становится критически важной. Выделенная военная комната — физическая или виртуальная — даёт:

  • единственный источник правды о состоянии инцидента
  • сфокусированную среду, отсекающую шум
  • понятный набор ролей, владельцев и приоритетов

Аналоговая военная комната обеспечивает всё это без необходимости осваивать ещё один дашборд или инструмент. Любой человек может взять стикер и внести свой вклад.


Как развернуть аналоговую военную комнату для инцидента

Дизайнерское чутьё не требуется. Вам нужно всего несколько устойчивых визуальных паттернов, которые команда научится считывать моментально.

1. Определите зоны на белой доске

Разделите доску или стену на понятные зоны. Например:

  • Заголовок инцидента (верхний левый угол)

    • ID инцидента, серьёзность, время начала
    • Текущий статус (например, «Разбираемся», «Снизили влияние», «Мониторим»)
  • Таймлайн (верх или центр)

    • Горизонтальная линия с отметками времени
    • Стикеры для ключевых событий: «Сработал алерт», «Применена мера смягчения», «Откат завершён»
  • Карта системы / гипотезы (центр)

    • Грубая схема: блоки и стрелки для сервисов, баз данных, очередей
    • Стикеры для «подозрительных» компонентов или наблюдений
  • Доска действий (правая часть)

    • Колонки вида To Do → In Progress → Done (к работе → в работе → сделано)
    • Каждое действие — отдельный стикер с владельцем и временем
  • Коммуникации и стейкхолдеры (угол или отдельная доска)

    • Кому нужны апдейты (клиенты, руководство, поддержка)?
    • Что и когда в последний раз было коммуницировано?

В итоге у вас появляется физическая система управления инцидентом, которую любой может «прочитать» с одного взгляда.

2. Используйте простый, единообразный визуальный язык

Сделайте легенду минимальной. Например:

  • Жёлтые стикеры – факты и наблюдения
  • Розовые стикеры – гипотезы или предполагаемые причины
  • Зелёные стикеры – действия / задачи
  • Синие стикеры – внешние коммуникации

Пара договорённостей делает доску мгновенно понятной:

  • Действия начинайте с глагола: «Проверить CPU БД», «Откатить до билда 9123»
  • На каждый стикер‑действие добавляйте инициалы и время: Откат API (AB, 14:07)
  • Рисуйте жирные стрелки между предполагаемой причиной и её влиянием, чтобы показать распространение проблемы

3. Строго одно содержание на один стикер

Каждый стикер должен представлять ровно одну сущность:

  • факт («Ошибка резко выросла в 13:52 UTC»)
  • гипотезу («Возможен cache stampede»)
  • действие («Отключить feature flag X глобально»)

Такая гранулярность позволяет:

  • легко передавать задачи между владельцами
  • просто выбрасывать опровергнутые гипотезы
  • собрать точный таймлайн после инцидента

Как превратить плейбуки в стикеры

Аналоговая военная комната не заменяет плейбуки реагирования на инциденты — она их усиливает.

Плейбуки дают сценарно‑зависимые подсказки: что проверять, в каком порядке и как координироваться. В аналоговой сессии эти подсказки превращаются в стопку стикеров, готовых занять своё место на доске.

Ориентированные на действие vs. описательные плейбуки

Слабые плейбуки описательные:

«В случае инцидента с задержками в базе данных исследуйте возможные причины, такие как медленные запросы, проблемы с железом или сетью.»

Сильные плейбуки ориентированы на действия:

  • «Проверить CPU, I/O и количество подключений на primary‑ноду БД.»
  • «Запустить анализ slow query log за последние 15 минут.»
  • «Проверить задержку репликации для всех реплик.»
  • «Если primary перегружена, а реплики здоровы — поэтапно перенаправить read‑трафик на реплики с шагом X%.»

В военной комнате каждый такой пункт превращается в зелёный стикер‑действие. Респондеры не тратят когнитивные ресурсы на придумание следующих шагов под давлением — они выполняют и адаптируют.

Перенос плейбуков на доску

Когда инцидент начинается, кто‑то (часто Incident Commander или писарь) быстро:

  1. Находит плейбук, лучше всего соответствующий ситуации.
  2. Выписывает первые 3–5 действий на стикеры.
  3. Размещает их в колонке To Do, упорядочив по приоритету.

По мере появления новой информации на жёлтых стикерах‑фактах команда может:

  • добавлять следующие шаги из плейбука зелёными стикерами
  • убирать или переупорядочивать задачи, исходя из обновлённых гипотез
  • добавлять ад‑хок действия рядом с прописанными в плейбуке

В итоге на доске знания из плейбуков и эксперименты в реальном времени органично смешиваются.


Ведение инцидента в аналоговой военной комнате

После того как доска настроена, ритм инцидента становится простым и наглядным.

1. Определите роли

Даже с стикерами классические роли инцидента по‑прежнему важны:

  • Incident Commander (IC) – принимает решения, держит поток в движении
  • Писарь (Scribe) – обновляет таймлайн, доску и заметки
  • Тематические респондеры – по БД, сети, приложению и т.п.
  • Коммуникационный лидер (Comms Lead) – отвечает за обновления для стейкхолдеров

Роли можно назначать на месте, просто разместив имена участников в отдельном углу доски.

2. Ведите «живой» таймлайн

Таймлайн — это будущий «скелет» пост‑инцидентного разбора. Во время инцидента он:

  • показывает, сколько вы находитесь в каждой фазе
  • выявляет разрывы между наблюдением и действием
  • привязывает решения к конкретным событиям во времени

Поощряйте писаря добавлять на таймлайн стикер при каждом значимом событии:

  • «13:58 – назначен IC; серьёзность установлена как SEV‑1»
  • «14:05 – выполнен откат деплоя API»
  • «14:12 – уровень ошибок возвращается к базовому»

3. Держите доску действий в постоянном движении

Поток To Do → In Progress → Done должен быть непрерывным.

Помогают простые правила:

  • Никто не берёт задачу, не поставив на стикере свои инициалы.
  • IC периодически просматривает колонку To Do, решает, что действительно важно, и чистит лишнее.
  • Когда задача переезжает в Done, писарь отражает важные действия и на таймлайне.

Доска превращается в актуальную картину кто что делает и зачем.


Непрерывное улучшение: развитие плейбуков и процесса

Аналоговая военная комната особенно полезна и после инцидента.

На пост‑инцидентный разбор принесите фото доски (или сами стикеры, если вы их сохранили). Пройдитесь по ним и отметьте:

  • Какие действия были строго по плейбукам
  • Какие шаги были импровизированы
  • Где возникала путаница или переделка

Из этого вы можете:

  • добавить в плейбуки недостающие скриптованные шаги
  • убрать устаревшие или малополезные действия
  • доработать разметку доски и визуальные конвенции

Со временем каждый инцидент делает ваши плейбуки точнее, а поток работы военной комнаты — более гладким. Будущие аналоговые сессии становятся быстрее, прозрачнее и структурированнее — даже если сами системы под капотом усложняются.


Когда стоит использовать аналоговую военную комнату?

Чемодан со стикерами и аналоговая военная комната особенно полезны, когда:

  • вы ведёте крупный, межкомандный инцидент в общем физическом пространстве
  • доступ к инструментам ограничен (проблемы с сетью, VPN и т.д.)
  • вы хотите обучать новых Incident Commander’ов в низкотехнологичной среде
  • вы проводите симуляции инцидентов или game day’и

Даже если основная координация ведётся в чате или специализированном incident‑инструменте, аналоговая доска может:

  • стать опорой для очного взаимодействия
  • дать единый, считываемый с одного взгляда вид инцидента
  • служить резервным вариантом, если цифровые системы откажут

Заключение: сила простых общих визуализаций

Для управления сложными инцидентами не всегда нужны сложные системы.

Чемодан со стикерами, несколько маркеров и пустая белая доска способны:

  • зафиксировать меняющееся состояние инцидента
  • превратить плейбуки в конкретные, назначенные действия
  • дать общий источник правды для всех участников
  • запустить быстрое обучение и непрерывное улучшение

В конечном счёте аналоговая военная комната — не про «низкие технологии», а про высокую ясность. Под давлением простота, наглядность и общее понимание часто выигрывают у самого навороченного набора цифровых инструментов.

В следующий раз, когда будете проводить крупный инцидент или game day, попробуйте оставить лишние дашборды за дверью. Откройте аналоговый чемодан военной комнаты, возьмите маркер — и позвольте доске стать общим мозгом вашей команды.

Аналоговый чемодан «военной комнаты»: как провести полный инцидент, имея только стикеры и белую доску | Rain Lag