Rain Lag

Картонная трамвайная раскадровка аварий: разбираем инциденты кадр за кадром

Как превратить хаотичные разборы аварий в наглядный, по‑кадровый «криминалистический» разбор с помощью физической раскадровки‑трамвайной линии на стене — чтобы команда действительно поняла, что произошло, и смогла предотвратить повторение.

Картонная трамвайная раскадровка аварий: разбираем инциденты кадр за кадром

Послеинцидентные разборы часто напоминают чтение отчёта о преступлении в обратном порядке: разрозненные логи, смутно вспомнившиеся сообщения в Slack, нервная хронология и жаркие споры о том, что «на самом деле» произошло. Каждый уверен, что был прав; никто не уверен в последовательности. Результат? Медленное обучение, повторяющиеся ошибки и усталость от инцидентов.

Есть способ лучше: относиться к анализу аварий как к криминалистике и визуализировать его как раскадровку.

В этом материале мы разберём «Картонную трамвайную раскадровку аварий» — простой физический способ пройти через инцидент кадр за кадром, используя бумажные «сцены» на стене. Он сочетает криминалистический подход с приёмами раскадровки, чтобы выяснить, что именно произошло, почему это произошло и как в следующий раз реагировать лучше.


Зачем делать раскадровку аварии?

Когда случается авария, информация поступает фрагментами:

  • Срабатывает алерт в системе мониторинга.
  • Кто‑то замечает жалобы клиентов в соцсетях.
  • Инженер перезапускает сервис.
  • Менеджер пишет в Slack.
  • Метрика по базе данных взлетает, затем приходит в норму.

Позже, на разборе инцидента, эти фрагменты оказываются закопанными в инструментах и чьих‑то воспоминаниях. Хронология воссоздаётся по логам, сообщениям и тикетам. Но без чёткой визуальной последовательности команда скатывается к поиску виноватых, упрощённым историям и ошибке задним числом.

Трамвайная раскадровка решает это за счёт:

  • Видимой оси времени — каждый видит, когда на самом деле происходили события.
  • Декомпозиции сложности на кадры — алерты, решения, действия и последствия становятся отдельными шагами.
  • Синхронизации перспектив — кросс‑функциональная группа буквально стоит в одном пространстве и смотрит на одну и ту же стену.
  • Выявления пробелов — становится очевидно, где нет данных, алерты запоздали или коммуникация «провалилась».

Цель не в том, чтобы создать арт‑объект. Цель — общее понимание.


Шаг 1. Начните с криминалистического мышления

Думайте как следователь, а не как судья.

Относитесь к инциденту как к делу, которое нужно исследовать:

  • Соберите доказательства: логи, скриншоты метрик, треды в Slack, change‑тикеты, pager‑алерты, обращения пользователей, заметки дежурного.
  • Сохраните последовательность: фиксируйте таймстемпы максимально точно (включая часовые пояса).
  • Описывайте, а не оценивайте: записывайте, что произошло, а не что «должно было» произойти.

Ваша задача — восстановить:

Кто что сделал, когда, располагая какой информацией, и что произошло дальше?

Такой подход смещает фокус с «Кто накосячил?» к «Как наша система и процессы привели к этому результату?» — это фундамент продуктивной трамвайной раскадровки.


Шаг 2. Постройте трамвайную линию‑хронологию на стене

Теперь переносим работу из инструментов на стену.

  1. Освойте физическое пространство: длинная стена, несколько досок или листы бумаги, приклеенные подряд.
  2. Нарисуйте вертикальную ось времени:
    • Вертикальная ось = время (верх — самое раннее, низ — самое позднее).
    • Отметьте ключевые единицы времени: минуты для «горячей» фазы, часы или дни для затянувшихся инцидентов.
  3. Создайте горизонтальную «трамвайную линию»:
    • Представьте её как рельс, на котором каждый «вагон» — это кадр.
    • По горизонтали возле отметок времени прикрепляйте ряды карточек или стикеров.

Почему время по вертикали? Потому что это естественным образом заставляет людей ходить вдоль инцидента — сверху вниз, от начала к концу, — и по горизонтали разделяет разные потоки активности.

Теперь у вас есть пустая трамвайная линия — каркас, на который вы повесите всю историю инцидента.


Шаг 3. Разбейте инцидент на кадры

Дальше разбиваем инцидент на дискретные, визуальные кадры. Каждый кадр — это маленькая сцена, представляющая один шаг:

  • Сработал алерт
  • Было принято решение
  • Было выполнено действие
  • Было зафиксировано последствие

Используйте карточки, стикеры или листы формата A5. На каждой зафиксируйте:

  • Время (например, 14:32)
  • Тип (alert, decision, action, outcome — при желании можно оставить английские термины)
  • Кто (команда или роль, не обязательно имена)
  • Что произошло (одно‑два чётких предложения)
  • Где лежат доказательства (ссылка на лог, дашборд, канал в Slack, ID тикета)

Примеры кадров:

  • 14:17 – Alert
    PagerDuty: высокий error rate Checkout API в prod-eu.

  • 14:20 – Decision
    On‑call (Backend) классифицирует инцидент как SEV‑2; публичный статус пока не обновляется.

  • 14:26 – Action
    SRE откатывает деплой checkout-service v2024.05.12-01.

  • 14:30 – Outcome
    Error rate падает, но растёт latency; увеличивается число ошибок логина.

Размещайте каждый кадр на правильном месте по вертикальной оси времени и в соответствующей горизонтальной «дорожке» (например: Observability, Backend, SRE, Customer Support, Comms).

Внезапно ваш инцидент перестаёт быть туманом из историй. Это уже плёнка — кадр за кадром.


Шаг 4. Пройдитесь вдоль стены с кросс‑функциональной командой

Раскадровка работает только тогда, когда все ключевые действующие лица на площадке.

Пригласите:

  • Дежурных инженеров (SRE, backend, frontend, data и др.)
  • Инцидент‑командиров или координаторов
  • Саппорт или customer success
  • Продуктовых владельцев или менеджеров
  • Ответственных за коммуникации / статус‑страницу

Вместе пройдитесь вдоль стены сверху вниз:

  1. Озвучьте историю: кто‑то читает каждый кадр вслух.
  2. Просите дополнений: «Что ещё происходило в этот момент?»
  3. Накладывайте несколько точек зрения: добавляйте новые кадры, когда кто‑то говорит: «В это время саппорт уже был завален тикетами» или «Мы как раз тестировали фикс в staging».
  4. Отмечайте неопределённость: если никто не уверен, что происходило в конкретный промежуток, помечайте это другим цветом: «Неизвестно — нужны данные».

Такой физический обход даёт три мощных эффекта:

  • Делает невидимую работу видимой (саппорт, коммуникации, ручные проверки).
  • Выявляет пробелы в коммуникации (никто не предупредил саппорт об инциденте 40 минут).
  • Синхронизирует ментальные модели (участники видят одну и ту же последовательность и перестают спорить о конфликтующих таймлайнах).

Стена становится общей точкой опоры, а не полем для споров.


Шаг 5. Думайте как художник по раскадровке (а не как художник вообще)

Вы не рисуете кадры для Pixar. Вы заимствуете именно навыки раскадровки, а не художественное мастерство.

Художники по раскадровке фокусируются на:

  • Последовательности — что происходит сначала, затем, и что идёт после.
  • Ясности действия — каждый кадр чётко показывает один шаг.
  • Ракурсах — один и тот же момент с разных точек зрения.

Перенесём это в разбор инцидента:

  • Избегайте перегруженных, захламлённых карточек. Каждая должна показывать одно понятное действие или наблюдение.
  • Используйте простые иконки или «человечков», если это помогает, но не застревайте на качестве рисунка.
  • Введите цветовое кодирование для ясности:
    • Красный — алерты или отказы
    • Синий — решения
    • Зелёный — действия
    • Жёлтый — последствия или внешний эффект

Дополнительно можно добавить простые стрелки между связанными кадрами, чтобы подчеркнуть причинно‑следственные связи: «Этот откат вызвал тот побочный эффект» или «Это задержанное решение усилило влияние на клиентов».

Цель остаётся прежней: любой человек «с улицы» должен, пройдя по трамвайной линии, понять, что произошло.


Шаг 6. Используйте раскадровку, чтобы выявить пробелы

Когда трамвайная линия заполнена, отойдите и посмотрите на неё целиком — ищите паттерны и дыры.

Обращайте внимание на:

  • Пробелы в мониторинге

    • Долгие отрезки «тишины» до обнаружения инцидента.
    • Жалобы клиентов раньше любых внутренних алертов.
    • Критические шаги без метрик или логов.
  • Пробелы в коммуникации

    • Саппорт узнаёт об инциденте от рассерженных пользователей.
    • Инженеры применяют фиксы, не уведомляя инцидент‑командира.
    • Обновления статус‑страницы сильно отстают от внутренних действий.
  • «Узкие горлышки» в принятии решений

    • Повторяющееся ожидание конкретного человека или команды.
    • Неясно, кто может авторизовать откат или фейловер.
  • Несостыковки процессов

    • Runbook’и не соответствуют тому, что реально делали респондеры.
    • Инструменты, которые обходят стороной, потому что они слишком медленные или непонятные.

Помечайте такие места заметными маркерами на стене: кружками, вопросительными знаками или отдельными стикерами «gap/пробел». Это не жалобы — это улики.


Шаг 7. Превратите инсайты в конкретные действия

Красивая раскадровка без последующих шагов — всего лишь настенное украшение.

Преобразуйте инсайты в конкретные действия с ответственными. По каждому крупному пробелу задайте вопросы:

  1. Какое изменение сократило бы влияние инцидента или ускорило диагностику?
  2. Кто владеет этим изменением?
  3. Какое самое маленькое полезное улучшение мы можем внедрить в ближайшее время?

Типичные последующие шаги:

  • Улучшенные runbook’и

    • Добавьте или обновите шаги, которые реально использовали респондеры.
    • Вставьте скриншоты или ссылки прямо на дашборды, которые были ключевыми.
    • Проясните пути эскалации и зоны ответственности за решения.
  • Лучшие инструменты

    • Добавьте или перенастройте алерты, чтобы раньше ловить сигнал.
    • Создайте композитные дашборды, отражающие ключевые кадры трамвайной линии.
    • Автоматизируйте типовые действия (например, безопасный откат, очистка кэша, переключение feature flag’ов).
  • Более ясные роли и ритуалы

    • Опишите роль инцидент‑командира и его ответственность.
    • Установите стандарт: кто и как часто обновляет статус‑страницу.
    • Заранее назначьте бэкапов для критичных систем, чтобы избежать «единственных носителей знания».

Сделайте эти follow‑up’ы видимыми и отслеживаемыми в вашей обычной системе планирования (Jira, Linear, Asana и т.п.) и, по возможности, повесьте небольшой принт трамвайной линии рядом с командой как напоминание о полученных уроках.


Собираем всё вместе

Картонная трамвайная раскадровка аварий — низкотехнологичный, но очень мощный инструмент:

  • Превращает разрозненные данные в связный визуальный нарратив.
  • Помогает командам мыслить как криминалисты, а не охотники за виноватыми.
  • Использует техники раскадровки — последовательность, ясность, несколько точек зрения — без требования художественных навыков.
  • Естественным образом вовлекает кросс‑функциональные роли, делая видимой скрытую работу и ранее упущенные перспективы.
  • Ведёт к конкретным улучшениям в runbook’ах, инструментах и распределении ролей.

В следующий раз, когда будете проводить post‑incident review, удержитесь от соблазна сразу открыть общий документ. Вместо этого возьмите бумагу, скотч и маркеры. Нарисуйте вертикальную ось времени, подтяните все доказательства и пройдите через инцидент, как съёмочная группа, просматривающая дневные отснятые материалы.

Вы можете обнаружить, что ваш самый продвинутый инструмент анализа инцидентов — это не новый дашборд, а стена из картонных сцен, которая наконец показывает всем одну и ту же историю.

Картонная трамвайная раскадровка аварий: разбираем инциденты кадр за кадром | Rain Lag