Картонная трамвайная раскадровка аварий: разбираем инциденты кадр за кадром

Послеинцидентные разборы часто напоминают чтение отчёта о преступлении в обратном порядке: разрозненные логи, смутно вспомнившиеся сообщения в Slack, нервная хронология и жаркие споры о том, что «на самом деле» произошло. Каждый уверен, что был прав; никто не уверен в последовательности. Результат? Медленное обучение, повторяющиеся ошибки и усталость от инцидентов.

Есть способ лучше: относиться к анализу аварий как к криминалистике и визуализировать его как раскадровку.

В этом материале мы разберём «Картонную трамвайную раскадровку аварий» — простой физический способ пройти через инцидент кадр за кадром, используя бумажные «сцены» на стене. Он сочетает криминалистический подход с приёмами раскадровки, чтобы выяснить, что именно произошло, почему это произошло и как в следующий раз реагировать лучше.

Зачем делать раскадровку аварии?

Когда случается авария, информация поступает фрагментами:

Срабатывает алерт в системе мониторинга.
Кто‑то замечает жалобы клиентов в соцсетях.
Инженер перезапускает сервис.
Менеджер пишет в Slack.
Метрика по базе данных взлетает, затем приходит в норму.

Позже, на разборе инцидента, эти фрагменты оказываются закопанными в инструментах и чьих‑то воспоминаниях. Хронология воссоздаётся по логам, сообщениям и тикетам. Но без чёткой визуальной последовательности команда скатывается к поиску виноватых, упрощённым историям и ошибке задним числом.

Трамвайная раскадровка решает это за счёт:

Видимой оси времени — каждый видит, когда на самом деле происходили события.
Декомпозиции сложности на кадры — алерты, решения, действия и последствия становятся отдельными шагами.
Синхронизации перспектив — кросс‑функциональная группа буквально стоит в одном пространстве и смотрит на одну и ту же стену.
Выявления пробелов — становится очевидно, где нет данных, алерты запоздали или коммуникация «провалилась».

Цель не в том, чтобы создать арт‑объект. Цель — общее понимание.

Шаг 1. Начните с криминалистического мышления

Думайте как следователь, а не как судья.

Относитесь к инциденту как к делу, которое нужно исследовать:

Соберите доказательства: логи, скриншоты метрик, треды в Slack, change‑тикеты, pager‑алерты, обращения пользователей, заметки дежурного.
Сохраните последовательность: фиксируйте таймстемпы максимально точно (включая часовые пояса).
Описывайте, а не оценивайте: записывайте, что произошло, а не что «должно было» произойти.

Ваша задача — восстановить:

Кто что сделал, когда, располагая какой информацией, и что произошло дальше?

Такой подход смещает фокус с «Кто накосячил?» к «Как наша система и процессы привели к этому результату?» — это фундамент продуктивной трамвайной раскадровки.

Шаг 2. Постройте трамвайную линию‑хронологию на стене

Теперь переносим работу из инструментов на стену.

Освойте физическое пространство: длинная стена, несколько досок или листы бумаги, приклеенные подряд.
Нарисуйте вертикальную ось времени:
- Вертикальная ось = время (верх — самое раннее, низ — самое позднее).
- Отметьте ключевые единицы времени: минуты для «горячей» фазы, часы или дни для затянувшихся инцидентов.
Создайте горизонтальную «трамвайную линию»:
- Представьте её как рельс, на котором каждый «вагон» — это кадр.
- По горизонтали возле отметок времени прикрепляйте ряды карточек или стикеров.

Почему время по вертикали? Потому что это естественным образом заставляет людей ходить вдоль инцидента — сверху вниз, от начала к концу, — и по горизонтали разделяет разные потоки активности.

Теперь у вас есть пустая трамвайная линия — каркас, на который вы повесите всю историю инцидента.

Шаг 3. Разбейте инцидент на кадры

Дальше разбиваем инцидент на дискретные, визуальные кадры. Каждый кадр — это маленькая сцена, представляющая один шаг:

Сработал алерт
Было принято решение
Было выполнено действие
Было зафиксировано последствие

Используйте карточки, стикеры или листы формата A5. На каждой зафиксируйте:

Время (например, 14:32)
Тип (alert, decision, action, outcome — при желании можно оставить английские термины)
Кто (команда или роль, не обязательно имена)
Что произошло (одно‑два чётких предложения)
Где лежат доказательства (ссылка на лог, дашборд, канал в Slack, ID тикета)

Примеры кадров:

14:17 – Alert
PagerDuty: высокий error rate Checkout API в prod-eu.
14:20 – Decision
On‑call (Backend) классифицирует инцидент как SEV‑2; публичный статус пока не обновляется.
14:26 – Action
SRE откатывает деплой checkout-service v2024.05.12-01.
14:30 – Outcome
Error rate падает, но растёт latency; увеличивается число ошибок логина.

Размещайте каждый кадр на правильном месте по вертикальной оси времени и в соответствующей горизонтальной «дорожке» (например: Observability, Backend, SRE, Customer Support, Comms).

Внезапно ваш инцидент перестаёт быть туманом из историй. Это уже плёнка — кадр за кадром.

Шаг 4. Пройдитесь вдоль стены с кросс‑функциональной командой

Раскадровка работает только тогда, когда все ключевые действующие лица на площадке.

Пригласите:

Дежурных инженеров (SRE, backend, frontend, data и др.)
Инцидент‑командиров или координаторов
Саппорт или customer success
Продуктовых владельцев или менеджеров
Ответственных за коммуникации / статус‑страницу

Вместе пройдитесь вдоль стены сверху вниз:

Озвучьте историю: кто‑то читает каждый кадр вслух.
Просите дополнений: «Что ещё происходило в этот момент?»
Накладывайте несколько точек зрения: добавляйте новые кадры, когда кто‑то говорит: «В это время саппорт уже был завален тикетами» или «Мы как раз тестировали фикс в staging».
Отмечайте неопределённость: если никто не уверен, что происходило в конкретный промежуток, помечайте это другим цветом: «Неизвестно — нужны данные».

Такой физический обход даёт три мощных эффекта:

Делает невидимую работу видимой (саппорт, коммуникации, ручные проверки).
Выявляет пробелы в коммуникации (никто не предупредил саппорт об инциденте 40 минут).
Синхронизирует ментальные модели (участники видят одну и ту же последовательность и перестают спорить о конфликтующих таймлайнах).

Стена становится общей точкой опоры, а не полем для споров.

Шаг 5. Думайте как художник по раскадровке (а не как художник вообще)

Вы не рисуете кадры для Pixar. Вы заимствуете именно навыки раскадровки, а не художественное мастерство.

Художники по раскадровке фокусируются на:

Последовательности — что происходит сначала, затем, и что идёт после.
Ясности действия — каждый кадр чётко показывает один шаг.
Ракурсах — один и тот же момент с разных точек зрения.

Перенесём это в разбор инцидента:

Избегайте перегруженных, захламлённых карточек. Каждая должна показывать одно понятное действие или наблюдение.
Используйте простые иконки или «человечков», если это помогает, но не застревайте на качестве рисунка.
Введите цветовое кодирование для ясности:
- Красный — алерты или отказы
- Синий — решения
- Зелёный — действия
- Жёлтый — последствия или внешний эффект

Дополнительно можно добавить простые стрелки между связанными кадрами, чтобы подчеркнуть причинно‑следственные связи: «Этот откат вызвал тот побочный эффект» или «Это задержанное решение усилило влияние на клиентов».

Цель остаётся прежней: любой человек «с улицы» должен, пройдя по трамвайной линии, понять, что произошло.

Шаг 6. Используйте раскадровку, чтобы выявить пробелы

Когда трамвайная линия заполнена, отойдите и посмотрите на неё целиком — ищите паттерны и дыры.

Обращайте внимание на:

Пробелы в мониторинге
- Долгие отрезки «тишины» до обнаружения инцидента.
- Жалобы клиентов раньше любых внутренних алертов.
- Критические шаги без метрик или логов.
Пробелы в коммуникации
- Саппорт узнаёт об инциденте от рассерженных пользователей.
- Инженеры применяют фиксы, не уведомляя инцидент‑командира.
- Обновления статус‑страницы сильно отстают от внутренних действий.
«Узкие горлышки» в принятии решений
- Повторяющееся ожидание конкретного человека или команды.
- Неясно, кто может авторизовать откат или фейловер.
Несостыковки процессов
- Runbook’и не соответствуют тому, что реально делали респондеры.
- Инструменты, которые обходят стороной, потому что они слишком медленные или непонятные.

Помечайте такие места заметными маркерами на стене: кружками, вопросительными знаками или отдельными стикерами «gap/пробел». Это не жалобы — это улики.

Шаг 7. Превратите инсайты в конкретные действия

Красивая раскадровка без последующих шагов — всего лишь настенное украшение.

Преобразуйте инсайты в конкретные действия с ответственными. По каждому крупному пробелу задайте вопросы:

Какое изменение сократило бы влияние инцидента или ускорило диагностику?
Кто владеет этим изменением?
Какое самое маленькое полезное улучшение мы можем внедрить в ближайшее время?

Типичные последующие шаги:

Улучшенные runbook’и
- Добавьте или обновите шаги, которые реально использовали респондеры.
- Вставьте скриншоты или ссылки прямо на дашборды, которые были ключевыми.
- Проясните пути эскалации и зоны ответственности за решения.
Лучшие инструменты
- Добавьте или перенастройте алерты, чтобы раньше ловить сигнал.
- Создайте композитные дашборды, отражающие ключевые кадры трамвайной линии.
- Автоматизируйте типовые действия (например, безопасный откат, очистка кэша, переключение feature flag’ов).
Более ясные роли и ритуалы
- Опишите роль инцидент‑командира и его ответственность.
- Установите стандарт: кто и как часто обновляет статус‑страницу.
- Заранее назначьте бэкапов для критичных систем, чтобы избежать «единственных носителей знания».

Сделайте эти follow‑up’ы видимыми и отслеживаемыми в вашей обычной системе планирования (Jira, Linear, Asana и т.п.) и, по возможности, повесьте небольшой принт трамвайной линии рядом с командой как напоминание о полученных уроках.

Собираем всё вместе

Картонная трамвайная раскадровка аварий — низкотехнологичный, но очень мощный инструмент:

Превращает разрозненные данные в связный визуальный нарратив.
Помогает командам мыслить как криминалисты, а не охотники за виноватыми.
Использует техники раскадровки — последовательность, ясность, несколько точек зрения — без требования художественных навыков.
Естественным образом вовлекает кросс‑функциональные роли, делая видимой скрытую работу и ранее упущенные перспективы.
Ведёт к конкретным улучшениям в runbook’ах, инструментах и распределении ролей.

В следующий раз, когда будете проводить post‑incident review, удержитесь от соблазна сразу открыть общий документ. Вместо этого возьмите бумагу, скотч и маркеры. Нарисуйте вертикальную ось времени, подтяните все доказательства и пройдите через инцидент, как съёмочная группа, просматривающая дневные отснятые материалы.

Вы можете обнаружить, что ваш самый продвинутый инструмент анализа инцидентов — это не новый дашборд, а стена из картонных сцен, которая наконец показывает всем одну и ту же историю.