Rain Lag

Аналоговый воркшоп «Трамвайная карта инцидента»: рисуем маршруты надёжности в бумажном городе отказов

Как превратить ваши инциденты в бумажную карту в стиле транспорта, которая показывает скрытые зависимости, каскадные отказы и более удачные пути реагирования и повышения устойчивости.

Аналоговый воркшоп «Трамвайная карта истории инцидента»

Ручное рисование маршрутов надёжности в бумажном городе отказов

Представьте, что вы можете проехать вместе со своим следующим инцидентом так, будто это трамвайная линия через вашу систему. Каждый алерт — это станция. Каждыйhandoff между командами — пересадка. Каждая малоизвестная зависимость — рискованный узел пересадки.

Именно в этом суть аналогового воркшопа “Трамвайная карта истории инцидента”: это совместное, бумажное упражнение, где команды буквально рисуют, как отказы проходят через инфраструктуру, инструменты, команды и процессы.

В мире дашбордов, трейсов и метрик в реальном времени это звучит подозрительно «низкотехнологично». Но в этом и идея. Когда вы отходите от экрана и замедляетесь с ручкой и бумагой, надёжность начинает выглядеть иначе.


Зачем рисовать трамвайную карту инцидентов?

Транспортные схемы превращают хаотическую географию в чистую, понятную структуру. Вы не видите каждую улицу и здание; вы видите только то, что важно для навигации:

  • чёткие линии (маршруты)
  • отдельные станции (остановки)
  • понятные пересадочные узлы (где маршруты пересекаются)

Теперь вообразите инциденты как маршруты на трамвайной карте:

  • Каждый инцидент — это линия, которая проходит через системы, команды и решения во времени.
  • Каждое событие (алерт, сообщение в Slack, неудачный деплой, ручное исправление) — станция.
  • Каждая зависимость или передача ответственности — пересадка.

Визуализируя инциденты таким образом, вы:

  • Выявляете скрытые зависимости и компоненты из серии «мы вообще забыли, что оно ещё работает».
  • Видите, как мелкие проблемы разрастаются до серьёзных аварий.
  • Понимаете, как инциденты движутся между командами и инструментами, а не только между серверами.
  • Делаете риски и узкие места очевидными с первого взгляда, а не спрятанными в логах или постмортемах.

Трамвайная карта — это не просто красивый артефакт, а общая ментальная модель, на которую все могут смотреть и обсуждать.


Бумага вместо пикселей: почему аналоговый формат важен

У вас уже есть дашборды, runbook’и, таймлайны инцидентов, трейсы и тикеты. Зачем добавлять бумагу?

Потому что аналоговый формат провоцирует другое поведение:

  1. Медленность вскрывает предположения
    Когда вы рисуете инциденты от руки, вы не можете перемотать вперёд или отфильтровать. Вам приходится решать: Что было дальше? Кто участвовал? Какую систему это задело? Эти разговоры вскрывают:

    • противоречивые воспоминания
    • невидимые зависимости
    • расплывчатую зону ответственности («А кто вообще отвечает за этот job?»)
  2. Участвовать может каждый
    Не нужно владеть каким‑то специнструментом — достаточно ручек и стикеров. Ops, разработчики, продакт, поддержка и даже руководство могут стоять вокруг одной и той же карты. Это выравнивает позиции и стимулирует общее обучение.

  3. Вы выходите из туннеля дашбордов
    Цифровые представления мощны, но сильно курированы. Они показывают то, что кто‑то решил задinstrumentировать, и в том виде, который удобен инструменту. Пустой лист бумаги не заботится о продуктах и схемах. На одном холсте вы можете объединить:

    • инфраструктуру
    • команды
    • процессы
    • инструменты
  4. Артефакт пробуждает любопытство
    Ручная карта, висящая на стене, провоцирует диалоги в коридоре: «Почему этот маршрут проходит через три команды ради простого rollback?» Со временем стена с картами превращается в живую галерею надёжности.


Как подготовить воркшоп по трамвайной карте инцидента

Вам нужно совсем немного:

Материалы:

  • большие листы бумаги или рулон крафт‑бумаги
  • цветные маркеры или ручки
  • стикеры (необязательно, но удобно)
  • скотч или большой стол/стена

Люди:

  • 1–2 опытных SRE или incident commander’а (чтобы вести рассказ)
  • инженеры из ключевых систем, затронутых инцидентом
  • представитель поддержки, продакта или customer success (если был пользовательский или бизнес‑импакт)
  • фасилитатор (может быть одним из SRE), который следит за временем и задаёт вопросы

Выбор инцидента:
Выберите один из вариантов:

  • недавний сильно повлиявший инцидент, который все помнят
  • «мелкий», но повторяющийся инцидент, который кажется фоновым шумом, но постоянно возвращается

Не начинайте с самой травматичной аварии; возьмите что‑то реальное, но достаточно безопасное для разбора.


Пошагово: рисуем бумажный город отказов

1. Определите «географию» карты

Сначала решите, что будут обозначать ваши станции. Частые варианты:

  • Системы / компоненты (API, базы данных, очереди, job’ы)
  • Команды (Backend, SRE, Data, Support)
  • Инструменты (PagerDuty, Slack, CI, дашборды)
  • Шаги процесса (Обнаружение → Диагностика → Снижение влияния → Восстановление → Обучение)

Затем набросайте простой макет:

  • Горизонтальная ось: время (слева — начало инцидента, справа — его завершение)
  • Вертикальные «пояса»: крупные домены, например:
    • верхний пояс: пользовательский и бизнес‑импакт
    • средний пояс: приложения и сервисы
    • нижний пояс: инфраструктура и внешние зависимости
    • боковая зона: команды и коммуникация

Вам не нужна идеальная схема — достаточно логичных областей, куда можно помещать станции.

2. Нанесите таймлайн инцидента как маршрут

Выберите цвет маркера для линии этого инцидента.

Пройдите по истории инцидента:

  1. Триггер. Как появился первый признак? Репорт от пользователя? Алерт? Аномалия на дашборде?

    • Нарисуйте станцию: «Пользователь жалуется на 500‑е ошибки» или «CPU‑алерт на сервис X».
  2. Распространение. Что произошло дальше? Какие системы затронул отказ?

    • Рисуйте станцию для каждого значимого перехода и соединяйте их линией.
  3. Обнаружение и реакция. Как команда заметила проблему и отреагировала?

    • Добавьте станции вроде «PagerDuty пейджит on‑call», «Создан Slack‑war‑room».
  4. Эскалации и handoff’ы. Когда в историю вошли другие команды или инструменты?

    • Это ваши пересадочные узлы.
  5. Снижение влияния и восстановление. Отметьте каждую крупную попытку исправить ситуацию — успешную и нет.

Сдерживайте желание всё ужать. Если для rollback’а деплоя потребовалось шесть handoff’ов, покажите все шесть.

3. Вытащите на свет скрытые зависимости и забытые компоненты

По ходу рисования задавайте вопросы:

  • «От чего зависело это нарушение, чтобы стать заметным?»
  • «На что оно опиралось, чтобы усугубиться?»
  • «Какие компоненты мы здесь молча считаем “просто работают”?»

Добавляйте станции для:

  • плановых job’ов, которые тихо падали
  • старых сервисов, которыми никто не хочет владеть, но все ими пользуются
  • внешних провайдеров (платёжки, DNS, auth), которые повлияли на инцидент

Используйте другой цвет или форму станций для этих «забытых» элементов. Часто именно они становятся источником каскадных отказов.

4. Вплетите практики SRE в линии и пересадки

Теперь обогатите карту структурой управления инцидентами в стиле SRE:

  • Нарисуйте отдельную «линию коммуникации», которая показывает, кто, с кем, где и когда общался (Slack‑каналы, мост‑звонки, статус‑страницы).
  • Добавьте «линию командования», показывающую роль incident commander’а, ключевые решения и эскалации.
  • Отметьте пересадочные узлы, где технические потоки пересекаются с коммуникациями, например:
    • решение сделать rollback
    • решение пейджить другую команду
    • решение обновить статус для клиентов

Так вы ясно увидите, где задержки в коммуникации или неясные роли замедлили устранение инцидента.

5. Выделите узкие места, точки излома и проблемы дизайна

Отойдите и посмотрите на карту целиком. Спросите у группы:

  • Где через одну хрупкую станцию проходят многие маршруты? (single point of failure)
  • Где видны длинные промежутки между обнаружением и действием? (медленная реакция)
  • Где линии делают лишние крюки через несколько команд? (проблемы владения или прав доступа)
  • Где отказы неожиданно перескакивают между доменами? (удивительные зависимости)

Обведите эти зоны или отметьте значками (⚠, ●●●). Это ваши горячие точки надёжности.


Как трамвайные карты улучшают будущие инциденты

После того как вы нарисуете несколько трамвайных карт инцидентов, начинают проступать закономерности.

Более быстрое и ясное принятие решений

Команды, которые видят свои инциденты в виде маршрутов:

  • пересобирают on‑call‑ротации и пути эскалаций, чтобы убрать лишние крюки
  • размещают дашборды и алерты там, где карта показывает слепые зоны
  • упрощают права и доступы, чтобы нужные люди могли действовать без ожидания

В следующий раз, когда инцидент затронет знакомый «узел пересадок», участники уже будут понимать его контекст и риск.

Лучшее взаимопонимание между ролями

Нетеxнические участники наконец видят:

  • почему «маленькое изменение конфига» вовсе не было маленьким
  • как внешние вендоры или «тот старый сервис» формируют картину отказов
  • какие команды стабильно перегружаются при каждом крупном инциденте

Это развивает эмпатию и делает разговоры о вложениях в надёжность более предметными.

Более честные разборы инцидентов

Визуальная трамвайная карта превращает постмортем из окрашенного обвинениями пересказа в совместное исследование:

  • Можно буквально показать пальцем на клубок линий и спросить: «Как мы можем сделать это проще?»
  • Люди добавляют уточнения и контекст — «На самом деле мы тогда не знали, что очередь уже забивается» — и это улучшает историческую картину.

Советы по проведению удачного воркшопа

  • Строго лимитируйте время. 60–90 минут достаточно для одного инцидента. Не гонитесь за совершенством, гонитесь за инсайтами.
  • Начинайте грубо. Сначала используйте стикеры для станций, чтобы можно было легко всё переставлять по мере прояснения истории.
  • Меняйте рассказчиков. Не давайте только сеньор‑инженерам вести весь рассказ. Просите разных участников описывать «свой» кусок.
  • Фотографируйте и слегка оцифровывайте. Потом можно перерисовать карту в диаграммном инструменте, но сохраните её «живой» характер.
  • Повторяйте регулярно. Сделайте трамвайные воркшопы частью культуры разбора инцидентов — раз в месяц или после крупных событий.

Заключение: строим город историй о надёжности

Аналоговый воркшоп «Трамвайная карта истории инцидента» — не про красивый рисунок; он про лучшее совместное мышление.

Рисуя инциденты как маршруты через бумажный город отказов, вы:

  • вытаскиваете на свет редкие и забытые зависимости
  • видите, как мелкие сбои перерастают в крупные аварии
  • совмещаете гео‑стиль ясности с абстрактными данными о надёжности
  • встраиваете роли SRE, коммуникационные пути и эскалации прямо в визуальную карту
  • создаёте совместное, медленное, аналоговое пространство, где команды могут оспаривать свои предположения и переосмысливать дизайн систем

Со временем стена с трамвайными картами превращается в живой атлас того, как ваша организация переживает отказы — и как она учится. Каждая новая линия инцидента — ещё один маршрут, по которому вы в следующий раз пройдёте увереннее.

У вас уже есть логи, трейсы и метрики. Добавьте ещё кое‑что другое: маркер, большой лист бумаги и час времени с командой. Нарисуйте историю вашего следующего инцидента. Посмотрите, где на самом деле проходят линии.

Аналоговый воркшоп «Трамвайная карта инцидента»: рисуем маршруты надёжности в бумажном городе отказов | Rain Lag