Rain Lag

Аналоговый кабинет картографов инцидентов: как дежурные инженеры на самом деле прокладывают путь через сбои

Ручные «карты‑истории» инцидентов показывают, как дежурные инженеры в реальности думают и действуют во время аварий — часто совсем не так, как предполагают формальные runbook’и. В этом посте разбираем, зачем нужны аналоговые карты, как их делать и как они вписываются в человеко‑центричную операционную модель рядом с SRE и Team Topologies.

Аналоговый кабинет картографов инцидентов: как дежурные инженеры на самом деле прокладывают путь через сбои

Когда происходит реальный инцидент, он почти никогда не идёт по аккуратным коробочкам и стрелочкам наших официальных схем.

Вместо этого дежурные инженеры импровизируют. Они следуют интуиции, перескакивают между инструментами, пишут в личку тому самому человеку, который «просто знает» странный крайний случай, и шаг за шагом сходятся к тому, что действительно происходит. Официальная архитектурная схема может висеть в Confluence — но настоящая карта того, как люди проходят через отказ, живёт у них в голове.

Здесь и появляется Аналоговый кабинет картографов инцидентов.

Это практика, в рамках которой инженеров просят от руки нарисовать, как они прошли через инцидент: что увидели, куда пошли, с кем говорили, что пробовали и как менялось их понимание происходящего. Эти аналоговые карты‑истории показывают реальный рельеф эксплуатации — хаотичный, человеческий и невероятно ценный.


Общее понимание — настоящая суперсила при инцидентах

Про реагирование на инциденты мы обычно говорим в контексте:

  • Лучших инструментов
  • Более быстрых алертов
  • Более жёстких runbook’ов
  • Более чётких ролей

Всё это важно, но во время инцидента есть одна вещь, которая критичнее любой другой:

Может ли команда построить и удерживать общее понимание того, что происходит?

Исследователи когнитивных систем называют это общей операционной картиной (common operational picture). На практике это выглядит так:

  • Все в целом согласны, что сломалось и для кого
  • У людей есть разделяемая правдоподобная гипотеза, что это вызывает
  • Есть согласованность в том, что мы делаем дальше и почему именно это

Когда это общее понимание слабое, вы видите:

  • Несколько людей параллельно дебажат одно и то же
  • В Slack одновременно звучат противоречивые объяснения
  • Люди уходят в одиночные «походы в дебаг»
  • Неясно, продвигаемся мы вперёд или теряем почву

Технические навыки и процедуры помогают, но только настолько, насколько они поддерживают эту меняющуюся ментальную картину. Настоящая работа управления инцидентом — это постоянно обновлять и выравнивать ментальные модели под давлением времени.


Ментальные модели невидимы — пока их не нарисовать

Каждый дежурный инженер носит в голове внутреннюю карту:

  • Как устроена система и как компоненты связаны друг с другом
  • Какие компоненты чаще всего ломаются и как
  • Как выглядит «норма» на каждом дашборде
  • К кому идти с тем или иным странным поведением
  • Что сработало или не сработало в похожих инцидентах раньше

Эти ментальные модели определяют:

  • Какие логи он (или она) откроет в первую очередь
  • Каким метрикам он доверяет
  • В какие Slack‑каналы зайдёт
  • Какие гипотезы кажутся «достойными проверки»

Проблема в том, что эти модели почти невидимы.

Вы не увидите, что один инженер всегда думает в парадигме «сначала база данных», а другой — «сначала сеть». Вы не заметите, что половина команды уверена, что компонент статeless, а другая половина считает, что он хранит критические сессии — пока этот рассинхрон не взорвёт координацию посреди аварии.

Сделать эти модели видимыми — через разговор, рисунки и совместные артефакты — один из самых быстрых способов улучшить координацию и снизить стресс во время инцидентов.

И именно для этого придуманы аналоговые карты‑истории инцидентов.


Что такое Аналоговый кабинет картографов инцидентов?

Думайте о нём как о регулярной практике и общей библиотеке.

  • Аналоговый – Делается от руки: ручка, бумага, доска, стикеры.
  • История инцидента – Не только система, но и сюжет того, как люди проходили через инцидент.
  • Кабинет – Место (физическое или цифровое), где эти артефакты хранятся и к ним можно возвращаться.
  • Картографы – Дежурные инженеры и участники реагирования, которые рисуют эти карты.

В основе — простой принцип:

После значимых инцидентов каждый ключевой участник от руки рисует карту того, как он на самом деле проходил через отказ.

На каждой карте есть:

  • Точка входа: Как он впервые заметил, что что‑то не так
  • Путь: Куда он пошёл (дашборды, сервисы, люди, инструменты)
  • Развилки: Точки решений и отброшенные гипотезы
  • Ориентиры: Подсказки и сигналы, которые меняли мышление
  • Финал: Что в итоге «щёлкнуло» и что было сделано

Результат — коллекция сырых, человеческих карт, которые часто совсем не похожи на ваши формальные архитектурные схемы или runbook’и.


Почему именно ручные карты, а не просто «лучшие диаграммы»?

Логичный вопрос: почему бы просто не улучшить официальные диаграммы? Зачем настаивать на аналоговых, нарисованных от руки картах?

Потому что аналоговые карты улавливают то, что цифровые диаграммы почти всегда теряют:

  1. Нарративный поток
    Цифровые диаграммы показывают структуру. Ручные карты показывают последовательность: «Я увидел это, поэтому посмотрел туда, потом написал им». Именно так люди в реальности двигаются по инциденту.

  2. Неопределённость и тупики
    Инженеры рисуют зачёркнутые пути, большие вопросительные знаки, пометки вроде «странный спайк??». Это границы знаний — там, где подвели инструменты, документация или понимание.

  3. Неформальную систему
    Стрелки к «#infra‑secrets», «спросить Майю» или «старый Jira‑тикет 2022» не попадают в архитектурную схему. Зато они есть на карте инцидента.

  4. «Проживаемую» топологию
    Со временем по этим картам видно, что команда чувствует связанным. Два сервиса, которые «по задумке независимы», но постоянно появляются рядом на картах инцидентов, на деле независимыми не являются.

  5. Низкий порог входа, высокая честность
    Рисовать от руки быстро и просто. Люди меньше зажимаются и честнее, чем когда им нужно доводить до лоска схему в Lucidchart или Figma.


Как провести сессию аналоговой картографии

Можно начать совсем скромно. После заметного инцидента (даже небольшого) сделайте это в течение дня‑двух:

  1. Соберите участников реагирования
    Оптимально 3–8 человек, которые реально были вовлечены.

  2. Дайте им простые инструменты
    Бумага, стикеры, ручки, маркеры. Если вы распределённая команда: пустые слайды или виртуальная доска, но всё равно поощряйте «ручной» стиль.

  3. Попросите каждого нарисовать свою карту
    Подскажите им:

    • «Начни с того, как ты впервые понял, что что‑то сломалось».
    • «Нарисуй, на что ты смотрел, с кем говорил и что пробовал».
    • «Отметь тупики, моменты непонимания или поворотные точки, когда картинка в голове изменилась».
  4. Показать, рассказать и сравнить
    Каждый прогуливается по своей карте, остальные слушают и помечают что‑то у себя:

    • «Я вообще не знал, что такой дашборд существует».
    • «Подожди, ты думал, что это кеш? Я был уверен, что это очередь».
    • «Я не представлял, что этот алерт для тебя всегда шумный».
  5. Найти паттерны и провалы
    Вместе посмотрите, где:

    • Повторяются лишние петли и тупиковые ветки
    • Сильно расходятся представления о том, как ведут себя компоненты
    • Не хватает инструментов или их трудно найти (дашборды, панели)
    • Есть социальные зависимости («Без Алекса мы это не чинем»)
  6. Зафиксировать мета‑инсайты
    Не ограничивайтесь просто хранением рисунков. Запишите несколько пунктов:

    • Что нас удивило?
    • Что показывают эти карты такого, чего нет в runbook’ах или диаграммах?
    • Какие простые изменения сократили бы эти пути?
  7. Положить карты в «кабинет»
    «Кабинет» может быть:

    • Буквальной папкой в командном пространстве
    • Вики‑страницей с фотографиями карт
    • Разделом в Notion/Confluence под названием «Карты‑истории инцидентов»

Повторяйте эту практику регулярно, не только после крупных аварий. Со временем ваш кабинет превратится в визуальную историю того, как система и команда эволюционировали вместе.


Как эти карты меняют вашу операционную модель

Аналоговый кабинет картографов инцидентов не заменяет SRE или Team Topologies. Он живёт рядом с ними и усиливает их ключевые идеи.

В связке с практиками SRE

  • Error budget’ы и SLO подсказывают, когда у вас проблемы.
  • Картография инцидентов помогает понять, как вы на самом деле находите дорогу наружу.

Паттерны, которые проявляются на картах‑историях, можно возвращать обратно в практику:

  • Улучшение алертов (раньше выводить на поверхность нужные «ориентиры»)
  • Более реалистичные runbook’и (отражающие те реальные пути, по которым ходят люди)
  • Инвестиции в инструменты (автоматизация самых болезненных шагов, которые все постоянно рисуют)

В связке с Team Topologies

Team Topologies делает акцент на взаимодействиях команд и потоке изменений. Карты‑истории делают эти потоки видимыми во время инцидентов:

  • Где мы постоянно «перекидываем мяч» между командами?
  • Какие команды неожиданно оказываются критическими зависимостями?
  • Где когнитивная нагрузка во время аварии максимальна?

Эти карты часто показывают, что ваши «задуманные» границы команд и ваши «операционные» границы во время инцидентов расходятся — важный сигнал к переосмыслению зон ответственности или интерфейсов между командами.

К человеко‑центричной операционной модели

Большинство операционных моделей центрированы вокруг инструментов и процессов:

  • Вот диаграмма.
  • Вот runbook.
  • Вот цепочка эскалаций.

Аналоговая картография инцидентов возвращает фокус к человеческой системе:

  • Как люди на самом деле ощущают, интерпретируют и что делают?
  • Где ломается понимание?
  • Где координация особенно хрупкая?

Когда вы относитесь к этим вопросам как к первоклассным, вы получаете операционную модель, которая крепка не только на бумаге, но и устойчива в реальной практике.


Как начать: минимальный playbook

Чтобы ввести это в своей организации, не нужен большой проект. Попробуйте так:

  1. Выберите один недавний инцидент, о котором все ещё хорошо помнят.
  2. Пригласите участников реагирования на 45–60‑минутную «картографическую ретроспективу».
    Отдельно подчеркните: это не про поиск виноватых, это про понимание.
  3. Проведите упражнение с ручными картами и обсуждением.
  4. Опубликуйте карты и короткое резюме того, что вы узнали.
  5. Повторяйте — сделайте то же после следующего заметного инцидента.

Если людям это окажется полезно (обычно так и бывает), можно формализовать практику как лёгкую часть процесса обзора инцидентов.


Заключение: нарисуйте карту, по которой вы реально ходите

У любой команды по сути две карты системы:

  1. Официальная, цифровая: архитектурные схемы, каталоги сервисов, runbook’и.
  2. Неофициальная, ментальная: та, которой инженеры пользуются в 3 часа ночи, когда всё горит.

Большинство организаций много инвестируют в первую и почти игнорируют вторую.

Аналоговый кабинет картографов инцидентов — это способ вытащить ментальные карты на свет: признать реальные маршруты, по которым инженеры проходят через сбои, и извлечь из них уроки.

Когда вы это делаете, вы получаете:

  • Более быстрый и спокойный ответ на инциденты
  • Более ясное общее понимание под стрессом
  • Более приземлённые улучшения инструментов и процессов
  • Живую, человеко‑центричную операционную модель, которая развивается вместе с системой

Если вы хотите понять, как ваша система на самом деле работает в продакшене, не ограничивайтесь архитектурной диаграммой.

Попросите инженеров взять ручку и нарисовать историю того, как они выбрались из последней аварии.

Именно по этой карте вы сейчас ходите — и именно её стоит улучшать.

Аналоговый кабинет картографов инцидентов: как дежурные инженеры на самом деле прокладывают путь через сбои | Rain Lag