Rain Lag

Аналоговый инцидентный Таро: как спроектировать «карты судьбы» для вашего следующего продакшен-сбоя

Как «карты судьбы» в стиле таро могут превратить практику реагирования на инциденты в совместную, малострессовую игру, которая прокачивает навыки, повышает психологическую безопасность и укрепляет устойчивость системы.

Аналоговый инцидентный Таро: как спроектировать «карты судьбы» для вашего следующего продакшен-сбоя

Современный разбор инцидентов — это море дашбордов, алертов и ранбуков, но подозрительно мало игры. Мы тренируемся по документам, по слайдам, иногда через chaos‑эксперименты, но почти никогда — с инструментами, которые тактильные, социальные и просто весёлые.

Знакомьтесь: Аналоговый инцидентный Таро — физическая колода карт в стиле таро, созданная для того, чтобы команды могли вместе, за столом, проигрывать аварии, исследовать отказы и разбирать уроки после инцидентов.

Речь не о мистике. Речь о том, чтобы использовать знакомые, «игровые» ритуалы, чтобы:

  • Превратить стрессовые темы в низкорисковую практику
  • «Геймифицировать» ретроспективы, не теряя глубины и строгости
  • Построить общий язык для обсуждения поведения и паттернов
  • Сделать тренировки по инцидентам доступными и для новичков, и для экспертов

Иными словами: мы проектируем «карты судьбы» для вашего следующего продакшен-отказа.


Зачем аналоговые карты в цифровом мире

Почти все инструменты для работы с инцидентами — цифровые: мониторинговые дашборды, Slack‑боты, онколл‑планировщики. Зачем сюда добавлять бумажные карты?

1. Физические объекты меняют динамику общения

Передать карту, положить её на стол или перевернуть — это маленький ритуал. Этот ритуал:

  • Замедляет накалившийся разговор
  • Фокусирует внимание группы на общем объекте
  • Делает абстрактные проблемы более осязаемыми

В группе карты помогают перераспределять власть. Младший инженер, переворачивающий карту «Шаг вперёд в лидерство» или «Задай базовый вопрос», может участвовать гораздо увереннее, чем в свободной дискуссии, где доминируют старшие коллеги.

2. Карты поддерживают психологическую безопасность

Классические постмортемы часто ощущаются как перекрёстный допрос, особенно в культурах, склонных к поиску виноватых. Карты меняют тональность:

  • Вы играете в игру со сценариями и персонажами, а не защищаете свои прошлые решения.
  • Фокус смещается с «кто накосячил?» на «как система ведёт себя, когда судьба сдаёт нам вот такую карту?»
  • Подсказки и персонажи дают людям язык, чтобы описывать свои реакции, не обвиняя себя.

3. Они независимы от технологий

Колода карт не интересуется, у вас Kubernetes, serverless или монолит 2009 года. Она воплощает концепции: конфликтующие приоритеты, неполную наблюдаемость, размытое владение, неожиданные режимы отказа. Благодаря этому её можно использовать в разных командах и на разных платформах.


Собираем свою колоду Аналогового инцидентного Таро

Думайте о колоде как о наборе из четырёх основных «мастей»:

  1. Сценарии инцидентов (Карты судьбы)
  2. Карты хаоса и модификаторы отказов
  3. Карты персон и моделей поведения
  4. Карты для рефлексии и ретроспективы

Каждая «масть» поддерживает свою фазу практики: от моделирования самого сбоя до исследования того, как реагирует команда.

1. Карты сценариев инцидента (Карты судьбы)

Они задают сцену: что пошло не так в вашем воображаемом (или восстановленном по фактам) инциденте?

Примеры:

  • Беззвучный пейджер — алерты не сработали или ушли не туда.
  • Медленное закипание — латентность растёт часами, и первыми это замечают пользователи.
  • Призрачный feature flag — забытый флаг внезапно включает рисковый участок кода.
  • Затмение третьей стороны — внешний сервис или зависимость деградирует или полностью падает.
  • Split-brain — конфликтующие источники истины: логи против метрик против трейсов.

Каждая карта описывает:

  • Симптомы (что видят пользователи и системы)
  • Исходную наблюдаемость (что показывают ваши инструменты)
  • Давление стейкхолдеров (клиенты, руководство, внешние партнёры)

Эти карты имитируют всю грязную реальность продакшен‑инцидентов — но в безопасной, разговорной обстановке.

2. Карты хаоса и модификаторы отказов

Заимствуя идеи из chaos engineering, эти карты добавляют сложности к базовому сценарию. Они атакуют не живые системы, а ваши предпосылки и ожидания.

Примеры:

  • Пропавший ранбук — нужный плейбук устарел или исчез.
  • Запрещённый откат — rollback невозможен из‑за изменений в данных или внешних контрактах.
  • Падение инструмента — ваш основной observability‑инструмент деградировал.
  • Неожиданная связность — «несвязанный» сервис на деле оказался критически важным.
  • Дежурство выходного дня — дежурит скелетная смена, старшие инженеры недоступны.

Используйте их, чтобы спросить:

  • Как команда действует, когда очевидный путь закрыт?
  • Какие системные слабости становятся заметны?
  • Какие предположения о «страховках» не работают при таком повороте?

Это chaos‑тестирование для умов и процессов, а не для машин.

3. Карты персон и поведения

Вдохновившись персонадными колодами (например, 18 персонами Lean Tarot), эти карты представляют собой типичные командные роли и поведенческие архетипы во время инцидентов.

Примеры:

  • Герой — перехватывает управление, чинит всё сам, монополизирует контекст.
  • Оптимизатор — хочет во время инцидента «переделать всё правильно» и заняться рефакторингом.
  • Нарратор — хорошо коммуницирует, держит всех в курсе, выстраивает общую картину.
  • Скептик — ставит под вопрос допущения, требует больше доказательств.
  • Исчезающий — пропадает, когда растёт давление.
  • Хранитель границ — защищает команду от расползания задач и отвлечений.

Есть два мощных способа их использовать:

  1. Ролевой разыгрыш во время учений
    Раздайте персонажей в начале упражнения. Попросите людей осознанно «сыграть» архетип и посмотреть, как это меняет динамику команды.

  2. Распознавание паттернов на ретро
    После реального инцидента разложите карты персон и обсудите:

    • Какие персонажи явно присутствовали?
    • Кого не хватало (например, не было Нарратора)?
    • Кого было чрезмерно много (например, слишком много Героев)?

Карты персон помогают обсуждать паттерны поведения, а не конкретных людей. Это снижает оборонительную реакцию и повышает психологическую безопасность.

4. Карты для рефлексии и ретроспективы

Это ваш «старший аркан»: сильные вопросы и ракурсы, которые направляют обсуждение после (или во время) симулированных и реальных инцидентов.

Примеры:

  • Скрытая зависимость — «Какие невидимые или неформальные зависимости повлияли на этот инцидент?»
  • Первый ложный след — «Какой сигнал увёл нас не в ту сторону?»
  • Замедленный разговор — «Где нам стоило притормозить и переориентироваться?»
  • Регистр компромиссов — «Какие компромиссы между надёжностью и скоростью разработки здесь проявились?»
  • Система, которая помнила — «Какие логи/метрики/трейсы помогли? Как их можно улучшить?»
  • Система, которая забыла — «Где инструменты или документация нас подвели?»

Используйте их, чтобы структурировать пост‑инцидентные обсуждения, подменяя расплывчатые вопросы («Что пошло не так?») на точные, повторяемые ракурсы.


Как провести сессию с Инцидентным Таро

Вот простой сценарий, который можно адаптировать под командные учения, онбординг или разборы после инцидентов.

Шаг 1. Задайте рамку

Сформулируйте цель явно:

  • Это пространство для практики, а не оценка работы.
  • Цель — исследовать системы и поведение, а не искать виноватых.
  • Мы используем карты, чтобы находить паттерны и пробелы.

Шаг 2. Раздайте «судьбу»

  1. Возьмите одну карту Сценария инцидента.
  2. Добавьте одну‑две карты Хаоса/модификаторов, чтобы усложнить задачу.

Фасилитатор зачитывает сценарий вслух, отвечает на уточняющие вопросы, но старается не переопределять детали. Некоторая неоднозначность — часть обучения.

Шаг 3. Назначьте персонажей (опционально, но сильно)

  • Раздайте участникам по карте Персоны (или предложите вытянуть).
  • Попросите их придерживаться архетипа, но не в ущерб безопасности — можно «выйти из роли» ради ясности.

Шаг 4. Проиграйте инцидент

Дайте группе 20–40 минут на то, чтобы:

  • Обсудить, как они бы обнаружили и диагностировали проблему
  • Определить роли (инцидент‑командер, коммуникации, технические эксперты)
  • Пройтись по вариантам митигейшенов и связанным компромиссам

Можно добавить структуры:

  • Разбить время на фазы (Обнаружение → Триаж → Митигейшен → Фоллоу‑ап)
  • Добавлять новые карты по ходу («На 20‑й минуте вытянуть ещё одну карту Хаоса»)
  • Попросить персонажа‑Нарратора периодически пересказывать развивающуюся историю

Шаг 5. Рефлексия с картами подсказок

После сценария достаньте несколько карт Рефлексии и обсудите:

  • Что стало неожиданностью?
  • Где ломалась коммуникация?
  • Какая документация или инструменты помогли бы?
  • Какие персонажи были наиболее/наименее полезны в этом сценарии?

Фиксируйте выводы так же, как на обычной ретро: заметки, action items, системные изменения. Разница в том, что люди обычно остаются более вовлечёнными, потому что разговор конкретный, интерактивный и похож на игру.


Польза и для новичков, и для ветеранов

Игра с картами инцидентов работает на разных уровнях опыта.

Для новичков:

  • Конкретные сценарии уменьшают страх «сказать глупость».
  • Карты персон дают понятную роль и «опорный сценарий» поведения.
  • Они заранее прочувствуют ритм инцидентов, до первых реальных дежурств.

Для опытных инженеров:

  • Карты хаоса вскрывают хрупкие предположения, которые могли остаться незамеченными.
  • Карты рефлексии выталкивают за пределы чисто технического root cause к организационному обучению.
  • Карты персон подсвечивают пробелы в лидерстве, коммуникации и коллаборации.

Общий формат формирует общий язык: «Мы снова скатились в трёх Героев» или «Вчера был чистый кейс “Пропавший ранбук”». Этот словарь живёт и за пределами игры и влияет на поведение в реальных инцидентах.


От поиска виноватых к системному мышлению

Глубочайшая ценность Аналогового инцидентного Таро — культурная.

  • Вместо «Кто виноват?» вы спрашиваете: «Какую карту сдала нам система и как мы на неё ответили?»
  • Вместо сокрытия ошибок люди исследуют их как возможные будущие сценарии, к которым можно подготовиться.
  • Вместо того, чтобы праздновать только героическое «тушение пожаров», вы так же цените наррацию, скептицизм и защиту фокуса.

Делая практику инцидентов игровой, физической и структурированной, вы снижаете эмоциональные ставки, но сохраняете высокую ставку для обучения.


Заключение: тасуйте, сдавайте, учитесь

В следующий раз, когда вы планируете учение по инцидентам или ретроспективу, попробуйте оставить слайд‑дек закрытым. Возьмите аналоговый инструмент.

Соберите простое Инцидентное Таро из:

  • Карт сценариев, отражающих ваши реальные режимы отказа
  • Карт хаоса, которые испытывают на прочность ваши «страховочные сетки»
  • Карт персон, которые высвечивают командные паттерны
  • Карт рефлексии, удерживающих фокус на системе, а не на поиске виноватых

Соберите команду за столом, перетасуйте колоду и посмотрите, какую «аварию» сдаст вам следующая партия.

Вы по‑прежнему будете говорить про SLI, алерты и ранбуки. Но вы также будете говорить о том, как вы думаете, как вы себя ведёте и как ваша организация реагирует на неожиданности — и делать это в формате, который безопасен, увлекателен и неожиданно весел.

Продакшен всё равно снова сломается. Но в этот раз вы будете готовы — не потому, что прочли ещё один документ, а потому что уже сыграли в эту игру.

Аналоговый инцидентный Таро: как спроектировать «карты судьбы» для вашего следующего продакшен-сбоя | Rain Lag