Аналоговый чертёжник инцидентов: бумажные поэтажные планы отказов перед следующим «ремонтом» дежурств
Как использовать «аналоговые чертежи отказов» и лёгкий, безобвинительный разбор инцидентов, чтобы тихо перестроить культуру дежурств в сторону реального обучения на сбоях.
Аналоговый чертёжник инцидентов: рисуем бумажные поэтажные планы отказов перед следующим «ремонтом» дежурств
Инциденты — это способ, которым ваша система посылает вам архитектурную обратную связь.
Можно её игнорировать и дальше замазывать трещины шпаклёвкой, а можно относиться к каждому простою как к шансу перерисовать чертёж того, как на самом деле работает ваша система (и ваша команда).
Этот пост — про простую, почти старомодную идею: рисуйте свои инциденты.
Возьмите ручку и бумагу и набросайте, что в действительности произошло, словно вы чертите поэтажный план здания, в котором только что случился конструктивный обвал. Затем используйте этот аналоговый чертёж, чтобы тихо перестраивать культуру дежурств — по одному инциденту за раз.
Постмортемы — это изменение культуры, а не галочка в чек‑листе
Когда вы внедряете постмортемы (или пытаетесь починить сломанные), очень легко начать относиться к ним как к очередной технической практике:
- «Добавим шаблон в Confluence»
- «Попросим root cause и action items»
- «Заведём задачи в Jira»
Это не трансформация; это бумажная волокита.
На самом деле вы просите организацию изменить то, как она думает о сбоях:
- От стыдного происшествия → к ожидаемому, поддающемуся разбору сигналу
- От вины конкретного человека → к системному ограничению
- От надеемся, больше не повторится → к вот как мы станем устойчивее в следующий раз
Это работа с культурой.
И культура не меняется просто потому, что вы выкатили новый шаблон. Она меняется, когда люди многократно, последовательно и безопасно проживают другой стиль поведения вокруг инцидентов.
И вот здесь в игру входят небольшие, аналоговые, визуальные разборы инцидентов.
Перестаньте надеяться, что системы «починят себя сами»
После инцидента часто подкрадывается удобная ложь:
«Мы поправили баг и добавили дашборд, значит, всё в порядке».
Что произошло на самом деле:
- Вы лечили симптомы, а не структуру.
- Вы изменили один путь в коде, а не социотехническую систему.
- Вы понадеялись, что система «научится» после патча.
Системы не учатся от надежд.
Они учатся, когда люди осознанно анализируют, как распространялся сбой, а затем переосмысливают ограждения, петли обратной связи и зоны ответственности.
Без осознанного анализа вы просто перекидываете кубики с чуть другим случайным зерном.
Начните с малого: лёгкий разбор инцидента
Вместо того чтобы запускать тяжеловесную «программу постмортемов», начните с небольших, предсказуемых разборов инцидентов, которые команда реально способна поддерживать.
Цельтесь примерно в такой формат:
- 30–45 минут на каждый подходящий инцидент
- В течение 1–3 рабочих дней после события
- Не более 6–8 человек: участники + один ведущий/фасилитатор
- Результат: одностраничное текстовое резюме и один аналоговый скетч
И всё. Никакой сложной таксономии, шести комитетов и мгновенной автоматизации.
Почему мало и просто?
- Меньше сопротивление. Люди охотнее пробуют формат, который не ощущается как процедура «дознания».
- Больше повторений. Вы можете проводить больше разборов чаще, формируя привычку и нормализуя практику.
- Улучшения заметнее. В небольшом формате легко пробовать и обкатывать правки процесса.
Вы не строите The Final Postmortem Process™. Вы строите первый безопасный, повторяемый шаг.
Используйте инженерный каркас реагирования на инциденты
Последовательность важна. Если каждый инцидент разбирается по‑разному, накопленного обучения не получится.
Используйте простой, задаваемый инженерами каркас и для реагирования, и для разбора. Например:
-
Объявляем инцидент
- Понятные уровни серьёзности (SEV‑1, SEV‑2 и т. п.).
- Один человек — Incident Commander (IC, руководитель инцидента).
-
Стабилизируем систему
- Сначала — «остановить кровотечение» (откаты, feature flags, failover).
- Ведём лёгкий журнал событий в реальном времени («в 10:32 откатили X»).
-
Коммуницируем
- Один единый канал или комната обновлений статуса.
- Регулярные апдейты (например, каждые 15–30 минут для SEV‑1).
-
Документируем сразу после
- IC сводит таймлайн по журналу событий.
- Кратко фиксируем гипотезу о причинах (может оказаться неверной — это нормально).
-
Разбираем
- Назначаем небольшой разбор с участниками инцидента.
- Вместе рисуем аналоговый поэтажный план отказа.
Цель — не «идеальный» фреймворк, а понятный, обучаемый паттерн, который держит всех в одном контексте и даёт чистый вход в разборы.
Аналоговый чертёж: рисуем поэтажный план инцидента
Цифровые инструменты прекрасны, но во время обучения они легко прячут сложность за зумом и вкладками.
Бумага — нет.
На разборе отложите дашборды в сторону и возьмите:
- Лист бумаги (или доску)
- Толстый маркер
- Стикеры, если есть
И нарисуйте инцидент так, словно вы рисуете поэтажный план здания, где частично обрушились перекрытия.
Что рисовать
-
Комнаты = крупные компоненты или домены
- Сервисы, внешние зависимости, базы данных, очереди, точки входа пользователей.
- Каждой — свой прямоугольник/комната, подписанная простым языком («Checkout API», «Поисковый индекс», «Платёжный провайдер»).
-
Двери и коридоры = взаимодействия
- Стрелки или проходы, показывающие запросы, события, потоки данных.
- Обозначьте направление (кто кого вызывает, от кого кто зависит).
-
Люди = акторы и роли
- Дежурный инженер, SRE, поддержка, пользователи.
- Где они были в этом «здании», когда всё ломалось? Кто что заметил и когда?
-
Зоны повреждений = точки отказа
- Где впервые проявился наблюдаемый сбой?
- Где он реально зародился?
- Подсветьте области каскадного эффекта.
-
Ограждения безопасности = существующие (или нужные) защиты
- Circuit breakers, rate limits, fallbacks, плейбуки, ранбуки.
- Отметьте, что сработало, чего не было, о чём никто не знал.
Как использовать скетч
Пока рисуете, задавайте вопросы:
- Где реальность не совпала с нашим ментальным образом системы?
- Где информация двигалась слишком медленно или не двигалась вообще?
- Что сделало этот инцидент больше, чем он мог бы быть?
Аналоговый скетч становится общим артефактом истории. Люди буквально могут указать пальцем на недопонимания:
«Я думал, что веб‑приложение здесь ходит прямо в базу данных».
«Подождите, эта очередь фан‑аутится на три консьюмера?»
Такие неожиданности — золото. Именно в них живёт работа по повышению устойчивости.
Сфотографируйте скетч и приложите к документу разбора. Ему не нужно быть красивым; он должен быть честным.
Делайте разбор без обвинений и с фокусом на устойчивость
Если ваши разборы напоминают трибунал, они быстро умрут.
Проговорите правила явно:
- Никакой вины и стыда. Мы рассматриваем действия как разумные с точки зрения того, что люди знали и в каких были ограничениях.
- Мы ищем вклад системы, а не ошибки людей.
- Мы оптимизируем за обучение, а не наказание.
На практике это значит:
- Запретить «человеческую ошибку» как root cause. Спросить: почему такую ошибку было легко совершить?
- Вместо «Кто накосячил?» спрашивать «Что сделало такой исход вероятным?»
- Фокусироваться на том, как расширить диапазон успешного поведения под нагрузкой, а не на том, чтобы сильнее «закрутить гайки» отдельным людям.
Вопросы, которые помогают строить устойчивость:
- Как мы могли бы обнаружить это раньше?
- Как мы могли бы сузить blast radius (зону поражения)?
- Как сделать так, чтобы следующий похожий инцидент был максимально скучным в обработке?
Результаты могут включать:
- Лучшие ограждения (feature flags, более безопасные паттерны деплоя).
- Более чёткие границы ответственности.
- Улучшенное обучение дежурных с использованием этого инцидента как сценария.
Когда люди видят, что разборы стабильно приводят к лучшим инструментам, более вменяемым процессам и общему пониманию, они перестают прятать ошибки и начинают поднимать их раньше.
Это и есть изменение культуры.
Итерации и автоматизация по мере взросления культуры
Вам не нужен полностью автоматизированный конвейер постмортемов в первый же день.
Пусть ваша практика развивается вместе с культурой:
-
Фаза 1 — Вручную и аналогово
- Простой инженерный каркас реагирования.
- Бумажные или досочные чертежи инцидентов.
- Короткие письменные резюме.
-
Фаза 2 — Повторяемые паттерны
- Стандартизированные шаблоны, основанные на том, что вы реально используете.
- Общий набор вопросов и метрик.
- Лёгкая таксономия типов инцидентов.
-
Фаза 3 — Точечная автоматизация
- Инструменты, которые заранее подтягивают таймлайны, логи, метрики.
- Дашборды, отражающие уроки из прошлых инцидентов.
- Ранбуки, привязанные к алертам.
-
Фаза 4 — Контур непрерывного улучшения
- Регулярные ретроспективы по самим инцидент‑ревью: что работает, что даёт шум?
- Кросс‑командный разбор повторяющихся паттернов (например, постоянные сбои зависимости).
- План работ, явно связанный с темами устойчивости из прошлых инцидентов.
К моменту, когда вы глубоко автоматизируете процесс, основную работу делают уже ваши нормы, а не шаблоны.
Автоматизация в таком случае усиливает здоровую культуру, а не цементирует дисфункциональную.
Собираем всё вместе: ремонт до того, как перевернёте страницу
Представьте свою систему дежурств — людей, процессы и софт — как здание, в котором вы живёте, параллельно перестраивая его по комнате за раз.
Каждый инцидент — это строительная инспекция.
Чтобы такие инспекции имели смысл:
- Относитесь к постмортемам как к ремонту культуры, а не просто к документации.
- Начинайте с малого и лёгкого формата, чтобы люди действительно участвовали.
- Используйте простой, инженерный каркас для реагирования и разбора.
- Рисуйте аналоговые поэтажные планы отказа, чтобы все увидели, как инцидент реально протёк через систему.
- Держите фокус на устойчивости и обучении, а не на поиске виноватых.
- Итеративно улучшайте процесс и автоматизируйте только тогда, когда культура к этому готова.
Перед следующей ротацией дежурств откройте ящик с аналоговыми историями инцидентов:
достаньте ручку, лист бумаги и описание последнего крупного сбоя.
Перерисуйте то, что на самом деле произошло.
Вы рисуете не просто прошлую неудачу — вы проектируете поэтажный план более устойчивого будущего.