Rain Lag

Аналоговый «компас инцидентов»: карманный набор спокойствия для самых тяжёлых дежурств

Как спроектировать карманный, полностью аналоговый «компас инцидентов», опираясь на инженерные принципы, чтобы сохранять спокойствие, снижать когнитивную нагрузку и ясно коммуницировать во время самых тяжёлых он‑колл смен.

Аналоговый «компас инцидентов»: карманный набор спокойствия для самых тяжёлых он‑колл ночей

Он‑колл в разработке и эксплуатации ПО находится в странной точке пересечения. В обычные дни программирование — это тихий, размеренный, почти медитативный процесс. А потом в воскресенье в 2:37 ночи твой телефон взрывается алертами, дашборды краснеют, и внезапно частота твоего пульса начинает напоминать график DDoS‑атаки.

Такова реальность современной разработки: одновременно расслабленная и крайне стрессовая, с он‑колл ротациями в роли скороварок, которые концентрируют весь худший стресс в нескольких абсурдно интенсивных часах.

В этом посте мы спроектируем физический, аналоговый «компас инцидентов» — карманный набор спокойствия для твоих самых тяжёлых он‑колл ночей — используя те же инженерные принципы, которым мы уже доверяем: естественные науки, математику и дизайн‑процессы. Идея проста: если мы умеем строить отказоустойчивые распределённые системы, мы можем спроектировать и более спокойных, устойчивых людей внутри этих систем.


Зачем нужен именно «аналоговый» набор спокойствия?

Цифровые инструменты великолепны — пока не перестают работать на нас. В условиях сильного стресса мозг перегружен, Slack шумит, дашборды лагают, контекст размазан по десяткам вкладок.

Аналоговый набор спокойствия принципиально низкотехнологичен:

  • Он не падает.
  • Он не шлёт уведомления.
  • Он живёт на твоём столе, в рюкзаке или в комнате инцидентов.
  • Он работает, когда твой мозг функционирует на 20% мощности.

Представь его как карманную панель управления инцидентом — для нервной системы и для принятия решений. Его главная цель: снизить когнитивную нагрузку, прояснить ожидания и дать тебе что‑то твёрдое, на что можно опереться, когда всё ощущается размытым и хаотичным.


Проектируем личные системы так же, как проектируем софт

Мы уже умеем проектировать надёжные системы. Мы:

  • Моделируем систему.
  • Ищем режимы отказа.
  • Уменьшаем количество единственных точек отказа.
  • Вводим защитные барьеры и значения по умолчанию.
  • Итерируемся на основе обратной связи и постинцидентных разборов.

Твой он‑колл «я» — это ещё одна система под нагрузкой. Применим те же принципы:

  1. Естественные науки. Твой мозг и тело — биологические системы, которые предсказуемо ведут себя под стрессом: растёт пульс, падает объём рабочей памяти, качество решений ухудшается.
  2. Математика. Переключения контекста, ветвления решений и поток уведомлений складываются и умножаются в общую ментальную нагрузку.
  3. Дизайн‑процессы. Можно прототипировать, тестировать и улучшать личные механизмы совладания со стрессом так же, как любой UX‑флоу.

Твой «компас инцидентов» — это физический артефакт этого подхода: спроектированная система, которая ведёт тебя, когда твой когнитивный «CPU» зажат троттлингом.


Базовые цели «компаса инцидентов»

Прежде чем решать, что положить внутрь, зададим цели дизайна. Любой набор спокойствия для он‑колл инцидентов должен помогать в следующем:

  1. Снижение когнитивной нагрузки
    Минимизировать объём того, что нужно помнить или решать под стрессом. Перенести максимум в чек‑листы, подсказки и значения по умолчанию.

  2. Профилактика alert fatigue
    Помочь отличать шум от сигнала и напоминать себе, что не каждый алерт — это полноформатный инцидент.

  3. Прояснение коммуникации
    Снижать тревогу за счёт простых и явно прописанных ожиданий по коммуникации.

  4. Делегирование решений runbook’ам
    Пусть хорошо поддерживаемые runbook’и принимают рутинные решения, а ты фокусируешься на новых или неоднозначных частях.

  5. Поддержка непрерывного улучшения
    Фиксировать технические и эмоциональные выводы и возвращать их в систему, чтобы следующий инцидент проходил легче.


Что положить в аналоговый «компас инцидентов»?

Начать можно с небольшого пенала, металлической коробочки или коробки для индекс‑карт. Внутри ты хранишь набор карточек, чек‑листов и подсказок. Вот примерный «v1».

1. Карточка «Первые 5 минут»

Одна индекс‑карта с крупной надписью: «Первые 5 минут». Это твой boot‑sequence. Например:

  1. Подышать (30 секунд)
    • Вдох 4 секунды, задержка 4 секунды, выдох 6–8 секунд.
    • Повторить 4 раза.
  2. Стабилизировать контекст
    • Подключить ноутбук к питанию и стабильной сети.
    • Открыть канал / мост инцидента.
    • Убедиться, что есть доступ к мониторингу и логам.
  3. Назвать инцидент
    • Создать или присоединиться к инциденту в вашей системе.
    • Написать однострочное описание: «X, похоже, сломан для Y пользователей».
  4. Объявить роли (если нужно)
    • Incident Commander, ответственный за коммуникацию, основной инженер.

Здесь не про идеальность; здесь про то, чтобы не забыть базовые вещи, когда адреналин ударил в кровь.


2. Чек‑листы по коммуникации: уменьшаем тревогу через ясность

Много тревоги во время инцидентов живёт в коммуникации: Кого я должен уведомить? Что сказать? Я делаю достаточно?

Простой чек‑лист по коммуникации может резко снизить эту тревогу.

Сделай одну‑две небольшие карточки с текстом:

Чек‑лист коммуникации при инциденте

  • Создан и корректно назван канал/комната инцидента?
  • Есть чётко обозначенный incident commander?
  • Уведомлены ключевые внутренние стейкхолдеры? (SRE, support, лиды, и т.д.)
  • Опубликовано статус‑обновление в канал инцидента?
  • Задан регулярный ритм обновлений? (например, каждые 15–30 минут)
  • Есть выделенный человек для внешней коммуникации (status page, customer success)?

На обратной стороне держи шаблоны сообщений:

Стартовое сообщение
«Мы расследуем инцидент, затрагивающий [scope]. Текущий импакт: [что видят пользователи]. Мы в [канал/bridge]. Следующее обновление не позже [время].»

Обновление
«Обновление [время]: мы [расследуем / тестируем фикс / откатываемся]. Импакт сейчас [без изменений / улучшается / ухудшается]. Следующее обновление не позже [время].»

Эти шаблоны делают ожидания конкретными и обрывают ментальную спираль «надо что‑то сказать, но я не знаю, что».


3. Карточки‑напоминания про runbook’и: доверься системе

Твои runbook’и живут в Confluence, Git или в инструменте управления инцидентами — но мозг должен сначала вспомнить, что ими надо воспользоваться.

Добавь яркую карточку:

Карточка «Проверь runbook’и»

Лицевая сторона:

  • Найди инцидент / runbook, связанный с:
    • Затронутым сервисом.
    • Шаблоном ошибки или именем алерта.
  • Если подходящий runbook нашёлся — следуй ему шаг за шагом, прежде чем импровизировать.

Обратная сторона:

  • Если runbook устарел или отсутствует:
    • Сделай короткую пометку.
    • После инцидента дополни или обнови runbook во время разбора.

Хорошо поддерживаемые runbook’и — это не только операционный инструмент, но и психологическая страховка. Наличие проверенного пути снижает усталость от принятия решений и даёт тебе право следовать по известному маршруту вместо изобретания велосипеда в три часа ночи.


4. Карточки для триажа и решений: меньше ветвлений в голове

Во время инцидента дерево решений разрастается: откатываться? масштабировать? звать ещё людей?

Создай карточку триажа с простыми триггерами решений, опираясь на SLO и политики вашей организации:

Шпаргалка по триажу

  • Затронуты ли production‑клиенты?
    • Если да → рассматриваем как P1/P2, следуем флоу major incident.
  • Есть ли риск для данных?
    • Если да → немедленно эскалируем в сторону безопасности / владельцев данных.
  • Есть ли безопасный rollback?
    • Если да и есть подозрение на недавний релиз → предпочитаем откат сложному «фикс вперёд».
  • Перевышаем ли мы SLO?
    • Если да → фиксируем нарушение для последующего разбора.

Это применение подхода ограниченного принятия решений: уменьшаем количество веток, вводим явные пороги и используем значения по умолчанию, где возможно.


5. Личные подсказки по совладанию: инженерия собственной нервной системы

Стресс‑реакции — физические. С ними тоже можно работать системно.

Добавь небольшую карточку с надписью «Когда меня накрывает».

Примеры:

  • Отойти от клавиатуры на 60 секунд, встать, сделать пару глотков воды.
  • Явно спросить: «Может ли кто‑то взять на себя роль incident commander / ведущего заметок на 10 минут?»
  • Использовать короткое grounding‑упражнение: назвать 5 вещей, которые видишь; 4 — которые ощущаешь; 3 — которые слышишь; 2 — которые чувствуешь запахом; 1 — вкусом.
  • Напомнить себе: «Инциденты — это свойство системы, а не моя личная ошибка».

Здесь естественные науки встречаются с дизайном: ты учитываешь свои физиологические пределы и строишь небольшие контуры управления, чтобы оставаться в их рамках.


6. Карточки для постинцидентного разбора: непрерывное улучшение и систем, и людей

Твой набор спокойствия станет лучше, только если ты замкнёшь контур.

Создай карточку Post‑Incident Reflection с двумя сторонами:

Техническое отражение

  • Что технически нас удивило?
  • Какие runbook’и помогли, а какие подвели?
  • Где инструменты нас замедляли, а где — выручали?
  • Что нужно обновить в алертах, дашбордах или runbook’ах?

Эмоциональное / процессное отражение

  • В какой момент я чувствовал(а) себя максимально перегруженным(ой)? Почему?
  • Что помогло почувствовать себя в большей безопасности или под контролем?
  • Какие чек‑листы, подсказки или инструменты реально помогли?
  • Какое одно изменение сделает следующий инцидент для меня легче?

Эти заметки затем питают:

  • Обновления аналогового набора (новые карточки, улучшенные формулировки).
  • Изменения в цифровых инструментах (лучшие алерты, runbook’и, автоматизация).
  • Командные практики (хендоверы он‑колла, ротации, шэдоуинг, тренировки).

Так инцидент‑менеджмент превращается в живой инженерный проект, а не в статичный ритуал.


Учимся на прошлых паттернах: умнее инструменты — спокойнее люди

Твоя аналоговая коробочка — это физическая страховка, но цифровые системы тоже могут учиться.

Инструменты для инцидентов и внутренние платформы могут:

  • Подсказывать вероятные runbook’и на основе похожих прошлых инцидентов.
  • Автоматически заполнять таймлайн инцидента релевантными событиями.
  • Рекомендовать, кого позвать, исходя из исторических паттернов резолва.
  • Показывать прошлые отчёты по инцидентам с похожими симптомами.

Эффект здесь не только операционный, но и психологический: «Мы уже с таким сталкивались. Мы знаем, что делать.»

Эта комбинация — аналоговые подсказки для человека, цифровой интеллект для системы — создаёт ощущение готовности, а не паники.


Собираем всё вместе

Он‑колл, вероятно, никогда не станет полностью спокойным. Системы будут падать непредсказуемо, трафик будет взлетать в самые неподходящие моменты, а твой сон периодически будет проигрывать пейджеру.

Но спокойствие — это не отсутствие инцидентов; это наличие хороших систем — и для кода, и для тебя самого.

Создавая аналоговый «компас инцидентов», ты:

  • Выносишь важнейшие шаги во внешние чек‑листы и подсказки.
  • Опираешься на runbook’и, чтобы разгрузить себя от рутинных решений.
  • Используешь шаблоны коммуникации, чтобы снизить тревогу и прояснить ожидания.
  • Относишься к когнитивной нагрузке и alert fatigue как к полноправным ограничениям дизайна.
  • Формируешь культуру непрерывного улучшения, где после каждого инцидента улучшаются и инструменты, и стратегии эмоционального совладания.

Тебе не нужен идеальный набор, чтобы начать. Пара индекс‑карт с первыми 5 минутами, чек‑листом по коммуникации и подсказками «Когда меня накрывает» — уже вполне достойный v1.

Дальше — итерации, как и в любой хорошей инженерной работе.

В следующий раз, когда телефон загорится в 2:37 ночи, ты всё равно будешь уставшим. Ты всё равно почувствуешь этот укол паники.

Но у тебя будет компас.

И это может изменить всё.

Аналоговый «компас инцидентов»: карманный набор спокойствия для самых тяжёлых дежурств | Rain Lag