Rain Lag

Аналоговый календарь наблюдения за рисками: годовой ритуал на стене, чтобы не забывать самые страшные «почти‑аварии»

Как простой аналоговый настенный календарь с записями о «почти‑инцидентах» превращает пугающие близкие к сбою ситуации в мощный годовой ритуал обучения, устойчивости и более взвешенных инженерных решений.

Аналоговый календарь наблюдения за рисками: годовой ритуал на стене, чтобы не забывать самые страшные «почти‑аварии»

У каждой команды есть истории о том, как однажды что‑то почти пошло очень, очень плохо.

База данных, которая едва не уронила продакшен‑таблицы. Деплой, который почти отключил платежи в «Чёрную пятницу». Предохранительный клапан, который заклинило, но который—буквально в последний момент—всё‑таки сработал.

Все это почти‑инциденты: случаи, когда система опасно приблизилась к отказу, но восстановилась или «пронесло» до того, как случился самый худший сценарий.

Обычно мы вздыхаем с облегчением, чиним ближайшую проблему и двигаемся дальше. Но эти почти‑инциденты на вес золота. Они показывают границы «коридора безопасности» вашей системы—без полного ущерба и последствий настоящего сбоя.

В этой статье предлагается простой, но удивительно мощный инструмент: аналоговый календарь наблюдения за рисками—годовой физический настенный ритуал для фиксации, переосмысления и обучения на самых страшных почти‑инцидентах.


Почему почти‑инциденты ценнее, чем вы думаете

Большинство компаний зациклены на крупных инцидентах: за ними следуют постмортемы, разборы с руководством, дашборды и OKR. А почти‑инциденты обычно выглядят так:

  • Тред в Slack в 2 часа ночи
  • Нервный смешок на стендапе
  • Брошенная походя фраза «повезло, что обошлось» на ретро

И затем они пропадают.

Это проблема, потому что:

  • Почти‑инциденты дают критически важное понимание рисков без тех социальных, финансовых и репутационных потерь, которые несут за собой полноценные аварии.
  • Часто они указывают на скрытые (латентные) уязвимости—давние слабые места, которые лишь изредка выстраиваются в опасную комбинацию.
  • Когда эти же условия наконец приводят к реальному сбою, ваш шанс научиться «дёшево» уже упущен.

Иными словами: если вы анализируете только то, что действительно сломалось, вы учитесь на искажённой выборке. Вы упускаете все сигналы «почти‑сломалось», которые могли бы подтолкнуть вас изменить систему раньше.

Почти‑инцидент—это прогноз. Относитесь к нему именно так.


От разрозненных историй к систематическим сигналам

Ключевой сдвиг—перейти от разовых реакций к систематическому обнаружению и учёту почти‑инцидентов.

Вместо того чтобы заводить тикет только тогда, когда всё уже взорвалось, вы сознательно отслеживаете события вроде:

  • Что‑то, что могло привести к заметному влиянию на клиентов, но в этот раз не довели (по чистой удаче или усилиям команды)
  • Вмешательство дежурного (on‑call), которое в последний момент предотвратило каскадный отказ
  • Ручной обходной манёвр, который маскирует хрупкую системную зависимость
  • Ошибка в конфигурации, которую поймали прямо перед выкладкой в прод

Если относиться к таким случаям как к единичным «ух, пронесло», они и останутся частными историями. Но если систематически обнаруживать, фиксировать и классифицировать их, начинают проявляться шаблоны, которые иначе вы бы не увидели:

  • Один и тот же сервис, всплывающий во множестве почти‑инцидентов
  • Повторяющиеся «опасные» временные окна (например, выкладки по пятницам)
  • Рискованные точки стыка между конкретными командами или инструментами
  • Сигналы, которые почти всегда предшествуют почти‑инциденту

И вот здесь появляется аналоговый календарь наблюдения за рисками.


Что такое аналоговый календарь наблюдения за рисками?

Представьте большой физический настенный календарь на год—видно сразу все 12 месяцев. На этом календаре ваша команда отмечает каждый значимый почти‑инцидент.

Это не план проекта. И не дорожная карта поставок.

Это ваша карта погодных условий риска.

С одного взгляда любой человек может подойти к стене и увидеть:

  • В какие периоды года скапливаются почти‑инциденты
  • Какие типы рисков встречаются чаще всего
  • Какие системы, команды или контексты постоянно появляются в записях
  • Как со временем меняются ваши реакции и дизайн решений

Это «обсерватория» потому, что вы буквально наблюдаете за ландшафтом рисков во времени, а не просто реагируете на то, что горит прямо сейчас.


Фокус на «важных слоях» вокруг почти‑инцидента

Почти‑инцидент—это не одно изолированное событие. Его окружает несколько слоёв данных, благодаря которым он становится по‑настоящему полезным:

  1. Контекст – что происходило в системе и организации?

    • Шла ли миграция, дедлайн «горит», был ли параллельный инцидент в другой части системы?
    • Были ли ограничения по людям, необычное поведение пользователей, сезонные пики?
  2. Сигналы – какие ранние предупреждения существовали?

    • Алерты, логи, жалобы пользователей, аномалии производительности
    • Были ли слабые сигналы, которые не казались важными до тех пор, пока всё не прояснилось задним числом?
  3. Время – когда это произошло и что предшествовало событию?

    • Деплои, изменения конфигураций, рыночные события, всплески трафика
    • Совпало ли это с уже известными «рисковыми» паттернами (например, форсированный релиз в конце квартала)?
  4. Исходы – что фактически случилось и что могло случиться?

    • «Мы потеряли отказоустойчивость, но пользователи не пострадали»
    • «Мы сожгли весь error budget, но избежали простоя»

Любой механизм, помогающий фокусировать внимание—будь то человеческий обзор, дашборд метрик или инструмент на базе machine learning,—должен быть настроен именно на эти важные слои.

На вашем календаре эти слои становятся видимыми через:

  • Цветовую кодировку (по системе, серьёзности или типу отказа)
  • Краткие пометки («ручной rollback спас ситуацию», «усталость от алертов замедлила реакцию»)
  • Символы или стикеры для повторяющихся тем (например, 🔁 для рисков выкладок, 🧩 для интеграционных проблем)

Вы не просто логируете события; вы картируете их контекст.


Как запустить свой настенный ритуал почти‑инцидентов

Начать можно очень просто и всё равно получить большую пользу. Вот практичный способ внедрить аналоговый календарь наблюдения за рисками.

1. Оформите физическое пространство

  • Повесьте большой настенный календарь на 12 месяцев в общем, проходном месте (или разметьте большой whiteboard на месяцы).
  • Убедитесь, что он рядом с местом, где инженеры, операторы или аналитики часто бывают.
  • Подготовьте маркеры, стикеры и простую легенду‑подсказку.

2. Определите, что считать почти‑инцидентом

Согласуйте минимальное общее определение, например:

«Любое событие, в котором мы подошли заметно ближе к нежелательному влиянию на клиентов или к риску для безопасности, чем нам комфортно, даже если формальный инцидент объявлен не был».

Сначала поощряйте избыточное включение. Лучше зафиксировать лишнее и потом отфильтровать, чем пропустить важные сигналы.

3. Сделайте лёгкий шаблон фиксации

Для каждого почти‑инцидента записывайте на стикере:

  • Дату и время
  • Систему / сервис / процесс, который был вовлечён
  • Краткое описание (1–2 строки)
  • Основной тип риска (например, доступность, целостность данных, безопасность, комплаенс)
  • По желанию теги: контекст, сигналы, способ предотвращения / смягчения

Задача—скорость и наглядность, а не идеальный отчёт.

4. Вплетите ритуал в обычную работу

Не делайте это «побочным проектом». Вместо этого встройте в:

  • Стендапы – вопрос: «За вчера были почти‑инциденты?»
  • Смену on‑call – зафиксировать все близкие к сбою ситуации с последней дежурной смены.
  • Пост‑инцидентные разборы – отметить связанные почти‑инциденты, которые не дотянули до статуса инцидента.
  • Спринт‑ревью / ops‑обзоры – быстро просматривать новые записи на календаре.

Цель—сделать фиксацию почти‑инцидентов такой же привычной, как обновление тикета.

5. Регулярно пересматривайте календарь

Относитесь к календарю как к живому артефакту, а не к кладбищу стикеров.

  • Ежемесячный обзор (30–45 минут)

    • Сгруппируйте почти‑инциденты по темам.
    • Спросите: какие шаблоны мы видим? Что нас удивило?
    • Решите, какие 1–3 небольших изменения в дизайне или процессах стоит сделать.
  • Ежеквартальный обзор (60–90 минут)

    • Посмотрите на сезонные паттерны.
    • Свяжите почти‑инциденты с крупными проектами, изменениями в команде или инфраструктурными сдвигами.
    • Определите, где требуется более глубокий анализ или инвестиции.

Со временем у вас появится видимая, развивающаяся «стена уроков».


Превратить анализ рисков в привычку, а не разовую акцию

Многие команды говорят о рисках только после того, как что‑то больно ударило. Ритуал с календарём меняет это, потому что:

  • Делает разговор о рисках частью ежедневной рутины, а не редким спецмероприятием
  • Оставляет прошлые страшные случаи на виду, чтобы они не забывались в момент, когда замолкают алерты
  • Нормализует непрерывное обучение, а не упование только на «большие постмортемы» после громких аварий

Поскольку это аналоговый, всегда присутствующий в офисе объект, календарь служит постоянным напоминанием: система сложна, и мы всё время открываем новые способы, как она может сломаться.

Так анализ рисков превращается из реакции на пожар в проактивное, устойчивое проектирование систем.


Отмечайте обнаружение, а не только выживание

Если люди боятся, что их обвинят за признание «нам повезло, что обошлось», они просто перестанут рассказывать вам о почти‑инцидентах.

Чтобы строить культуру устойчивости, нужно:

  • Отмечать обнаружение почти‑инцидента не меньше, чем успешную ликвидацию инцидента
  • Отдельно благодарить тех, кто заметил слабые сигналы на ранней стадии
  • Считать сообщение о почти‑инциденте проявлением профессионализма, а не признанием «вины»

Практические шаги:

  • Добавьте номинацию «Почти‑инцидент месяца» в общекомандный all‑hands
  • Отмечайте людей или команды, которые выявили труднообнаружимые риски
  • Делитесь короткими заметками о том, что было понято и что изменилось

Посыл должен быть однозначным: нам ценно то, чему вы учитесь, а не то, что вы скрываете.


Почти‑инциденты как полноправные элементы управления инцидентами

Чтобы извлечь максимум из аналогового календаря наблюдения за рисками, почти‑инциденты должны стать частью ваших best practices по управлению инцидентами, а не побочной активностью энтузиастов.

Это означает:

  • Включить почти‑инциденты в вашу таксономию инцидентов (уровни серьёзности, классификации, зоны ответственности)
  • Разрешить почти‑инцидентам запускать улучшения так же, как это делают полноценные инциденты (runbook’и, тесты, изменения в дизайне)
  • Использовать календарь для планирования симуляций и game day‑упражнений (например: «Этот почти‑инцидент регулярно повторяется—давайте отрепетируем его сценарий»)

Такой сдвиг мышления переводит команду из мира, где вы реагируете только после ущерба, в мир, где вы проектируете устойчивость заранее, опираясь на все случаи, когда что‑то почти пошло не так.


Заключение: постройте свою «обсерваторию» до того, как она понадобится

Почти‑инциденты—это способ, которым вселенная предлагает вам скидку на будущие катастрофы.

Аналоговый календарь наблюдения за рисками—это простой, низкотехнологичный способ:

  • Сделать истории о почти‑инцидентах видимыми и запоминающимися
  • Выявить паттерны в контексте, сигналах, времени и исходах
  • Встроить обсуждение почти‑инцидентов в ежедневные рабочие процессы
  • Поощрять честные сообщения и признание заслуг в раннем обнаружении
  • Перейти от реактивного тушения пожаров к проактивному, устойчивому дизайну

Чтобы начать, вам не нужна новая платформа или сложный инструмент. Вам нужны:

  • Стена
  • Календарь
  • Пачка стикеров
  • И готовность относиться к своим самым страшным «почти‑авариям» как к самым ценным учителям

Повесьте календарь. Залогируйте следующий «почти‑сбой». Посмотрите на свой ландшафт рисков не как на набор отдельных бурь, а как на годовую «систему погоды», которую можно наблюдать, понимать и постепенно перенастраивать.

Так вы перестанете забывать свои самые страшные почти‑инциденты—и начнёте использовать их для построения систем, готовых к тому, что бы ни случилось дальше.

Аналоговый календарь наблюдения за рисками: годовой ритуал на стене, чтобы не забывать самые страшные «почти‑аварии» | Rain Lag