Rain Lag

Бумажная сигнальная лаборатория: как придумывать низкотехнологичные «ритуалы раннего предупреждения» на случай высокотехнологичных сбоев

Как создать простые бумажные «ритуалы раннего предупреждения», на которые команда сможет опереться, когда дашборды, чаты и системы мониторинга внезапно перестанут работать.

Введение: когда экраны гаснут

Большинство разговоров о надёжности начинается с инструментов: лучшее мониторинг‑решение, более богатые дашборды, «умные» алерты. Но настоящая проверка на устойчивость происходит не тогда, когда всё работает ровно, а когда сами инструменты отказывают.

Представьте железную дорогу начала XX века. Поезда ходили безопасно задолго до появления цифровых систем оперативного управления. Всё держалось на сигналах, флагах, бумажных расписаниях и простых, общих для всех ритуалах. Эти системы были неидеальны, но во многом более устойчивы, чем наши сверхсвязанные цифровые инструменты.

Отсюда идея «Бумажной сигнальной лаборатории»: спроектировать низкотехнологичные, основанные на людях ритуалы раннего предупреждения, которые работают даже тогда, когда самые продвинутые системы недоступны.

В этом посте разберём, как:

  • Создавать бумажные чек-листы, формы и сигналы, которые продолжают работать в «блэкаут»
  • Определять «норму» простым человеческим языком (без дашбордов)
  • Заимствовать «золотые сигналы» SRE для ручного мониторинга
  • Прописывать понятные цепочки от наблюдения к действию
  • Проводить низкотехнологичные настольные учения
  • Заведомо проектировать процессы под деградированные режимы
  • Непрерывно улучшать ритуалы на основе реальных инцидентов

Зачем нужны низкотехнологичные ритуалы

Современные операции тесно сплетены с инструментами. Если падают мониторинг, чат, тикетница или SCADA, вы теряете не только наблюдаемость — вы теряете координацию.

Низкотехнологичные ритуалы на случай отказов — это ваша резервная нервная система. Они:

  • Работают, когда проблемы с электропитанием, сетью или VPN
  • Снижают панику за счёт знакомого сценария действий
  • Помогают новым участникам быстро включиться в работу
  • Создают общее ситуационное понимание без сложных дашбордов

Цель не в том, чтобы отказаться от высоких технологий, а в том, чтобы заранее спроектировать плавный резервный режим, когда они недоступны или вводят в заблуждение.


1. Проектируем простые низкотехнологичные ритуалы

Начните с худшего сценария:

  • Инструменты мониторинга: ненадёжны или недоступны
  • Центральный чат: раздроблен или не работает
  • Тикетная система: недоступна
  • Документация: застряла за SSO

Теперь спросите себя: в таком мире, что нам всё равно нужно, чтобы люди сделали за первые 30–90 минут?

Типичные ответы:

  • Замечать, что что‑то не так
  • Делиться этой информацией
  • Проводить предварительный анализ влияния
  • Решать, кто и как действует
  • Фиксировать ключевые решения для последующего разбора

Спроектируйте бумажные артефакты под каждый шаг:

  • Карточка триггера инцидента — одностраничный лист: «Если вы видите X, сделайте Y», с телефонами и шагами эскалации.
  • Ручной журнал инцидента — бумажная форма для записи времени, наблюдений, действий и решений.
  • Чек-лист влияния — короткий перечень критичных сервисов и клиентов с чекбоксами: «Затронут? Да / Нет / Не уверен».
  • Ролевые карточки — простые описания ролей (Incident Lead, коммуникации, секретарь, технический лидер) с краткими списками обязанностей.

Каждый артефакт должен быть:

  • Коротким (по возможности 1 страница)
  • Разборчивым (крупный шрифт, понятные заголовки)
  • Самодостаточным (не требует смотреть что‑то ещё)

Распечатайте их. Разложите там, где люди реально работают: рядом с телефонами, в on‑call‑комнатах, у физических консолей, на ресепшене.


2. Определите «норму»: человеко-читаемые базовые уровни

Невозможно распознать аномалию, если вы никогда не определяли, что такое норма.

Создайте описания нормального поведения для самых критичных компонентов простым языком:

  • «В рабочие часы у нас обычно ~50–80 логинов в минуту; больше 200 в течение 5 минут — уже необычно».
  • «Ночные batch‑задания завершаются до 03:00; если они всё ещё идут в 04:00, считаем режим деградированным».
  • «Очередь на отбор заказов в складе редко превышает 120 заказов; свыше 300 в течение 15+ минут требует расследования».

Задокументируйте эти базовые уровни в листе нормального состояния для каждой ключевой системы:

  • Типичные объёмы (запросы, заказы, задания)
  • Нормальное время ответа/обработки
  • Обычные типы ошибок и ожидаемая частота
  • Известные сезонные/суточные пики

Этот лист должен быть понятен человеку, который не видит дашборд. Используйте диапазоны и качественные описания, а не только цифры:

«Если звонки стали занимать более чем вдвое больше времени и клиенты часто жалуются на тайм-ауты, условия уже не нормальные».

Эти базовые уровни станут основой для ваших низкотехнологичных ранних предупреждений.


3. «Золотые сигналы» для людей: что можно наблюдать вручную

Команды SRE часто оперируют понятием golden signals: латентность, трафик, ошибки, насыщение ресурсов. Этот подход можно адаптировать для людей в условиях отказа инструментов.

Определите небольшой набор индикаторов, которые люди могут наблюдать или считать вручную. Например:

  • Время отклика (человеческая версия):
    • Сколько клиенты ждут на линии
    • Как долго, по ощущениям пользователя, загружается страница или проходит транзакция
  • Паттерны ошибок:
    • Число жалоб на ошибки за 10 звонков
    • Повторяющиеся формулировки в запросах в поддержку («зависает», «крутится», «тайм-аут»)
  • Длина очереди:
    • Заказы в бэклоге
    • Открытые обращения на видимой доске
    • Грузовики, ожидающие у рампы

Создайте бумажную карточку «золотых сигналов»:

  • Укажите 3–5 индикаторов на систему
  • Объясните, как измерить их вручную (например, «посчитайте, сколько звонков с ошибкой пришло за 10 минут»)
  • Задайте простые пороги: зелёный / жёлтый / красный

Пример:

Сервис логина — ручные золотые сигналы
• Звонков об ошибке > 5 за 10 минут → ЖЁЛТЫЙ
• Звонков об ошибке > 15 за 10 минут → КРАСНЫЙ
• Задержка более 30 секунд подряд у 3+ пользователей → ЖЁЛТЫЙ
• Массовая невозможность войти в систему → КРАСНЫЙ

Это ваши бумажные железнодорожные сигналы: простые, наглядные состояния, понятные всем.


4. Пропишите путь от наблюдения к действию

Ритуалы ломаются, когда люди видят проблему, но не понимают, что им можно и нужно делать.

Используйте подход из анализа решений и напишите небольшие деревья решений, которые связывают:

  1. Конкретный сигнал (например, «очередь > 300 в течение 15 минут»)
  2. Чёткое состояние (ЖЁЛТЫЙ vs КРАСНЫЙ)
  3. Определённое действие (кто что делает и когда)

Простой шаблон:

Если [сигнал] в состоянии [ЖЁЛТЫЙ/КРАСНЫЙ] в течение [длительность]
Тогда [роль] делает [действие]
И [кто ещё] оповещается через [канал]

Пример:

Если ошибки логина находятся в КРАСНОЙ зоне более 10 минут
Тогда первый обнаруживший звонит Incident Lead по телефону
И Incident Lead заводит ручной журнал инцидента и поднимает голосовой мост

Распечатайте это как карточки решений и храните рядом с карточками золотых сигналов. Цель не в том, чтобы предусмотреть все сценарии, а в том, чтобы сделать первые шаги очевидными и безопасными.


5. Проводите низкотехнологичные настольные учения

Ритуалы становятся реальными только тогда, когда люди их отрабатывают.

Проводите регулярные tabletop‑упражнения, в рамках которых вы сознательно:

  • Запрещаете использование обычных инструментов: «Мониторинг недоступен; Slack недоступен; тикетница тормозит».
  • Раздаёте распечатанные золотые сигналы, карточки решений и журналы.
  • Задаёте сценарий: «Клиенты жалуются, что не могут оформить заказ».
  • Проигрываете первые 60–90 минут полностью на бумаге и голосом.

В ходе учения наблюдайте:

  • Где люди сомневаются («Кому звонить?» «Нужно ли это записывать?»)
  • За какими карточками они действительно тянутся
  • Где ритуал оказывается слишком медленным, сложным или непонятным

После этого проведите короткий «горячий разбор»:

  • Что помогло? Что осталось без внимания? Чего не хватало?
  • Были ли роли понятны?
  • Достаточно ли быстро мы переходили от сигнала → к решению → к действию?

Используйте эти наблюдения, чтобы доработать артефакты и сам ритуал.


6. Проектируйте процессы под деградированные режимы осознанно

Деградированный режим — не побочный эффект, а полноценная цель проектирования.

Заранее продумайте, как будет течь информация, когда:

  • SCADA или мониторинг работают с перебоями или «зависают»
  • Чат недоступен или разбит на несколько несвязанных инструментов
  • Тикетница или incident‑платформа не открываются

Конкретные приёмы:

  • Доски/whiteboard как центральные статус‑дисплеи: по одной на локацию, с простой таблицей (Время / Наблюдение / Действие / Ответственный).
  • Телефонные деревья: распечатанные списки звонков с основными и резервными номерами плюс правила эскалации.
  • Печатные плейбуки: тонкие папки или папки‑скоросшиватели с важнейшими карточками, контактами и процедурами.
  • Физические маркеры ролей: что‑то вроде цветного магнита или бумажной карточки, обозначающей, у кого сейчас роль Incident Lead или ответственного за коммуникации.

Цель — гарантировать, что информация, полномочия и ответственность продолжают двигаться, даже когда ваши обычные каналы мертвы.


7. Непрерывное улучшение на основе реальных инцидентов

Первая версия этих ритуалов неизбежно окажется во многом неверной. Это нормально.

Относитесь к бумажным ритуалам как к живому коду:

  • После каждого реального инцидента или учения обновляйте карточки, пока всё свежо в памяти.
  • Убирайте шаги, которые никогда не используются, и добавляйте шорткаты, которые люди естественным образом придумали сами.
  • Заменяйте расплывчатые пороги более точными, используя накопленные данные.
  • Корректируйте роли под то, как люди на самом деле взаимодействуют в стрессе.

Ставьте на распечатках номера версий и даты. При обновлении перепечатывайте и заново распространяйте материалы. Старые версии нужно явно изымать, чтобы избежать путаницы.

Со временем у вас появится экосистема простых, надёжных практик, которые кажутся естественными для команд и выдерживают давление.


Заключение: создаём собственную «Бумажную сигнальную лабораторию»

Высокотехнологичные системы великолепны — пока они работают. Когда наблюдаемость пропадает, а инструменты координации исчезают, у вас остаются люди, бумага и общее понимание.

Благодаря тому, что вы:

  • Проектируете низкотехнологичные ритуалы и артефакты
  • Определяете человеко-читаемую «норму»
  • Адаптируете золотые сигналы под ручное наблюдение
  • Прописываете прозрачные цепочки от сигнала к действию
  • Практикуетесь через низкотехнологичные настольные учения
  • Осознанно проектируете процессы под деградированные режимы
  • Постоянно дорабатываете практики на основе реальных событий

…вы создаёте внутри организации «Бумажную сигнальную лабораторию» — пространство, где устойчивость осознанно проектируют, тестируют и развивают, независимо от какого‑то одного инструмента.

Когда экраны погаснут, вы не будете гадать, что делать. Вы будете следовать отработанному ритуалу — тому самому, который позволяет «поездам» продолжать движение безопасно, пока свет не вернётся.