История «Бумажных инцидентов» и Кухня Маяка: как готовить руныбуки вручную из самых тихих почти‑аварий

Скорее всего, вы хорошо помните крупные инциденты — ночные шторма из пейджеров, многочасовые ретро по даунтаймам, общекомандные «военные комнаты».

Но настоящий клад для устойчивости чаще всего прячется в тех инцидентах, которые вы почти не заметили.

Предупреждающий алерт, который сам собой закрылся. Деплой, который «почти» пришлось откатывать. Пик CPU, который пропал через пять минут. Эти тихие почти‑аварии — лучшие исходные ингредиенты для создания рунебуков, которые в будущем удержат пожары маленькими и управляемыми.

Эта идея лежит в основе «Кухни Маяка Историй Бумажных Инцидентов»: места, где вы методично собираете, нарезаете и «готовите» мелкие микропорезы‑инциденты в понятные, надёжные рунебуки — а в итоге и в интеллектуальную автоматику.

В этом посте разберём:

Почему рунебуки по реагированию на инциденты — ваши ключевые кухонные инструменты
Наиболее частые причины инцидентов (и что по ним документировать)
Как структурированный IcM‑процесс превращает хаос в предсказуемость
Практические примеры и шаблоны рунебуков, которые можно скопировать
Как эволюционирует автоматизация рунебуков
Как ловить тихие почти‑аварии до того, как они попадут в заголовки

Почему рунебуки — это ваши кухонные ножи

Рунебуки по реагированию на инциденты — это операционный эквивалент рецептов: пошаговые инструкции по обнаружению, диагностике и устранению проблем.

Если сделать их хорошо, они радикально улучшают:

MTTA (Mean Time To Acknowledge, среднее время до подтверждения) – Чёткие инструкции и правила маршрутизации сокращают время от алерта до первых глаз на проблему.
MTTR (Mean Time To Resolve, среднее время до восстановления) – Повторяемые шаги уменьшают количество догадок и остановок.
Общую устойчивость системы – Каждый задокументированный ответ превращается в повторно используемую «плейбуку», так что вам не приходится заново изобретать решение под давлением.

Хороший рунебук мгновенно отвечает на три вопроса:

Кто должен действовать?
Что он должен сделать и в каком порядке?
Как понять, что мы закончили (или пора эскалировать)?

Главное — не только писать рунебуки под крупнейшие инциденты, а использовать самые мелкие как обучающие данные.

Подозреваемые по умолчанию: частые причины инцидентов

Прежде чем «готовить» рунебуки, надо понять свои ингредиенты. Большинство инцидентов можно отнести к нескольким категориям:

Аппаратные или инфраструктурные сбои
- Отказы дисков, сетевые разрывы, неработающие ноды
- Региональные проблемы или сбои в зонах доступности у облачного провайдера
Ограничения ресурсов и проблемы ёмкости
- Превышение порогов по CPU, памяти, диску или I/O
- Достижение rate limit’ов на API, базах данных или очередях
Человеческий фактор
- Неудачные или частично провалившиеся деплои
- Ошибочные конфигурации в infra‑as‑code, feature‑флагах или секретах
- Неверные ручные операции (не та команда, не тот хост)
Внешние угрозы и атаки на безопасность
- DDoS‑атаки
- Credential stuffing, подозрительные логины
- Попытки утечки данных, вредоносное ПО или вымогательские атаки

Для каждой категории вам нужен как минимум один базовый рунебук: как мы это распознаём? каков первый шаг? когда звать подмогу?

И что особенно важно: тихие почти‑аварии в любой из этих категорий — ранний сигнал о том, где вам нужны лучшие документы или автоматизация.

IcM как кухонная линия: структурно, повторяемо, быстро

Процесс Incident Management (IcM) — это кухонная линия, которая превращает сырые инциденты в стабильные, надёжные результаты.

Зрелый IcM‑процесс обычно включает:

Обнаружение и триаж
- Алерты, метрики, логи, жалобы пользователей
- Классификация по серьёзности и влиянию
Назначение и подтверждение
- Автоматическая маршрутизация к нужному онколлу или команде
- Понятное владение инцидентом и SLA по реакции (MTTA)
Ограничение ущерба и смягчение последствий
- Краткосрочные шаги, чтобы «остановить кровотечение»
- Перераспределение трафика, отключение feature‑флагов, circuit breaker’ы
Диагностика и устранение
- Поиск первопричины
- Фиксы, откаты, изменения конфигурации
Постинцидентный разбор и обучение
- Безобвинительные ретроспективы
- Обновление существующих или создание новых рунебуков
- Решения о том, что автоматизировать дальше

Рунебуки — это единица работы внутри этого процесса. Каждый крупный шаг IcM либо должен ссылаться на существующий рунебук, либо порождает новый или улучшенный.

Кухня Маяка: превращаем почти‑аварии в рунебуки

Метафора «кухни маяка» состоит из двух частей:

Маяк: тихие, но надёжные сигналы, которые ведут вас, пока до катастрофы ещё далеко.
Кухня: место осознанной подготовки, повторения и оттачивания.

Чтобы это построить, относитесь к каждой почти‑аварии как к истории, которую стоит записать.

Шаг 1: Зафиксируйте «бумажный» инцидент

Когда происходит что‑то странное — 5‑минутный всплеск латентности, быстро откатанный деплой, флапающий алерт — не отмахивайтесь.

Зафиксируйте:

Что мы увидели: алерты, логи, дашборды, симптомы у пользователей
Что мы сделали: какие команды запускали, какие дашборды смотрели, кого позвали
Что сработало: действие, которое стабилизировало систему
Чего нам не хватало: более точных алертов, нужных дашбордов, понятной документации

Это может быть очень лёгкий шаблон в вашем инструменте инцидентов, вики или тикет‑системе.

Шаг 2: Выжмите из истории рунебук

По этой истории напишите черновой рунебук. Ему не нужно быть идеальным.

Пример: скелет рунебука «Прыжок латентности веба в регионе X»

Триггеры
- Алерт: web.latency.p95 > 1.5s for 5m in region=us-east
Мгновенные проверки (5–10 минут)
- Открыть дашборд: Web / Latency & Error Rates / Region Split
- Уточнить: проблема только в одном регионе или глобальная?
- Проверить ошибки: вырос ли 5xx вместе с латентностью?
Варианты ограничения ущерба
- Если страдает только одна AZ, сместить 20% трафика на здоровые AZ
- Если страдают все AZ, но нагрузка в основном на чтение: включить read‑only режим для некритичных сценариев
Диагностика
- Проверить CPU и блокировки в базе данных
- Просмотреть последние 3 деплоя, затрагивавшие этот регион
- Проверить латентность апстрим‑зависимостей (платёжка, авторизация и т.п.)
Устранение и последующие действия
- Откатить последний деплой, если есть корреляция со всплеском
- Завести баг, если первопричина понятна
- Зафиксировать краткое резюме инцидента и обновить этот рунебук

В следующий раз, когда этот паттерн повторится, онколл будет следовать этому рецепту, а не начинать с пустого листа.

Шаг 3: Итерации после каждого применения

Каждое использование рунебука — новая возможность:

Удалить устаревшие шаги
Добавить недостающие проверки
Уточнить расплывчатые формулировки
Пометить шаги как безопасные для автоматизации в будущем

Со временем ваша кухня маяка превращается в выверенную кулинарную книгу: набор проверенных «плейов» на самые частые и рискованные сценарии сбоев.

Готовые шаблоны рунебуков, которые можно адаптировать

Ниже три простых паттерна, которые вы можете сразу взять в работу.

1. Аппаратный / инфраструктурный сбой

Заголовок: Отказ ноды в продакшн‑кластере

Триггер: нода в статусе NotReady более 5 минут
Кто: платформенный онколл
Проверки:
- Подтвердить состояние ноды в дашборде кластера
- Убедиться, что ворклоады успешно перераспределились
Действия:
- Если ворклоады здоровы: cordon & drain ноды, затем перезапуск/замена
- Если сервис деградировал: приоритизировать перераспределение и масштабирование
Готово, когда:
- Все ворклоады здоровы, SLO восстановлены

2. Ограничения ресурсов / ёмкость

Заголовок: Перегрузка CPU базы данных

Триггер: CPU БД > 85% дольше 10 минут
Проверки:
- Top‑запросы по CPU
- Состояние connection pool’а (есть ли исчерпание подключений)
Действия:
- Ввести аварийные лимиты подключений для некритичных клиентов
- Временно отключить тяжёлые фоновые задачи
Последующие шаги:
- Завести тикет на индексацию или оптимизацию основных запросов‑«пожирателей» ресурсов

3. Человеческая ошибка / неудачный деплой

Заголовок: Откат неудачного продакшн‑деплоя

Триггер: рост error rate > 3x в течение 5 минут после деплоя
Действия:
- Немедленно приостановить дальнейшие деплои
- Откатить до последней заведомо стабильной версии
Проверка:
- Подтвердить возврат метрик к базовому уровню
- Задокументировать инцидент

Эти шаблоны дают реагирующим основу для действий — а вам дают структуру, которую можно постепенно уточнять реальными историями о почти‑авариях.

От рунебуков к реальному, событийно‑управляемому автоматизму

Исторически «автоматизация» вокруг рунебуков означала cron‑задачи и скрипты: расписанные джобы и ручные скрипты, которые запускают люди.

Современная автоматизация рунебуков идёт намного дальше:

Событийно‑управляемое исполнение
- Сигналы системы (алерты, паттерны в логах, изменения состояния) автоматически триггерят действия.
- Пример: обнаружение деградирующей ноды автоматически выполняет cordon и drain.
Ограничители и одобрения
- Рискованные действия требуют подтверждения человека.
- Низкорисковые и легко обратимые — полностью автоматизируются.
Интеллектуальная автоматизация
- Использование истории инцидентов, чтобы предлагать вероятные фиксы.
- Автовыбор подходящих рунебуков по паттернам инцидента.
- Динамическая адаптация шагов на основе текущих сигналов.

Обычно путь выглядит так:

Ручные рунебуки – люди следуют написанным шагам.
Скриптовые рунебуки – люди запускают скрипты, которые выполняют шаги.
Событийная автоматизация – системы сами запускают скрипты по сигналам.
Интеллектуальная оркестрация – системы выбирают и адаптируют нужные рунебуки в реальном времени.

Критически важно: нельзя пропустить этап рецептов. Интеллектуальная автоматизация настолько хороша, насколько хороши лежащие под ней рунебуки — а рунебуки должны рождаться из ваших реальных инцидентов и почти‑аварий.

Почему тихие почти‑аварии — ваши лучшие учителя

Крупные даунтаймы и так вынуждают учиться: их разбирают, обсуждают, документируют.

Тихие почти‑аварии — нет, если только вы специально не вытащите их на свет.

Фиксация этих небольших сигналов в рунебуках помогает вам:

Рано замечать хрупкие допущения (например, зависимость, работающая на грани ёмкости, но ещё не падающая)
Постепенно усиливать автоматику (например, безопасно автооткатывать малорискованные деплои)
Уменьшать ручной труд (повторяющиеся шаги ремедиации становятся одним кликом или автотриггером)
Предотвращать громкие аварии, устраняя паттерн, пока он ещё «бумажный порез»

Относитесь к каждому тихому инциденту как к вспышке маяка: тонкое предупреждение, что в системе, процессе или инструментах нужен лучший рецепт.

Итог: начните «готовить» из того, что уже есть

Чтобы улучшить MTTA, MTTR и устойчивость, вам не нужна огромная новая платформа. У вас уже есть все ингредиенты:

Алерты и логи ваших систем
Боевые истории онколл‑инженеров
Поток тихих, почти забытых почти‑аварий

Превратите это в свою Кухню Маяка Историй Бумажных Инцидентов:

Фиксируйте даже мелкие, самовосстанавливающиеся или почти‑аварийные инциденты.
Выжимайте из них простые, практичные рунебуки.
Итеративно улучшайте рунебуки после каждого применения.
Постепенно автоматизируйте самые безопасные и повторяющиеся шаги.
Эволюционируйте к событийно‑управляемой, интеллектуальной автоматизации рунебуков.

Если делать это последовательно, команда будет меньше импровизировать под давлением — и больше проектировать такую систему, в которой худшие пожары — это те, которые так и не разгорелись.

Ваши будущие аварии уже что‑то шепчут. Рунебуки — это способ научиться слушать и быть готовыми, когда они начнут кричать.

Rain Lag

История «Бумажных инцидентов» и Кухня Маяка: как готовить руныбук‑рецепты из самых тихих почти‑аварий