Rain Lag

Аналоговый настольный инцидент‑оррерий: как вручную «проворачивать» бумажную вселенную рисков, пока она не столкнулась с реальностью

Как вдохновлённый Антикитерским механизмом, ручной бумажный оррерий может превратить tabletop‑упражнения в наглядный способ увидеть инциденты, отказы и каскадные риски до того, как они произойдут.

Введение: предсказывая штормы в бумажном небе

В начале XX века водолазы у побережья греческого острова Антикитера нашли комок корродировавшей бронзы, который оказался поразительной находкой: древним аналоговым «компьютером». Антикитерский механизм был ручным оррерием — механической моделью небес, которую использовали для предсказания затмений и других небесных явлений.

Он не останавливал движение планет и не предотвращал затмения. Вместо этого он делал невидимое видимым: сложный танец небесных тел становился чем‑то, что можно увидеть, повернуть и понять.

То же самое мы можем сделать и с инцидентами.

В современных распределённых системах отказы неизбежны. Сервисы падают, зависимости залипают, атакующие прощупывают вашу защиту, пропадает питание или «маленькая» ошибка в конфигурации прокатывается волной по всей экосистеме. Делать вид, что этого не случится, не делает вас безопаснее; это делает понимание и моделирование таких ситуаций.

Здесь появляется аналоговый настольный инцидент‑оррерий Story Compass: ручная, бумажная вселенная сценариев, которая помогает командам исследовать, как разные риски и отказы могут столкнуться — и сделать это до того, как они столкнутся в продакшене.


От Антикитеры к инцидентам: зачем оррерий рисков?

Антикитерский механизм — убедительная метафора того, как можно думать о рисках и надёжности:

  • Он моделирует сложность через механические ограничения.
  • Он симулирует время — крути ручку и смотри в будущее.
  • Он показывает взаимодействия — шестерёнки связывают циклы, которые иначе кажутся разрозненными.

Теперь представьте оррерий не из планет и лун, а из:

  • Сервисов и микросервисов
  • Внешних зависимостей
  • Сегментов сети и регионов
  • Векторов атак и режимов отказов
  • Команд реагирования на инциденты и плейбуков

Вместо орбит и соединений мы видим:

  • Отключения, совпадающие с окнами обслуживания
  • Новые типы атак, накладывающиеся на известные уязвимости
  • Региональный инцидент у облачного провайдера, совпадающий с вашим пиковым трафиком

Физический, аналоговый настольный story‑оррерий‑компас — это способ:

  • Вынести ментальную модель распространения отказов во внешний, общий объект.
  • Превратить абстрактные диаграммы рисков в осязаемый, разделяемый артефакт.
  • Вручную «крутить время» и видеть, что происходит, когда несколько рисков выстраиваются в линию.

Отказы в распределённых системах: дело не в если, а в как

Распределённые системы ломаются типично. Некоторые распространённые модели отказов:

  • Частичный отказ: один компонент падает или сильно замедляется, в то время как остальные работают нормально.
  • Сетевые сегментации (network partitions): части системы теряют связь, но продолжают работать локально.
  • Византийские отказы (Byzantine failures): компоненты ведут себя непоследовательно или злонамеренно (например, скомпрометированный узел).
  • Проблемы с таймингом и задержками: системы формально «доступны», но слишком медленны, чтобы быть полезными.
  • Каскадные отказы: небольшой сбой запускает ретраи, таймауты, истощение ресурсов и более широкое обрушение.

Мы часто фиксируем это в документах: архитектурные диаграммы, матрицы рисков, графы зависимостей. Полезно — но плоско.

Модель в стиле оррерия позволяет:

  • Представлять каждую модель отказа как планету, луну или орбиту.
  • Показывать «гравитационное притяжение» — зависимости и связность между системами.
  • Исследовать, как соединения (например, «небольшая сетевая сегментация» + «шторм ретраев» + «скачок трафика») превращаются в инциденты.

Цель не в том, чтобы быть идеально точными. Цель в том, чтобы:

Дать вашей команде общую, управляемую модель того, как отказы могут взаимодействовать.


Настольный Story‑оррерий: бумажная вселенная сценариев

Представьте физическую рабочую поверхность, которая функционирует как повествовательный оррерий вашей системы:

  • Большая базовая карта, на которой обозначены ваши системы, регионы, команды и ключевые внешние зависимости.
  • Вырезанные диски или кольца, представляющие разные классы рисков (например, инфраструктура, баги в приложении, человеческая ошибка, вендор, природная катастрофа, кибератака).
  • Концентрические орбиты, отражающие горизонты планирования (например, часы, дни, недели, кварталы) или уровни эскалации по серьёзности.
  • Жетоны или «планеты» с конкретными сценариями: «Региональный outage S3», «Ransomware в общем файловом хранилище», «Ошибка в конфигурации DNS», «Откат новой фичи не сработал», «Rate limiting у платёжного провайдера», «Отключение электричества в офисе» и т.п.

Теперь добавьте буквальную ручку‑кривошип:

  • Поворот ручки продвигает ваше «инцидентное время» вперёд.
  • Диски вращаются с разной скоростью, моделируя вероятности, циклы или ранние индикаторы.
  • Когда диски сводят два и более жетона‑сценария в выравнивание, у вас происходит событие‑соединение — начало tabletop‑инцидента.

Это физическое действие имеет значение:

  • Люди лучше запоминают то, что они перемещают руками.
  • Они видят, что ни один отказ не изолирован; орбиты пересекаются.
  • Это подчёркивает, что на инциденты влияют время, зависимости и случайность.

Проецируем модели отказов на физический оррерий

Вы можете спроектировать свой оррерий так, чтобы он отражал, как реально устроены ваши системы и организация. Например:

1. Орбита инфраструктуры

  • Планеты: отказ дата‑центра, потеря региона, сетевая сегментация, деградация хранилища.
  • Луны: сбой резервного копирования, исчерпание ёмкости, некорректно настроенный autoscaling.

2. Орбита приложений и данных

  • Планеты: неудачная миграция схемы БД, cache stampede, thundering herd, взаимная блокировка (deadlock).
  • Луны: неправильное использование feature‑флагов, некорректная логика fallback.

3. Орбита людей и процессов

  • Планеты: выгорание on‑call, неверная маршрутизация алертов, медленная эскалация, конфликтующие runbook’и.
  • Луны: новичок в первый самостоятельный on‑call, теневые ИТ (shadow IT), ad‑hoc‑заплатки.

4. Внешняя и средовая орбита

  • Планеты: крупный инцидент у облачного провайдера, критический outage у вендора, компрометация цепочки поставок.
  • Луны: природная катастрофа, закрытие офиса, проблемы на магистральных каналах Интернета.

5. Орбита угроз (кибербезопасность)

  • Планеты: фишинговая кампания, credential stuffing, ransomware, инсайдерская угроза.
  • Луны: выставленная наружу админ‑панель, непатченый сервис, некорректно настроенный IAM.

Каждая орбита может вращаться:

  • С разной скоростью (как часто что‑то возникает).
  • В разных фазах (сезонный трафик, аудиты по соответствию, маркетинговые запуски).

Когда вы проводите сессию, вы:

  1. Крутите ручку.
  2. Смотрите, какие жетоны выстроились.
  3. Используете это соединение как зерно сценария инцидента.

Tabletop‑упражнения как ручные нарративы

Классические tabletop‑упражнения уже приносят огромную пользу:

  • Симуляции киберинцидентов
  • Разбор сценариев природных катастроф / непрерывности бизнеса
  • Учения по отказу облачного провайдера или ISP
  • Ролевые сценарии внутренних угроз или утечек данных

Вы собираете людей в одной комнате, предъявляете сценарий, спрашиваете: «Что вы делаете?» и продвигаете время вперёд.

Настольный оррерий превращает это в истории, которые можно увидеть и к которым можно прикоснуться.

Пошагово: как провести tabletop на базе оррерия

  1. Задать контекст

    • Выберите, какие орбиты и жетоны важны для этой сессии.
    • Кратко напомните, что означает каждая орбита и каждый жетон.
  2. Запустить вселенную

    • Поверните ручку на несколько шагов.
    • Определите первое значимое соединение (например, «Неделя пикового трафика» + «Ошибка в конфигурации DNS» + «Новый SRE в on‑call»).
    • Объявите это T0: инцидент обнаружен.
  3. Продвигать время дискретными шагами

    • Каждый оборот = 15 минут, час или рабочий день — как вам удобнее.
    • На каждом шаге проговаривайте меняющиеся условия: новые риски сходятся, какие‑то уходят.
    • Спрашивайте: Что мы сейчас знаем? Что делаем? Кто вовлечён?
  4. Отслеживать каскадные эффекты

    • Используйте нитки, маркеры или карточки, чтобы рисовать траектории воздействия на базовой карте.
    • Показывайте, какие команды перегружены, какие SLA нарушены, какие клиенты это чувствуют.
  5. Фиксировать слабые места

    • Где вы спорили о том, кто за что отвечает?
    • Когда было неясно, какой инструмент или runbook использовать?
    • Какие ручные процессы заняли слишком много времени?
  6. Разбор полётов с картой перед глазами

    • Встаньте вокруг стола и помечайте бумажную вселенную.
    • Превратите инсайты в конкретные действия: новые runbook’и, обучение, изменения в архитектуре или политике.

Почему аналоговые инструменты лучше ещё одной диаграммы

Всё это можно смоделировать в продвинутом цифровом инструменте. Многие команды так и делают. Но у аналоговых, физических инструментов есть важные преимущества:

  1. Осязаемость = запоминаемость
    Люди запоминают, как они двигали жетон, чувствовали сопротивление ручки, видели «столкновение» жетонов. Это закрепляет абстрактные концепции риска в физическом опыте.

  2. Общий фокус
    Большая бумажная карта и оррерий притягивают внимание всех к одной точке. Никто не теряется в своей вкладке. Люди показывают пальцем, жестикулируют, спорят — и таким образом строят общую ментальную модель.

  3. Малое трение, высокая адаптивность
    Можно на лету нарисовать новый сервис карандашом, приклеить новый жетон‑риск или переименовать орбиту. Никаких прав доступа, лицензий — только бумага, ручки и воображение.

  4. Психологическая безопасность
    Аналоговые инструменты ощущаются скорее как игра, а не как формальная проверка. Это поощряет честный разговор о пробелах, неопределённости и «на самом деле мы не знаем, кто владеет этим участком».

  5. Доступность для разных дисциплин
    Нетеxнические стейкхолдеры тоже могут подойти к столу и участвовать. Они могут не понимать граф микросервисов, но орбиты, столкновения и истории им понятны.


Как создать свой инцидент‑оррерий

Вам не нужен кастомный латунный механизм (хотя это было бы красиво). Можно начать с:

  • Большого листа бумаги или стол‑вайтборда
  • Круглых трафаретов или старых дисков от настольных игр
  • Карточек, стикеров, ниток и маркеров
  • Простого картонного или деревянного механизма‑кривошипа — или даже просто с договорённости «крутим кольцо руками»

Далее:

  1. Составьте список критичных систем, зависимостей и команд.
  2. Определите ключевые режимы отказов и угроз.
  3. Разнесите их по орбитам по типу или слою (инфраструктура, приложение, люди, внешние факторы, угрозы).
  4. Создайте физические жетоны для каждого сценария.
  5. Определите шаг времени на один оборот ручки.
  6. Назначьте регулярные tabletop‑сессии, на которых вы будете вручную «крутить» свою бумажную вселенную.

Со временем ваш настольный оррерий превратится в живую хронику того, как ваша организация мыслит о риске — и как это мышление эволюционирует.


Заключение: крутите ручку раньше, чем это сделает реальность

Антикитерский механизм не управлял небесами; он их предвосхищал. Он превращал ошеломляющую сложность неба во что‑то, что люди могли увидеть, потрогать и осмыслить.

Ваши системы — и риски, которым они подвержены — не менее сложны.

Аналоговый настольный инцидент‑оррерий Story Compass даёт вашей команде способ:

  • Принять, что отказы неизбежны.
  • Моделировать и визуализировать, как эти отказы могут столкнуться.
  • Отрабатывать реакции через структурированные tabletop‑упражнения.
  • Находить слабые места до того, как это сделают продакшен, регуляторы или атакующие.

Ручное «прокручивание» бумажной вселенной рисков даёт организации не обещание, что ничего не сломается, а нечто гораздо более ценное: натренированную, разделяемую способность ориентироваться, когда это произойдёт.

Аналоговый настольный инцидент‑оррерий: как вручную «проворачивать» бумажную вселенную рисков, пока она не столкнулась с реальностью | Rain Lag