Аналоговый набор для надежности: как проводить критичные учения по инцидентам с одними только карточками и малярным скотчем

Современные системы цифровые, распределённые и сложные. Ваши учения по инцидентам такими быть не обязаны.

Вы можете проводить мощные, реалистичные и психологически безопасные учения, используя только карточки, малярный скотч и доску или просто голую стену. Если сделать это правильно, такие «аналоговые полевые наборы» помогают командам видеть зависимости, тренировать принятие решений под давлением и заранее обнаруживать организационные точки отказа задолго до реального кризиса.

В этом посте разобрано, как проектировать и проводить такие низкотехнологичные tabletop‑учения — особенно для промышленных и критически важных инфраструктур — опираясь на проверенные практики управления чрезвычайными ситуациями и реагирования на инциденты в ICS/OT.

Зачем идти в аналог при работе с высокорисковыми инцидентами?

У вас уже есть дашборды, симуляторы и runbook’и. Зачем возвращаться к бумаге?

1. Физика делает скрытую сложность видимой
Физическая раскладка систем, команд и цепочек решений делает сложность наглядной так, как это редко удаётся слайдам и документации. Когда вы буквально подходите к углу стены «Операции» и видите, сколько линий скотча к ним тянется, риски зависимости становятся очевидны.

2. Низкие технологии — низкий порог входа
Никому не нужен аккаунт, логин или специальное ПО. Карточки и скотч подходят для:

Операторов и техников на производстве
IT, OT, специалистов по безопасности и эксплуатации объектов
Юристов, пиар‑службы и руководителей

Любой может подойти, что‑то написать, переставить или пометить. Это упрощает выявление слепых зон между командами.

3. Фокус на решениях, а не на инструментах
Когда учение не привязано к конкретной платформе, люди меньше думают о том, «какой дашборд открыть», и больше — о том:

Кому мы звоним?
Что мы ставим в приоритет?
Чем мы готовы пожертвовать?

Именно эти вопросы определяют, пройдёт ли реальный инцидент успешно или провально.

Базовый набор: что вам действительно нужно

Большой бюджет не обязателен. Обязательна продуманная структура.

Физические материалы

Карточки (много) 2–3 цветов
Малярный скотч (по возможности нескольких цветов)
Толстые маркеры (чтобы было видно издалека)
Стикеры для пометок и быстрых событий
Большая стена, стеклянная поверхность или несколько досок

Роли

Фасилитатор: ведёт сценарий, задаёт темп, добавляет события
Секретарь / наблюдатель: ведёт записи, фиксирует цитаты, следит за временем
Участники: реальные люди, которые отвечали бы за инцидент в жизни

Ограничение аналоговых инструментов заставляет быть понятнее. Каждая карточка должна быть оправдана. Каждая линия скотча должна что‑то означать.

Шаг 1: Смоделируйте вашу систему в масштабе комнаты

До того, как «инцидент» начнётся, соберите на стене простую, но содержательную модель вашей среды.

Обозначьте сущности на карточках
Используйте один цвет на тип сущности, например:

Синий: технические компоненты (PLC, SCADA‑сервера, базы данных, датчики, сети)
Зелёный: команды и роли (Диспетчерский зал, OT‑инжиниринг, IT‑безопасность, Коммуникации, Регулятор, Вендор)
Жёлтый: внешние зависимости (облачный провайдер, энергокомпания, телеком, аварийные службы)

Пишите крупно и просто: «Основной кластер PLC – Завод 1», «Файрвол сегментации OT‑сети», «OT‑инжиниринг – он‑колл».

Покажите зависимости с помощью малярного скотча
Проводите линии скотча, чтобы отразить:

Потоки данных (например, датчик → PLC → хранилище исторических данных → аналитическая платформа)
Потоки управления (например, SCADA HMI → полевое устройство)
Организационные связи (например, OT‑инженер взаимодействует с аналитиком SOC)

Обозначьте критичность и хрупкость
Добавьте небольшие стикеры для:

Известных единичных точек отказа
Legacy‑систем с ограниченной поддержкой вендора
Жёстких регуляторных интерфейсов (например, обязательные каналы отчётности)

За 20–30 минут у вас появится простая, несовершенная, но очень сильная карта, которую все видят и могут оспорить.

Шаг 2: Придумайте реалистичный, по‑настоящему серьёзный сценарий

Сценарий должен быть неприятно правдоподобным.

Для промышленных объектов и критической инфраструктуры думайте в категориях:

Потеря видимости (например, отказ историка данных или HMI)
Подозрение на компрометацию OT‑сетей
Риски для физической безопасности (повышенное давление, перегрев, выброс реагентов)
Каскадные отказы между площадками или регионами
Регуляторные риски или угрозы для общественной безопасности

Создайте короткое, конкретное начальное описание на карточке:

«Диспетчерская сообщает о периодической потере телеметрии с Завода 2. Операторы замечают странные изменения уставок, которые они не выполняли. Текущих аварийных сигналов нет.»

Затем подготовьте инъекции событий — небольшие карточки, которые вы будете открывать по ходу учения:

«Логи VPN вендора фиксируют аномальную активность с зарубежного IP.»
«Местный энергоснабжающий филиал сообщает о просадках напряжения в регионе.»
«Журналисты звонят в отдел коммуникаций по поводу возможной утечки на объекте.»
«Регулятор запрашивает статус‑обновление через 30 минут.»

Вы не снимаете кино; вы создаёте «скороварку» для принятия решений.

Шаг 3: Используйте уровни серьёзности, которые что‑то значат

Во многих организациях либо:

Каждое оповещение превращается в полноценный инцидент, либо
Эскалации не происходит даже тогда, когда ставки реально высоки

Ваш аналоговый набор — отличный способ протестировать и доработать осмысленные уровни серьёзности (severity).

На отдельной части стены опишите ваши уровни:

SEV 4 – Низкий / Локальный
Ограниченная область, минимальное влияние, проблема решается внутри одной команды.
SEV 3 – Существенный / Много команд
Замётное влияние на операции, требуется координация нескольких команд, но серьёзных рисков для безопасности или регуляторных последствий нет.
SEV 2 – Крупный / Критичный для бизнеса
Явное влияние на бизнес, возможные риски для безопасности или окружающей среды, вероятное вовлечение регуляторов, привлечение дежурного руководства.
SEV 1 – Критический / Риски для жизни, безопасности или общественности
Активное событие, затрагивающее безопасность людей, окружающую среду или общественные интересы; разворачивается полный контур управления инцидентом (Incident Command Structure).

Для каждого уровня запишите на стене:

Кто обязан быть вовлечён
Максимально допустимое время на подтверждение и реакцию
Какие каналы коммуникации используются

Во время учения заставьте команду явно выбирать и пересматривать уровень серьёзности по мере появления новой информации. Повесьте крупную карточку «ТЕКУЩАЯ СЕРЬЁЗНОСТЬ: SEV X» и требуйте аргументации при её изменении.

Шаг 4: Возьмите жизненный цикл из практики ЧС

Практики управления чрезвычайными ситуациями и фреймворки ICS/OT предлагают простой и устойчивый жизненный цикл инцидента:

Обнаружение (Detection) – Как мы понимаем, что что‑то не так?
Триаж (Triage) – Насколько всё плохо? Кто затронут? Какой уровень серьёзности?
Сдерживание (Containment) – Как не дать ситуации усугубиться?
Восстановление (Recovery) – Как безопасно вернуть систему к нормальной работе?
Разбор (Review) – Что мы узнали? Что изменим?

Создайте на стене пять больших заголовков из малярного скотча. В ходе учения помещайте под каждый этап небольшие карточки, обозначающие:

Совершённые действия
Принятые решения
Выявленные неизвестные

Получится видимая «лента времени» инцидента, по которой участники могут пройтись, воспроизвести события и разобрать их во время дебрифа.

Шаг 5: Тренируйте решения, а не только процедуры

Крупнейшие провалы в реальных инцидентах редко связаны с тем, что кто‑то не знает нужную команду. Чаще они о том, что:

Эскалация была слишком поздней — или слишком ранней
Не проинформировали нужных людей
Упустили общий нарратив — внутри или вовне
Не сделали осознанные компромиссы (безопасность vs. выпуск продукции, доступность vs. целостность)

Используйте аналоговую модель, чтобы явно проработать это.

1. Кто с кем разговаривает?
Скотчем прорисуйте реальные коммуникационные цепочки: Диспетчерская → OT‑инженер → Руководитель инцидента → Топ‑менеджмент. Когда участники говорят: «Мы оповестим юристов», протяните линию и подпишите, как (телефон, email, ICS‑канал). Если это неясно или медленно — это важный сигнал.

2. Что в приоритете?
Когда одновременно всплывают несколько проблем — вопрос безопасности, проблема целостности данных, запрос от регулятора — заставьте выбирать приоритет:

«У вас одна инженерная команда и ограниченное окно простоя. Вы изолируете пострадавший завод сейчас, рискуя потерей выпуска, или ждёте дополнительных данных, рискуя усилением ущерба?»

Каждый компромисс фиксируйте на отдельной карточке и помещайте под тот этап жизненного цикла, на котором он был сделан.

3. Как мы работаем с неопределённостью?
Когда участники спрашивают данные, которые в реальности были бы недоступны, скажите об этом. Вместо этого повесьте карточку «НЕИЗВЕСТНО» и спросите:

Под какими допущениями вы будете работать?
Какие риски вы на себя берёте?

Так вы тренируете умение принимать взвешенные решения в условиях неполной информации — ровно то, что требуется при реальных инцидентах.

Шаг 6: Визуализируйте точки отказа на стыках

Одна из главных сил настенного аналогового макета — в том, насколько ясно он показывает, где система может «сломаться».

Обращайте внимание на:

Перегруженные узлы
Карточки, к которым ведёт множество линий скотча, но за ними стоит один человек или одна команда. Это вероятные «бутылочные горлышки» в потоке информации или принятии решений.
Одиночные тонкие линии
Всего одна линия, соединяющая критически важные компоненты или организации — явная единичная точка отказа или риск провала координации.
Разрывы между технической и организационной картой
Например, карта системы безопасности есть, а карточки владельца нет. Кто фактически отвечает за неё во время инцидента?

Фасилитатор должен обращать внимание на эти паттерны. Не обязательно решать их прямо во время учения; важно сделать их видимыми и зафиксировать для разбора.

Шаг 7: Проведите структурированный дебриф, который что‑то меняет

Само учение — это подготовка. Настоящая ценность — в том, что вы сделаете после.

Сразу после симуляции, пока всё ещё свежо в памяти, проведите структурированный дебриф:

Начните с психологической безопасности
Чётко обозначьте рамку: мы улучшаем системы и процессы, а не ищем виноватых.
Пройдитесь вдоль стены
Физически двигайтесь от «Обнаружение» к «Разбору» вдоль вашего жизненного цикла и на каждом этапе спрашивайте:

Что у нас получилось хорошо и что нужно сохранить?
Что было непонятным или медленным?
Где нам просто повезло?

Зафиксируйте конкретные улучшения
На новых карточках запишите:

Обновления runbook’ов
Пробелы в мониторинге или телеметрии
Отсутствующие контакты или неочевидные роли
Вопросы по политике или регуляторике

Сгруппируйте это в категории:

Сделать сейчас (0–30 дней)
Сделать дальше (1–3 месяца)
Изучить глубже

Обновите плейбуки и определения серьёзности
Если учение показало, что ваши критерии SEV 2 слишком жёсткие (или слишком мягкие), скорректируйте их. Если фактические коммуникации не совпали с описанными в плейбуках, обновите документы — не только устные договорённости.

И в конце сразу запланируйте следующие учения. Надёжность — это практика, а не разовое мероприятие.

Итоги

Вам не нужен симуляционный центр, чтобы тренировать реагирование на критичные инциденты. С помощью карточек, малярного скотча и часа‑двух времени вы можете:

Сделать скрытые зависимости и режимы отказа наглядными
Протестировать уровни серьёзности и пути эскалации
Потренировать реальные решения под давлением
Улучшить взаимодействие между IT, OT, производством и руководством

«Аналоговый набор для надёжности» обманчиво прост. Его сила в сочетании:

Конкретных физических моделей
Реалистичных, высокорисковых сценариев
Структурированных жизненных циклов и дебрифов

Начните с малого: выберите один завод, одну систему или один тип инцидента. Нанесите карту, проиграйте сценарий, «пройдитесь вдоль стены» и зафиксируйте выводы.

Со временем эти карточки и линии скотча сделают то, чего не могут даже самые продвинутые инструменты: помогут людям увидеть всю систему целиком — и тренировать её устойчивость тогда, когда это действительно важно.