Rain Lag

Уличный фестиваль бумажных инцидентов: как устроить поп‑ап ярмарку надёжности с аналоговыми играми и микро‑воркшопами

Как превратить надёжность, реагирование на инциденты и практики SRE в живой уличный фестиваль с бумажными инцидентами, аналоговыми играми и мини‑воркшопами, которые делают сложные концепции понятными и ориентированными на людей.

Уличный фестиваль бумажных инцидентов: как устроить поп‑ап ярмарку надёжности с аналоговыми играми и микро‑воркшопами

Представьте, что ваш справочник по инцидентам, SRE‑плейбук и военные истории дежурств сбежали из Confluence и превратились в уличный фестиваль.

Никаких дашбордов. Никаких терминалов. Только бумага, маркеры, картон и любопытные коллеги, которые ходят от стенда к стенду:

  • На одном стенде — нервная настольная игра про аварию, которая прокатывается по вашим вымышленным микросервисам.
  • На другом — 20‑минутный микро‑воркшоп по SLA и SLO с использованием стикеров и верёвочек.
  • За углом — «Шатёр историй», где ветераны онколла делятся рассказами о звонках в 3 часа ночи.

Это и есть идея уличного фестиваля бумажных инцидентов: поп‑ап ярмарка надёжности, которая превращает SRE‑концепции в доступные, физические и запоминающиеся форматы.

В этом посте — пошаговое руководство, как спроектировать и провести свой собственный «уличный фестиваль надёжности», используя аналоговые игры и микро‑воркшопы, чтобы сделать культуру работы с инцидентами осязаемой и по‑настоящему увлекательной.


Зачем уличный фестиваль ради надёжности?

Большинство команд знакомятся с надёжностью через документацию, инструменты и время от времени через болезненные реальные инциденты. Всё это важно, но при этом зачастую:

  • Слишком абстрактно: маршруты эскалации и error budget’ы легко пробежать глазами и тут же забыть.
  • Пугающе: у новых инженеров часто ощущение, что нужно сначала стать экспертом, чтобы вообще иметь право участвовать.
  • Сильно завязано на инструменты: человеческая сторона (коммуникация, стресс, командная работа) оказывается на вторых ролях.

Формат уличного фестиваля переворачивает эту картину:

  • Игра с низкими ставками: можно «сломать» бумажную систему, не разбудив ни одного реального клиента.
  • Тактильное обучение: люди физически двигают карточки, бросают кости, перенаправляют бумажные «пакеты».
  • Социальный, а не одиночный опыт: обучение происходит в малых группах, через совместные головоломки и истории.

Цель не в том, чтобы заменить документацию или формальное обучение. Цель — посеять более здоровую культуру инцидентов: где людям комфортнее с языком, с процессами и, что важнее всего, — друг с другом.


Проектируем свой уличный фестиваль надёжности

Думайте о планировке события как о реальной ярмарке: ряд тематических стендов, у каждого — своя активность. Участники гуляют, пробуют разные форматы и уносят с собой новые взгляды.

Простая структура может быть такой:

  1. Зона аналоговых игр — «бумажные инциденты» в формате настольных игр.
  2. Аллея микро‑воркшопов — короткие, сфокусированные сессии по ключевым темам.
  3. Уголок историй и рефлексии — военные истории, осмысление опыта и кросс‑командные обсуждения.
  4. Стена знаний — живая доска, где накапливаются инсайты и вопросы.

Большой бюджет не нужен. Почти всё можно сделать из:

  • бумаги, карточек, маркеров, скотча
  • кубиков, таймеров, цветных стикеров
  • нескольких волонтёров, которые будут «хостами» и фасилитаторами

Разберём каждый элемент по отдельности.


Стенд 1: Аналоговые игры с бумажными инцидентами

Вдохновляясь играми вроде Operation Raven, можно придумать настольные сценарии, которые в игровой форме имитируют инциденты.

Концепция игры: «Распределённая пончиковая»

Тема: вы управляете вымышленной онлайн‑платформой доставки пончиков. За кулисами — клубок сервисов: заказы, платежи, маршрутизация, уведомления, инвентарь.

Компоненты:

  • бумажная карта с сервисами‑узлами
  • карточки инцидентов («скачок латентности платежей», «отказ email‑провайдера»)
  • карточки ролей (Incident Commander, Comms, онколл по сервису X)
  • таймер и трек «удовлетворённости клиентов»

Как играть (15–25 минут):

  1. Фасилитатор задаёт сцену: обычный день, затем открывается первая карточка инцидента.
  2. Игроки должны:
    • определить, какие сервисы могут быть затронуты;
    • решить, какие сигналы они бы смотрели (логи, метрики, трейсы — представлены как карточки);
    • выбрать путь эскалации по напечатанной «орг‑карте» команд.
  3. Решения с ограничением по времени повышают или снижают показатель «удовлетворённости клиентов».
  4. После «разруливания» — короткий разбор: что получилось хорошо, что было непонятно, кто чувствовал перегруз.

Почему аналоговые игры работают

  • Они выносят ментальные модели наружу. Видно, как разные люди представляют себе архитектуру и пути эскалации.
  • Они позволяют безопасно ошибаться. Можно «не туда» эскалировать и просто посмеяться, а потом обсудить, как бы поступили в реальности.
  • Они тренируют роли. Люди, которые никогда не были Incident Commander, могут попробовать себя в этой роли без риска.

Сделайте пару разных игр или вариаций: одну — про коммуникационные узкие места, другую — про каскадные отказы, третью — про расстановку приоритетов между несколькими инцидентами.


Стенд 2: Микро‑воркшопы по ключевым темам надёжности

Вместо часовых лекций спроектируйте 10–25‑минутные микро‑воркшопы, каждый — вокруг одной конкретной темы:

  • реагирование на инциденты
  • жизнь на онколле
  • SLA/SLO
  • обучение после инцидентов

Каждый микро‑воркшоп строится по схеме: Объяснение → Опыт → Разбор.

Микро‑воркшоп: «SLO на стикерах»

Цель: сделать SLA/SLO конкретными и предметом осознанных договорённостей.

Ход (20 минут):

  1. Объяснение (5 мин): простая рамка: «SLO — это наше внутреннее обещание себе о надёжности. SLA — обещание клиентам с последствиями».
  2. Опыт (10 мин):
    • Дайте группам вымышленный продукт (например, видеостриминг, платежи, поиск).
    • Попросите выбрать 1–2 ключевых пользовательских сценария и записать их на стикерах.
    • Для каждого сценария они выбирают SLI (например, латентность, ошибки) и задают целевой SLO.
  3. Разбор (5 мин): обсудите компромиссы: «Что будет, если ужесточим этот SLO? Кто заплатит цену? Что если его ослабить?»

Участники уходят с ощущением, что SLO — это про пользовательский опыт и компромиссы, а не абстрактные проценты.

Микро‑воркшоп: «Пути эскалации как карта метро»

Цель: перестать делать эскалацию и роли при инцидентах чем‑то туманным и страшным.

Ход (15–20 минут):

  1. Фасилитатор показывает пустой шаблон «карты метро» с линиями под разные типы эскалации (техническая, управленческая, клиентская).
  2. Команды рисуют, как инциденты реально текут у них: кого пейджит, кому звонят, где принимаются решения.
  3. Сравнивают карты между командами — они совпадают? слишком сложные? не хватает «станций»?

Так плотный документ превращается в визуальный артефакт, который можно обсуждать и улучшать.

Микро‑воркшоп: «Постмортем за пять минут»

Цель: потренироваться в быстром, безобвинительном обучении.

Ход (10–15 минут):

  1. Дайте каждой группе небольшой вымышленный инцидент (короткий рассказ на карточке).
  2. Используйте одностраничный шаблон:
    • Что произошло?
    • Что сделало ситуацию сложнее?
    • Что помогло?
    • Одно изменение в системе.
    • Одно изменение в процессе.
  3. Разбор: фокус на системах и условиях, а не на людях.

Участники «на вкус» понимают, как можно учиться на инцидентах, не устраивая часовых совещаний.


Стенд 3: Человеческая сторона онколла

Работа над надёжностью — это не только алерты и ранбуки. Это стресс, решения под давлением и совместная работа в кризисе.

Сделайте отдельные пространства, которые целенаправленно ставят в центр человеческий фактор:

«Онколл‑лаунж» — дискуссионный круг

Короткие фасилитируемые круги (15–20 минут), где люди обсуждают:

  • Как вы лично справляетесь со стрессом от онколла?
  • Какие нормы нам нужны вокруг сна, смен, передачи дежурств и умения сказать «нет»?
  • Как выглядит хорошая психологическая безопасность во время инцидента?

Дайте карточки с вопросами и пространство, чтобы делиться стратегиями, личными границами и потребностями в поддержке.

Стенд ролевых игр по коммуникации

Быстрая ролевая сценка:

  • Один человек — Incident Commander.
  • Один — внешний стейкхолдер (PM, руководитель или глава поддержки клиентов).
  • Один — уставший, перегруженный онколл‑инженер.

Дайте простой сценарий и 5 минут на отыгрыш, затем 5 минут на разбор:

  • Какие формулировки помогали?
  • Где возникали непонимание или напряжение?
  • Как можно чётче структурировать статус‑апдейты?

Такие упражнения развивают эмпатию и подчёркивают коммуникацию как инструмент надёжности.


Стенд 4: Обучение у коллег и культура инцидентов

Относитесь к фестивалю как к сообществу, а не просто к тренингу.

Шатёр военных историй

Уютный угол с креслами и доской. Каждые полчаса — неформальная сессия:

  • Один волонтёр рассказывает короткую историю о запомнившемся инциденте.
  • Остальные задают вопросы: что удивило? чего хотелось бы знать заранее? как команда переживала это эмоционально?

Поощряйте сравнения:

  • Разные модели онколла (follow‑the‑sun vs. локальные ротации).
  • Разные подходы к инструментам (централизованные vs. командные).
  • Разные коммуникационные стили (Slack‑каналы, бриджи, отдельные incident‑румы).

Так всплывает неявное знание, которое редко попадает в официальные документы.

Стена знаний по надёжности

Выделите большую доску под:

  • «Что я хотел(а) бы, чтобы каждый в команде знал об инцидентах».
  • «Вопросы об онколле, которые у меня до сих пор есть».
  • «Идеи, которые хочу попробовать после сегодняшнего дня».

К концу фестиваля у вас будет коллективный срез культуры надёжности в организации — болевые точки, пробелы и ожидания.


Почему всё это удивительно нетяжеловесно

Поп‑ап ярмарка надёжности звучит масштабно, но на практике может быть лёгкой и итеративной:

  • Начните с 2–3 стендов и одного дня (или даже половины дня).
  • Используйте простые материалы: бумага, маркеры, распечатки, волонтёры.
  • Переиспользуйте игры и форматы воркшопов на тимбилдингах, онбординге или внутренних ланч‑энд‑лёрнах.

Выигрыш — непропорционально большой:

  • Общий язык: люди уходят с более согласованными ментальными моделями инцидентов, SLO и ролей.
  • Кросс‑командное понимание: фронтендеры видят, как работает платформа, и наоборот.
  • Лучшая культура инцидентов: больше психологической безопасности, чище коммуникация, ощущение, что надёжность — общее дело.

И главное — люди проживают надёжность не как сухой чек‑лист, а как совместное ремесло.


Заключение: соберите свой уличный фестиваль

Для улучшения культуры надёжности не нужна гигантская программа или формальная учебная дорожка. Можно начать с малого:

  • Одна аналоговая игра про вымышленный outage.
  • Один 20‑минутный микро‑воркшоп про SLO.
  • Один круг военных историй.

Из этого постепенно вырастет полноценный уличный фестиваль бумажных инцидентов, который:

  • делает сложные практики SRE понятными и запоминающимися;
  • подсвечивает человеческую сторону онколла и реагирования на инциденты;
  • побуждает коллег учиться друг у друга и делиться работающими решениями.

Превратите ваши практики надёжности в фестиваль всего на один день — и посмотрите, как эта энергия, любопытство и общее понимание возвращаются в реальные инциденты и в то, как ваши команды на них реагируют.

Уличный фестиваль бумажных инцидентов: как устроить поп‑ап ярмарку надёжности с аналоговыми играми и микро‑воркшопами | Rain Lag