Rain Lag

아날로그 인시던트 스토리 컴퍼스 아케이드: 팀이 실제로 즐겨 하는 로우테크 리스크 ‘게임’ 벽 만들기

실제 업무 공간에 물리적인 로우테크 ‘인시던트 아케이드’를 만들어서, 팀이 간단하고 몰입감 있는 게임을 통해 리스크, 신뢰성, 인시던트 대응을 자연스럽게 연습하게 하는 방법을 소개합니다.

아날로그 인시던트 스토리 컴퍼스 아케이드

인시던트 대응과 신뢰성 관련 실천이 대부분 문서, 대시보드, 슬라이드 속에서만 존재한다면, 그 팀은 대체로 연습은 부족한데 자신감만 넘치는 상태일 가능성이 높습니다.

대부분의 조직은 신뢰성이 중요하다고 합니다. 어떤 곳은 가끔 테이블탑(Tabletop) 연습도 합니다. 하지만 인시던트에 대한 사고방식이 매일의 업무 일부가 되도록, 즉 눈에 보이고, 만질 수 있고, 회의 사이 5분 비는 시간에도 쉽게 연습할 수 있는 문화를 만드는 곳은 거의 없습니다.

이럴 때 도움이 되는 것이 바로 아날로그 인시던트 스토리 컴퍼스 아케이드입니다.

또 하나의 툴이나 플랫폼을 도입하는 대신, 업무 공간 한쪽에 **물리적인 로우테크 “인시던트 월(incident wall)”**을 만듭니다. 이 벽에는 리스크와 신뢰성을 눈에 보이고, 부담 없이, 계속해서 연습하게 도와주는, 간단한 게임 형태의 연습들이 큐레이션되어 있습니다.

이건 장식이 아닙니다. 의도적으로 설계된 작고 아날로그인 게임들의 시스템입니다. 이 게임들은:

  • 실제 인시던트 상황을 가볍게 시뮬레이션하고
  • 커뮤니케이션·오너십·프로세스의 빈틈을 드러내며
  • 실제 인시던트 대응·복구 계획을 개선하는 피드백이 되고
  • 비난 없는(blameless), 심리적으로 안전한 학습을 일상화합니다.

그리고 무엇보다, 마찰이 적고 물리적인 형태라서 사람들이 실제로 사용합니다.


왜 아날로그 인시던트 아케이드는 (툴이 안 되는 걸) 잘 해낼까

디지털 툴은 강력하지만, 눈에 잘 안 보이는 비용이 하나 있습니다. 바로 **활성화 에너지(activation energy)**입니다. 어떤 툴 안에서 인시던트 연습을 하려면 보통:

  • 캘린더 슬롯을 잡고
  • 진행자(facilitator)를 정하고
  • 줌(Zoom) 링크를 만들고
  • 슬라이드나 플레이북을 준비해야 합니다.

분기마다 하는 큰 연습에는 좋지만, 매일의 학습에는 최악입니다.

반대로, 아날로그 인시던트 월은 이 진입 장벽을 확 낮춥니다:

  • 로그인도, 권한도 필요 없음
  • 실제 물리적인 공간에서 항상 눈에 보임
  • 한눈에 이해 가능
  • 5–15분만 있어도 곧바로 참여 가능

커피 한 잔 타러 가는 것처럼, 언제나 거기 있고, 시작하기 쉬운 인시던트 연습을 만든다고 생각하면 됩니다.


인시던트 스토리 컴퍼스 아케이드의 핵심 원칙

포스트잇부터 벽에 붙이기 전에, 디자인을 다음 원칙들에 앵커링해 두면 좋습니다.

  1. 로우테크, 하이터치(Low-tech, High-touch)
    카드, 포스터, 포스트잇, 토큰 같은 물리적인 아티팩트를 사용하세요. 손으로 만지는 작업은, 또 하나의 온라인 보드보다 리스크와 의사결정이 훨씬 더 실감나게 느껴지게 만듭니다.

  2. 엔드 투 엔드(End-to-end) 사고
    “장애가 났다”는 순간만 시뮬레이션하지 마세요. 탐지 → 트리아지 → 커뮤니케이션 → 조율 → 완화·복구 → 사후 학습까지 전 수명주기를 함께 걷게 만드세요.

  3. 비난 금지, 심리적 안전
    프롬프트와 안내문을 설계할 때, 명시적으로 비난을 피하는 문장을 넣으세요. 개인이 아니라 시스템조건에 초점을 맞춥니다.

  4. 정보와 오너십의 가시화
    각 게임은 “어디에서 정보가 막히는지”, “누가 어떤 오너십을 혼동하는지”, “어떤 프로세스가 문서에만 있고 실제에선 작동하지 않는지”를 드러내야 합니다.

  5. 포스터가 아닌 살아 있는 시스템
    실제 인시던트, 니어미스(near-miss), 신뢰성 데이터로 시나리오를 계속 갈아 끼우세요. 최소 월 1회는 업데이트되어야 합니다.

  6. 낮은 마찰, 높은 접근성
    모든 연습은 다음을 만족해야 합니다:

    • 진행자 없이도 바로 시작 가능
    • 30분 이내(이상적으론 5–15분)에 끝남
    • 짧은 안내 카드 한 장으로 설명 가능

인시던트 월 디자인: 존(Zone)과 게임 타입

이 벽을 여러 종류의 “오락기”가 놓인 아케이드라고 생각해보세요. 팀원들은 오가다가 아무 “기계”에나 가서 한 판 할 수 있습니다.

아래는 실제로 적용할 수 있는 존과 게임 예시들입니다.

1. 시나리오 캐러셀(Scenario Carousel): 빠른 인시던트 스냅샷

목적: 짧고 부담 없는 연습을 통해, 인시던트 패턴 인식 능력과 관련 어휘를 기릅니다.

준비물:

  • 시나리오 카드(인덱스 카드 또는 출력물)
  • 포스트잇

각 시나리오 카드에는 다음 정보가 들어 있습니다:

  • 짧은 상황 설명
    (예: “EU 리전에 들어오는 트래픽의 20%에서 Payment API 레이턴시가 150ms에서 2초로 급증했습니다.”)
  • 타임스탬프와 맥락(요일, 시간대, 피크 타임인지 오프 피크인지)
  • 2–3개의 가이드 질문, 예를 들어:
    • 가장 먼저 무엇을 확인하겠습니까?
    • 첫 10분 안에 누가 이 사실을 알아야 합니까?
    • 이 상황을 잘못 다루면, 가장 그럴듯한 최악의 임팩트는 무엇일까요?

플레이 방법:

  1. 한 사람 또는 작은 그룹이 시나리오 카드를 하나 뽑습니다.
  2. 질문에 대한 답을 포스트잇에 적고, 카드 아래에 붙입니다.
  3. 이후에 다른 사람이 지나가다가, 다른 색 포스트잇으로 대안 답변이나 코멘트를 덧붙일 수 있습니다.

이 게임이 드러내는 것:

  • “가장 먼저 무엇을 할지”에 대한 서로 다른 멘탈 모델
  • 누구를 언제 알릴지에 대한 상이한 가정
  • 임팩트와 블라스트 레디우스(blast radius)에 대한 이해의 격차

주 1회 정도 포스트잇을 모아서 리뷰해보세요. 사람들이 서로 얼만큼 정렬되어 있는지, 어디에서 가장 큰 불일치가 나타나는지 확인할 수 있습니다.


2. 오너십 미로(Ownership Maze): 누가, 언제, 무엇을 하나?

목적: 인시던트 상황에서 불명확한 역할과 책임을 드러냅니다.

준비물:

  • 큰 포스터 한 장: 탐지(Detect) → 트리아지(Triage) → 커뮤니케이트(Communicate) → 완화(Mitigate) → 복구(Recover) → 학습(Learn) 단계 표시
  • 역할 카드 세트
    (예: 온콜 엔지니어, 인시던트 커맨더, 프로덕트 오너, 고객지원, SRE, 커뮤니케이션/PR 등)
  • 실 또는 화살표 스티커, 포스트잇

플레이 방법:

  1. 특정 인시던트 유형 하나를 고릅니다.
    예: “고객 데이터 유출”, “주요 기능 전체 장애” 등.
  2. 그룹으로 모여, 각 단계 아래에 어떤 역할 카드가 들어가야 할지 배치합니다.
  3. 실이나 화살표로 누가 누구와 소통하는지를 표시하고, 포스트잇에 다음을 적습니다:
    • 이 단계의 최종 책임자는 누구인가?
    • 누가 컨설트(consult), 누가 인폼(inform) 대상인가?
    • 어떤 아티팩트가 남아야 하는가?
      (티켓, Status Page 업데이트, Slack 공지 등)

이 게임이 드러내는 것:

  • 누구도 명확히 책임지지 않는 단계
  • 화살표가 너무 많이 몰려 과부하된 개인/역할
  • 빠져 있는 아티팩트나 커뮤니케이션 채널

여기서 얻은 결과를 RACI 차트, 런북(runbook), 인시던트 커맨더 교육에 반영하세요.


3. 고장난 전화 보드(Broken Telephone Board): 정보 흐름 스트레스 테스트

목적: 인시던트 관련 정보가 조직 안에서 전달되는 동안 어떻게 변형되거나 사라지는지를 드러냅니다.

준비물:

  • 시작용 “인시던트 설명” 카드 1장
  • 세로로 배열된 빈 “메시지” 카드 슬롯들
  • 봉투나 포켓(카드를 가려 넣을 수 있는 것)

플레이 방법:

  1. 맨 위에 초기 인시던트 설명을 붙입니다.
    예: “09:12, US-East 리전의 Checkout 서비스에서 500 에러 비율이 3배 증가했다는 내부 모니터링 알람이 발생했습니다.”
  2. 그 아래에 5–7개의 “메시지” 슬롯을 세로로 배치합니다.
  3. 규칙:
    • 1번 사람이 초기 설명을 읽고, 자신이 상정한 대상(예: 온콜 채널, 임원 채널, 고객지원팀 등)을 향한 상태 업데이트를 작성해 1번 슬롯에 넣습니다.
    • 2번 사람은 1번 슬롯 내용만 읽고, 그에 기반해 자신의 업데이트를 써서 2번 슬롯에 넣습니다.
    • 이런 식으로 마지막 슬롯까지 이어집니다.

주말이나 주간이 끝나면, 전체 체인을 공개해 마지막 메시지와 원본을 비교합니다.

이 게임이 드러내는 것:

  • 기술적인 디테일이 어떤 식으로 희미해지거나 사라지는지
  • 과도하게 낙관적이거나 지나치게 경고적인 메시지 패턴
  • 각 타깃 오디언스가 무엇을 필요로 하는지에 대한 오해

이 결과를 바탕으로 인시던트 커뮤니케이션 템플릿과 교육을 개선할 수 있습니다.


4. 테이블탑 코너(Tabletop Corner): 가벼운 스크립트형 상황 매뉴얼

목적: 정식 테이블탑을 따로 잡지 않아도, 팀이 엔드 투 엔드 인시던트 워크플로우를 구조적으로 연습하도록 돕습니다.

준비물:

  • 짧은 상황 매뉴얼(situation manual) 출력물
    (각 시나리오당 최대 2–3쪽, 특정 상황을 다룸)
  • 벽에 붙인 타임라인 스트립
    (T+0, T+5, T+15, T+30, T+60 …)
  • 포스트잇, 마커

각 상황 매뉴얼에는 다음 내용이 포함됩니다:

  • 인시던트 배경과 환경(시스템 구조, 관련 팀, 이미 알려진 제약조건 등)
  • 시간에 따라 상황을 진전시키는 **인젝트(inject)**들
    (예: “T+10: 다른 서비스에서 PagerDuty 알림 발생”, “T+20: 주요 고객이 상황을 묻는 연락을 해옴”)
  • 각 단계마다 제시되는 프롬프트:
    • 지금 누가 리드(lead)해야 하나?
    • 고객에게 무엇을 어떻게 말할 것인가?
    • 불완전한 정보 속에서 어떤 결정을 내릴 것인가?

플레이 방법 (15–30분):

  1. 2–5명이 벽 앞에 모여 매뉴얼 하나를 고릅니다.
  2. 한 명이 시나리오를 읽고, 타임라인을 한 단계씩 진행합니다.
  3. 각 인젝트마다 3–5분간 토론하고, 다음을 포스트잇에 적어 타임라인 위에 붙입니다:
    • 핵심 결정사항
    • 각 액션의 오너
    • 커뮤니케이션 선택(무엇을, 누구에게, 어떻게)

이 게임이 드러내는 것:

  • 의사결정이 지연되거나 막히는 지점
  • 빠져 있는 플레이북이나 모호한 에스컬레이션 경로
  • 비즈니스 리스크와 기술적 리스크 사이의 충돌 지점

세션이 끝나면 타임라인을 사진으로 찍어, 인시던트 프로그램 개선 작업에 바로 활용하세요.


5. 니어미스 스토리 선반(Near-Miss Story Shelf): 취약함의 정상화

목적: 실패, 니어미스(큰 사고로 이어질 뻔한 일), “프로덕션을 거의 날려먹을 뻔한 이상한 일”에 대해 안전하게 이야기하는 문화를 만듭니다.

준비물:

  • 벽 한 귀퉁이에 **“니어미스 스토리 (Blame-Free Zone)”**라고 제목을 붙인 구역
  • 다음 4가지 프롬프트가 적힌 스토리 카드:
    1. 무엇이 거의 잘못될 뻔했나요?
    2. 우리는 그것을 어떻게 발견했나요?
    3. 더 일찍 발견하기 어렵게 만든 요인은 무엇이었나요?
    4. 다음에 같은 리스크를 줄이기 위한 작은 변화는 무엇일까요?

벽에는 다음 가이드를 명시합니다:

  • 이름 쓰지 않기. 사람 지목하지 않기.
  • 시스템, 신호, 트레이드오프에 집중하기.
  • 스토리는 익명 처리 가능.

플레이 방법:

  • 누구나 익명으로 니어미스 스토리를 카드에 적어 벽에 꽂거나 붙입니다.
  • 주 1회, 신뢰성 챔피언이나 인시던트 리드가 스토리를 모아 읽고, 공통 주제를 백로그나 개선 로드맵으로 가져갑니다.

이 게임이 드러내는 것:

  • 아직 큰 사고로 터지지 않은, 보이지 않는 리스크와 취약한 영역
  • 툴·프로세스·커뮤니케이션에서 반복해서 마찰이 생기는 지점
  • 사람들이 무엇을 이야기하기 안전하다고 느끼는지, 혹은 그렇지 않은지에 대한 문화적 신호

벽을 살아 있게 유지하기: 운영 관행

죽어 있는 벽은 없는 것보다 나쁩니다.
그건 곧 **“우리는 학습을 진짜로 중요하게 여기지 않는다”**는 신호이기 때문입니다.

인시던트 아케이드를 하나의 운영 시스템으로 다루세요.

1. “벽 스튜어드(Wall Steward)” 지정

다음 일을 책임질 사람(또는 순환 역할)을 정합니다:

  • 실제 인시던트 및 포스트모템을 기반으로, 매달 새로운 시나리오를 추가
  • 오래된 게임을 정리하고, 새로운 게임 형식을 도입
  • 벽에서 나온 인사이트를 정리해 리더십·관련 팀에 공유

2. 벽을 실제 변화와 연결하기

루프를 명시적으로 닫으세요.

  • 각 게임 옆에 작은 “이것 때문에 무엇이 바뀌었나?” 카드를 붙입니다.
  • 어떤 갭을 발견해서 개선했을 때, 그 내용을 그 카드에 적습니다.

사람들은 이 벽에서 나온 인사이트가 실제로:

  • 런북 업데이트
  • 더 명확한 역할 정의
  • 더 나은 툴링
  • 줄어든 온콜 피로

로 이어지는 것을 볼 때 훨씬 더 적극적으로 참여하게 됩니다.

3. “남는 시간에 하는 것”이 아니라 “정기 리추얼”로 만들기

벽 활동을 기존 리듬 속에 녹여 넣으세요:

  • 주간 팀 미팅 끝 10분을 벽 앞에서 보내기
  • 온콜 핸드오프 때 “아무 게임이나 하나 고르기” 슬롯 넣기
  • 신규 입사자 온보딩에 “시나리오 1개, 오너십 게임 1개 플레이” 포함하기

벽이 정상 업무의 일부가 될수록, 사람들은 이 활동을 “추가 노동”이 아니라 “일의 일부”로 인식하게 됩니다.


결론: 복도를 신뢰성 클래스룸으로 바꾸기

인시던트 대응을 개선하는 데, 또 하나의 SaaS 제품이 꼭 필요한 것은 아닙니다.

필요한 건 더 많은 가시적인 연습, 더 많은 공유된 스토리, 그리고 사람들이 매일의 업무 흐름 속에서 리스크와 신뢰성에 대해 저마찰로 참여할 수 있는 방법입니다.

아날로그 인시던트 스토리 컴퍼스 아케이드는, 아무것도 없던 사무실 벽을 살아 있는 클래스룸으로 바꿉니다. 여기서 팀은:

  • 실제에 가까운 시나리오를 반복해서 연습하고
  • 정보와 오너십의 숨겨진 갭을 드러내며
  • 실패에 대해 두려움 없이 이야기하는 법을 연습하고
  • 인사이트를 인시던트 프로그램에 계속해서 되먹임(feedback)합니다.

작게 시작하세요.
벽 한 면, 시나리오 게임 하나, 오너십 게임 하나, 니어미스 선반 하나.

쉽고, 가볍고, 비난 없는(blameless) 형태로 만드세요.

그러면 팀의 인시던트 리터러시(incident literacy)와 심리적 안전감이, 눈에 띄지 않게 그러나 꾸준히 복리로 쌓여 가는 것을 보게 될 것입니다.

아날로그 인시던트 스토리 컴퍼스 아케이드: 팀이 실제로 즐겨 하는 로우테크 리스크 ‘게임’ 벽 만들기 | Rain Lag