Rain Lag

아날로그 인시던트 스토리 미로 테이블: 종이 위 길을 걸으며 숨겨진 실패 지름길 찾기

아날로그 ‘미로형’ 테이블탑 연습을 통해 실제 장애나 위기가 터지기 전에, 인시던트 대응 프로세스에 숨어 있는 실패 경로와 지름길을 미리 드러내는 방법을 다룹니다.

아날로그 인시던트 스토리 미로 테이블: 종이 위 길을 걸으며 숨겨진 실패 지름길 찾기

팀에서 인시던트 대응을 이야기할 때 떠올리는 그림은 보통 이렇습니다. 대시보드, 알람, 런북(runbook), 그리고 노트북으로 가득 찬 워 룸(war room). 하지만 조직이 실제로 인시던트를 어떻게 처리하는지에 대한 가장 강력한 인사이트는 의외로 아주 저기술(low-tech)인 것들에서 나올 때가 많습니다. 종이, 펜, 그리고 테이블 같은 것들 말입니다.

여기서 등장하는 것이 바로 아날로그 인시던트 스토리 미로 테이블입니다. 실패 시나리오를 미로처럼 설계해, 테이블 위에서 물리적으로 따라가며 걷는 구조화된 워크스루입니다. 그냥 말로만 인시던트를 “시뮬레이션”하는 것이 아니라, 팀이 실제로 탐지–진단–복구로 이어지는 분기형 스토리의 종이 경로를 걸어가며 선택을 합니다. 그러는 동안 중요한 사실이 드러납니다. 바로, 지금의 프로세스 안에 이미 내장되어 있지만 실제 위기가 오기 전까지는 드러나지 않을 숨겨진 지름길과 실패 경로입니다.

이건 단순한 게임이 아닙니다. 안전한 환경에서, 가용성·매출·신뢰를 잃기 전에 약한 가정, 커뮤니케이션의 구멍, 프로세스의 결함을 체계적으로 드러내는 방법입니다.


왜 기존 테이블탑 연습만으로는 충분하지 않은가

전통적인 인시던트 대응 테이블탑(Tabletop) 연습은 대개 이런 목적을 갖습니다.

  • 팀이 인시던트를 어떻게 식별하는지 명확히 하기
  • 문제를 어떻게 분석하고 조율하는지 맞춰보기
  • 실패를 어떻게 해결하는지 연습하기
  • 어떻게 재발 방지를 계획할지 논의하기

유용하긴 하지만, 종종 지나치게 선형적이고 “깔끔한” 시나리오로 끝납니다.

  • 한 명의 퍼실리테이터가 시나리오를 읽어줍니다.
  • 이해관계자들이 “우리는 이렇게 할 거다”라고 말로만 논의합니다.
  • 누군가가 노트를 남깁니다.

문제는, 실제 인시던트는 지저분하고, 분기투성이에, 함정도 가득하다는 점입니다. 사람들은 낙관적인 가정을 합니다. 압박이 오면 절차를 생략하기도 합니다. 정말로 누가 반드시 참여해야 하는지 간과하기도 합니다. 전통적인 테이블탑 연습은 이 분기 현실을 팀에게 강제로 마주치게 만들지 못하는 경우가 많습니다.

그래서 **인시던트 스토리 미로(incident story maze)**라는 개념이 필요합니다.


인시던트 스토리 미로란 무엇인가?

인시던트 스토리 미로는 팀이 테이블 위의 물리적인 지도를 탐색하듯 따라가는 모델 기반(branching, model-based)의 분기형 시나리오입니다. 이렇게 생각해볼 수 있습니다.

실제 시스템, 데이터, 프로세스를 기반으로 한, 실패에 대한 조직 전용 ‘선택형 어드벤처(choose-your-own-adventure)’

“API가 느려지면 로그를 보겠지”라고 말로만 끝내는 대신, 미로는 이렇게 결정을 강제합니다.

  • 지금 바로 온콜 SRE를 페이지(page)할 것인가, 아니면 먼저 증거를 더 모을 것인가?
  • 세컨더리 리전으로 페일오버(failover)할 것인가, 아니면 롤백(rollback)을 시도할 것인가?
  • 고객 공지를 일찍 할 것인가, 더 확신이 생길 때까지 기다릴 것인가?

각 결정은 미로 안의 서로 다른 **노드(node)**로 이어집니다.

  • 어떤 노드는 좋은 사례를 나타냅니다. 검증된 진단, 안전한 롤백, 명확한 커뮤니케이션 등.
  • 어떤 노드는 숨겨진 지름길입니다. 검증 생략, 익숙한 장애 모드라고 단정, 승인 절차 우회 등.
  • 또 어떤 노드는 노골적인 실패 함정입니다. 사일로화된 커뮤니케이션, 잘못 구성된 자동화, 서로 모순되는 런북 지침 등.

이 미로가 아날로그(인쇄된 지도, 포스트잇, 실물 토큰)인 덕분에, 팀은 선택에 따라 경로가 어떻게 달라지는지, 그리고 어디에서 프로세스에 취약성이 “몰래” 들어가는지 눈으로 직접 확인할 수 있습니다.


실제로 실패 경로를 드러내는 시나리오 미로 설계하기

잘 만든 인시던트 미로는 그럴듯한 화살표들이 잔뜩 있는 플로우차트가 아닙니다. 유용하려면 다음을 만족해야 합니다.

  1. 실제 의사결정 지점을 드러낼 것
    사람들이 실제로 압박 속에서 의견이 갈리거나, 즉흥적으로 판단하는 지점을 담아야 합니다.

    • 언제 리더십으로 에스컬레이션할 것인가?
    • 위험도가 높은 롤백에 최종 결정을 내리는 사람은 누구인가?
    • 언제 로컬 조치 대신 DR(Disaster Recovery) 계획을 발동할 것인가?
  2. 숨겨진 지름길을 포함할 것
    회의에서 흔히 나오는 낙관적인 “그냥 X 하면 되죠”류의 가정을 모델링합니다.

    • “대시보드에 바로 다 뜰 거예요.” (정말 항상 그런가요?)
    • “우리는 항상 런북을 따릅니다.” (정말 ‘항상’인가요?)
    • “그 팀이랑은 당연히 협업하죠.” (그 팀도 그렇게 알고 있나요?)

    미로 안에서는 이런 지름길이 명시적인 경로가 되어, 도전하고 검증할 수 있는 대상이 됩니다.

  3. 분기형 실패 경로를 강조할 것
    각 지름길에 대해 다음을 추가합니다.

    • 그 가정이 틀렸다면 무슨 일이 생기는가?
    • 탐지, 격리, 복구가 얼마나 지연되는가?
    • 그 선택으로 인해 어떤 팀이 커뮤니케이션 루프에서 배제되는가?
  4. 실제 데이터와 인시던트에 근거할 것
    가장 효과적인 미로는 모델 기반으로, 다음과 같은 실제 데이터를 활용합니다.

    • 실제 아키텍처 다이어그램
    • 과거 인시던트 타임라인
    • 시스템 성능 및 의존성 데이터

    이렇게 해야 미로가 허구극(fictional theater)이 되는 것을 막고, 실제 시스템이 어떻게 실패하는지를 제대로 반영하게 됩니다.


여러 복구 경로를 걷기: 해피 패스(happy path)를 넘어선 연습

대부분의 팀은 인시던트에 대해 하나의 “해피 패스(happy path)”에 익숙합니다.

  1. 우리는 이슈를 빠르게 탐지한다.
  2. 올바른 온콜 담당자가 페이지된다.
  3. 루트 원인(root cause)이 명확하다.
  4. 수정(fix)은 안전하고 빠르다.
  5. 포스트모템(postmortem)을 작성한다.

아날로그 인시던트 미로는 이런 안락함을 의도적으로 깨뜨립니다. 팀이 여러 복구 경로를 리허설할 수 있도록 하기 때문입니다.

  • 탐지 경로: 모니터링이 시끄럽거나, 일부만 동작하거나, 아예 침묵할 때는?
  • 격리 전략(Containment): 스로틀링(throttling), 피처 플래그(feature flag), 서킷 브레이커(circuit breaker), 페일오버.
  • 근절(Eradication) 전술: 패치, 롤백, 설정 변경, 핫픽스.
  • 복구(Recovery) 패턴: 백업에서 리빌드, 데이터 재동기화, 트래픽 점진적 램핑(ramp-up).

각 경로는 미로 안의 서로 다른 “복도”입니다. 이 복도들을 실제로 걸어보면:

  • 짧은 탐지 지연이 어떻게 몇 시간짜리 장애로 연쇄 확대되는지 보게 됩니다.
  • 두 팀이 페일오버를 누가 트리거하는지 서로 전혀 다른 가정을 하고 있었음을 발견합니다.
  • 특정 서비스에 대해 롤백 절차가 한 번도 검증된 적이 없다는 사실을 깨닫게 됩니다.

이 미로는 잘못된 길을 택해도 비용이 다운타임이 아니라 학습인 안전한 샌드박스가 됩니다.


현실감을 높이기: 모델 기반, 시각적, 몰입형 설계

미로가 현실에 가까울수록, 의미 있는 취약점을 발견할 가능성도 커집니다.

엔지니어링·운영 데이터를 바탕으로 시나리오 구성하기

“데이터베이스가 느려졌다” 같은 추상적인 시나리오 대신, 다음과 같은 요소들로 미로를 만드세요.

  • 실제 의존성 그래프(서비스, 큐, DB, 서드파티)
  • 성능 특성(어느 부분이 취약하고, 시끄럽고, 부rittle한지)
  • 과거 실패 모드(예: 캐스케이딩 리트라이, 떼지어 몰리는 요청(thundering herd), 잘못 설정된 피처 플래그 등)

이렇게 하면 시나리오는 “그럴싸한 이야기”가 아니라,
*“이건 진짜 우리한테도 지금 당장 일어날 수 있는 일이다”*라는 느낌을 줍니다.

시스템과 경로를 시각화하기

핵심 상호작용은 아날로그(종이)일지라도, 시각화 도구를 함께 쓰면 연습의 효과가 훨씬 커집니다.

  • 테이블 위에 인쇄된 아키텍처 맵을 두고, 거기에 포스트잇으로 주석을 붙입니다.
  • 탐지–격리–근절–복구 경로를 색깔로 구분된 경로로 표시합니다.
  • 선택적으로, 다음 기능을 가진 인터랙티브 도구 또는 VR/AR 스타일 뷰를 사용할 수도 있습니다.
    • 영향 받은 컴포넌트 하이라이트
    • 페일오버 중 트래픽 이동 시각화
    • 인시던트 확산 시 드러나는 의존성 체인 표시

시각화는 다음을 개선합니다.

  • 엔지니어링, 운영, 비즈니스 이해관계자 간의 공유 이해도
  • 어떤 경로를 택할지에 대한 협업과 합의 과정
  • 리뷰(디브리핑) 시 “정확히 어디에서 프로세스가 무너졌는지”에 대한 명확성

복잡한 환경을 안전하게 시뮬레이션하기

매우 기술적이고, 고위험 시스템이라면 종이를 넘어선 혼합(physical/simulated) 환경으로 확장할 수도 있습니다.

  • Hardware-in-the-loop 랩: 실제 장비를 시뮬레이터에 연결해 동작시키는 환경.
  • 하이브리드 테스트베드: 일부는 실제 서비스, 일부는 목(mock)·에뮬레이터로 구성.

이 경우 미로는 일종의 오케스트레이션 레이어가 됩니다.

  • 스토리 카드가 지금 무엇이 일어나는지 설명합니다.
  • 물리 혹은 시뮬레이션된 시스템이 여러분의 개입에 따라 반응합니다.

팀은 여전히 되돌릴 수 있는 통제된 환경 안에서, 실제 복잡성을 가진 상황에 대한 대응을 리허설하게 됩니다.


아날로그 인시던트 스토리 미로 세션 진행 방법

처음부터 거창하게 할 필요는 없습니다. 간단한 세션은 다음과 같은 흐름으로 시작할 수 있습니다.

  1. 실제 리스크 시나리오를 하나 고른다
    예: “주요 API와 데이터베이스에 영향을 주는 리전 전체 장애”

  2. 핵심 단계와 분기점을 맵으로 그린다

    • 탐지(여러 종류의 알람 또는 고객 제보)
    • 초기 트리아지(어떤 대시보드·어떤 로그·누가 페이지되는지)
    • 결정 포인트(페일오버 vs 롤백 vs 스로틀링)
    • 커뮤니케이션 선택(내부 공유만 vs 상태 페이지 업데이트 vs 고객 공지)
  3. 미로를 인쇄해 테이블 위에 배치한다

    • 각 노드(결정, 결과, 이벤트)를 카드나 종이 한 장으로 만든다.
    • 화살표나 테이프를 사용해 노드 간 경로를 연결해 미로를 구성한다.
  4. 역할을 할당한다

    • 온콜 엔지니어(들)
    • 인시던트 커맨더(incident commander)
    • 커뮤니케이션 / 고객 대응 담당
    • 의존 서비스 측 이해관계자 1명 이상
  5. 미로를 실제로 걸어본다

    • 탐지 단계에서 시작해, 팀이 직접 다음 경로를 선택하게 합니다.
    • 지름길이 등장하면(“우리는 그냥 페일오버하죠”) 그 경로를 따라가 보되,
      그게 틀렸을 경우까지 같이 탐색합니다.
    • 뜻밖의 발견, 의견 충돌, 아무도 책임지지 않은 의사결정을 기록합니다.
  6. 디브리핑 및 정리
    특히 다음에 집중하세요.

    • 약한 가정
      (“그 팀은 24/7 온콜일 거라고 ‘당연히’ 생각했다 → 아니었다.”)
    • 커뮤니케이션의 공백
      (“상태 페이지는 누가 업데이트하는지 아무도 몰랐다.”)
    • 프로세스의 결함
      (“해당 서비스에 대한 롤백 런북이 있긴 한데, 한 번도 테스트해본 적이 없다.”)

이렇게 도출된 항목들은 그대로 레질리언스(resilience) 개선 백로그가 됩니다.


진짜 가치: 실제로 고칠 수 있는 약점을 드러내기

아날로그 인시던트 스토리 미로의 목적은 연극 같은 퍼포먼스가 아닙니다. 그 가치는 다음과 같은 것들을 드러내는 데 있습니다.

  • 약한 가정들

    • 모니터링 커버리지에 대한 과신
    • 누가 위험한 변경의 최종 권한을 갖는지에 대한 오해
    • 외부 의존성(서드파티)의 신뢰도에 대한 막연한 믿음
  • 커뮤니케이션의 단절

    • 엔지니어링과 고객 대응 조직 간의 단절
    • 시간대·조직 사일로에 따른 정보 격차
    • 인시던트 커맨드와 오너십에 대한 불분명한 이해
  • 프로세스의 결함

    • 오래되거나, 실제로는 한 번도 검증되지 않은 런북
    • 폴백이나 부분 장애 허용 전략(Graceful degradation) 부재
    • 불명확한 에스컬레이션 기준과 임계값

이런 문제들을 위험이 낮은 환경에서 미리 표면화하면, 이를 체계적으로 고칠 수 있는 기회를 갖게 됩니다.

  • 런북과 DR 계획을 업데이트합니다.
  • 알람과 계측(instrumentation)을 개선합니다.
  • 역할과 책임, 커뮤니케이션 프로토콜을 명확히 합니다.
  • 반복적이거나 고위험인 단계를 더 나은 자동화로 대체합니다.

시간이 지나면서 각 미로 세션은 인시던트 대응 역량을 단단하게 만드는 또 하나의 이터레이션이 됩니다.
알 수 없던 실패 경로를, 이해되고 관리되며, 반복 연습된 흐름으로 바꾸는 과정입니다.


결론: 종이는 신뢰성을 위한 정밀 도구가 될 수 있다

복잡한 분산 시스템과 고급 옵저버빌리티(observability) 도구가 넘쳐나는 시대에, 테이블 위의 종이 몇 장 같은 단순한 도구의 힘을 과소평가하기 쉽습니다.

하지만 아날로그 인시던트 스토리 미로 테이블은 대시보드와 로그만으로는 볼 수 없는 것을 드러냅니다. 바로 실패의 사람과 프로세스 차원입니다. 일이 꼬였을 때 사람들이 어떤 지름길을 택하고, 어떤 가정에 기대며, 어떤 커뮤니케이션 패턴에 의존하는지 보여줍니다.

팀이 함께 종이 위의 경로를 걸으면서—실제 데이터에 기반하고, 시각적으로 명확하며, 안전하게 리허설되는 환경 안에서—조직은 고객이 대신 드러내기 전에, 스스로의 취약성을 마주할 수 있습니다.

레질리언스에 진심이라면, 모니터링만 더 붙이지 마십시오. 미로를 만드세요. 직접 걸어보세요.
그리고 그 과정에서 배운 것을 바탕으로, 숨어 있던 실패 지름길을 의도적이고 견고한 복구 경로로 바꾸어 가십시오.

아날로그 인시던트 스토리 미로 테이블: 종이 위 길을 걸으며 숨겨진 실패 지름길 찾기 | Rain Lag