골판지 인시던트 레일 미로: 다중 스레드 장애를 탐색하기 위해 얽힌 종이 선로를 손으로 만드는 연습
“골판지 인시던트 레일 미로”는 팀이 직접 얽힌 종이 선로를 만들어 다중 스레드 장애 상황을 눈으로 보고, 손으로 움직이며 연습하는 테이블탑 형태의 연습입니다. 이를 통해 인시던트 계획과 사고 모델의 빈틈을 드러내고 개선할 수 있습니다.
소개
대부분의 인시던트 시뮬레이션은 문서, 슬라이드, 혹은 추상적인 다이어그램 안에서 이루어집니다. 보통은 그걸로 충분합니다. 하지만 정말 다중 스레드(multi-threaded) 장애—여러 서비스가 동시에 장애를 겪고, 우선순위가 충돌하고, 복구 작업들 사이에 레이스 컨디션이 생기고, 예기치 못한 연쇄 효과가 터지는 상황—를 겪기 시작하면 얘기가 달라집니다.
이런 순간에는 인시던트 다이어그램이 종종 너무 평면적으로 느껴집니다. 더 촉각적이고 공간적인 무언가가 필요합니다.
여기서 등장하는 것이 골판지 인시던트 레일 미로(Cardboard Incident Rail Labyrinth) 입니다. 이것은 동시에 진행되는 인시던트 스레드를 종이 선로로 물리적으로 만들어 보는 테이블탑 스타일 연습입니다. 팀은 이 선로 위에 "기차"(워크스트림, 완화 조치, 의사결정)를 올려서 무엇이 충돌하고, 어디에서 막히며, 무엇이 조용히 탈선하는지를 직접 확인합니다.
이 포맷은 추상적인 동시 인시던트 시나리오를 구체적인 퍼즐로 바꿉니다. 팀이 의존성, 레이스 컨디션, 연쇄 실패를 놀이 같으면서도 냉정하게 사고할 수 있도록 도와줍니다.
골판지 인시던트 레일 미로란 무엇인가?
핵심적으로 레일 미로는 간단한 공예 도구를 활용한 테이블탑 연습(Tabletop Exercise) 입니다.
준비물:
- 골판지 또는 큰 테이블
- 종이 띠(선로)
- 포스트잇 또는 작은 카드(기차, 신호, 제약 조건)
- 테이프 또는 핀
- 마커
각 종이 선로(track) 는 인시던트의 하나의 스레드를 의미합니다. 예를 들면:
- 특정 서비스의 장애
- 복구 워크스트림
- 거버넌스 프로세스
- 외부 의존성 등
이 선로들을 겹치고 교차시키면서, 여러분은 다중 스레드 장애와 조직의 대응을 보여주는 물리적인 지도를 만들게 됩니다.
정적인 아키텍처 다이어그램 대신, 테이블에 있는 모두가 보고, 만지고, 수정할 수 있는 살아있는 미로(living labyrinth) 를 갖게 되는 셈입니다.
왜 인시던트를 물리적으로 표현해야 할까?
다중 스레드 장애는 인지적으로 매우 까다롭습니다.
- 의존성이 명확하지 않고
- 타임라인이 겹치며
- 소유권이 불분명하고
- 하나의 결정이 예상치 못한 방식으로 파급됩니다.
화이트보드에 그리면 엉킨 화살표 투성이가 되기 쉽고, 채팅으로만 진행하면 로그 스크롤 속에 중요한 신호가 묻혀버립니다. 레일 미로는 이를 다음과 같이 풀어냅니다.
-
동시성을 공간으로 만든다
병렬 선로, 합류/분기, 교차 지점을 통해 팀이 실제로 동시에 진행되는 작업과 경쟁 을 눈으로 볼 수 있습니다. -
레이스 컨디션을 시각화한다
두 개의 종이 기차가 같은 선로 구간이나 리소스를 두고 경쟁하면, 둘 다 동시에 앞으로 나아갈 수 없습니다. 반드시 선택해야 합니다. -
연쇄 실패를 드러낸다
막힌 선로의 영향을 시각적으로 이어갈 수 있습니다. 그 아래쪽 기차들은 멈추거나, 우회하거나, 한꺼번에 쌓입니다. -
모두의 머릿속 지도를 정렬한다
엔지니어링, 운영, 법무, 커뮤니케이션, 리더십 등 다양한 이해관계자가 같은 물리적 대상을 가리키며 함께 추론할 수 있습니다.
결과적으로 슬라이드 덱보다 직관적이고, 정적인 대본형 TTX보다 역동적인 구체적이고 공유된 복잡 장애 모델을 만들 수 있습니다.
명확한 목표 설계하기 (진짜 TTX처럼)
레일 미로는 단순한 공예 활동이 되어서는 안 됩니다. 다른 Tabletop Exercise(TTX) 와 마찬가지로, 조직의 역량과 직접 연결되는 명시적인 목표가 필요합니다.
세션 전에 무엇을 검증하고 싶은지 정의하세요. 예를 들어:
-
커뮤니케이션:
- 병렬 선로 사이에서 정보는 얼마나 빠르고 정확하게 흐르는가?
- 선로 간 조정을 책임지는 사람이 있는가?
-
조정 및 협업:
- 여러 팀이 동일한 리소스(예: DB 접근, 롤백 가능 시간, 인시던트 커맨더의 집중력)를 동시에 필요로 할 때 어떤 일이 벌어지는가?
-
복구와 연속성:
- 서로 다른 고객 세그먼트나 리전 간 우선순위를 어떻게 정하는가?
- 용량이나 시간이 부족할 때 가장 먼저 희생되는 것은 무엇인가?
-
거버넌스와 리스크:
- 법무, 컴플라이언스, PR은 언제 “선로 위로 뛰어들어”야 하는가?
- 명확한 트리거와 의사결정 권한이 있는가?
이 목표를 역량 기반(capability-based) 목표로 표현할 수 있습니다. 예를 들어:
"공유 데이터베이스 하나와 두 개의 온콜 팀을 두고, 세 개의 중첩된 인시던트를 규제 커뮤니케이션 요구사항을 지키면서 조정할 수 있는지 평가한다."
이러한 목표는 미로 설계, 시나리오 스크립트, 그리고 디브리핑 질문을 모두 설계하는 기준이 됩니다.
미로 만들기: 단계별 진행 방법
아래는 레일 미로 세션을 실제로 설계하고 운영하는 실용적인 절차입니다.
1. 다중 스레드 시나리오를 고른다
조직을 실제로 벅차게 만들 만한 시나리오를 선택(또는 새로 구성)하세요.
- 특정 리전에 클라우드 서비스 장애가 발생해 여러 서비스가 동시에 영향을 받는 경우
- 데이터 손상(data corruption) 사고와 동시에 트래픽이 급증하는 경우
- 내부 인증(auth) 장애와 보안 사고가 겹치는 경우
- 연휴 피크 트래픽 저하가 벤더 장애와 동시에 터지는 경우
이 중에서 동시에 진행될 3–5개의 인시던트 스레드를 작성합니다. 각 스레드는 다음을 포함합니다.
- 시작 조건
- 핵심 이벤트와 제약 사항
- 하나 이상의 목표 결과
2. 스레드를 선로에 매핑한다
각 스레드에 하나씩 종이 선로를 배정하고, 명확하게 라벨을 붙입니다. 예:
- "결제 성능 저하(Payments Degradation)"
- "로그인 장애(Login Outage)"
- "규제 보고(Regulatory Reporting)" 등
그리고 다음과 같은 지점에 교차점(intersection) 을 만듭니다.
- 여러 스레드가 동일한 리소스를 공유하는 곳
(예: 하나의 데이터베이스, SRE 팀, 공용 메시지 채널) - 하나의 결정이 둘 이상의 선로에 영향을 미치는 곳
(예: 피처 플래그, 트래픽 라우팅 변경) - 외부 이해관계자가 모이는 지점
(규제 기관, 주요 고객, 언론 등)
리소스 경합 구역이나 고위험 교차점은 아이콘을 그리거나 색 테이프를 사용해 표시할 수 있습니다.
3. 역할과 기차를 할당한다
참가자들에게 역할을 선택하거나 배정합니다.
- 인시던트 커맨더 / 인시던트 매니저
- 테크 리드 / 온콜 엔지니어
- 고객지원 및 커스터머 석세스
- 법무, 컴플라이언스, 커뮤니케이션(Comms)
- 임원 또는 비즈니스 오너
각 팀에는 다음을 나타내는 기차 조각(카드 또는 토큰) 을 줍니다.
- 액션: 예) "릴리즈 롤백", "트래픽 스로틀", "피처 비활성화"
- 의사결정: 예) "지금 고객에게 장애 공지 / 나중에 공지"
- 요청: 예) "SRE에게 임시 용량 요청", "DB 락 해제 요청"
시간이 흐르고 결정이 이루어지면서 기차는 선로를 따라 전진합니다.
4. 시간을 라운드 단위로 진행한다
시간을 라운드 단위(예: 시뮬레이션 시간 10분 = 실제 진행 1라운드)로 시뮬레이션합니다. 각 라운드마다:
- 퍼실리테이터가 새로운 이벤트를 공개합니다.
예: "클라우드 리전 X 성능 저하", "고객이 데이터 불일치 신고", "주요 고객사에서 취소 요청 접수" 등. - 팀은 자신의 기차를 어떻게 움직일지 결정합니다.
가속, 정지, 우회, 새로운 기차 추가 등. - 물리적 제약이 적용됩니다. 두 기차가 같은 선로 구간을 같은 시점에 사용해야 한다면, 둘 다 통과할 수 없습니다. 이때 반드시:
- 순서를 정해서 하나씩 통과시키거나
- 새로운 선로를 추가합니다 (새 팀 또는 리소스를 투입)
- 혹은 어떤 작업을 지연하거나 포기해야 합니다.
골판지와 종이라는 물리적 제약은, 말로만 토론할 때는 잘 드러나지 않는 트레이드오프를 강제로 드러나게 만듭니다.
5. 결정과 관찰을 실시간으로 기록한다
선로 주변에 포스트잇을 붙여 다음을 기록합니다.
- 주요 결정과 그 이유
- 역할 및 소유권에 대한 혼선이 있었던 지점
- 병목과 충돌이 발생한 지점
- 실제 계획과 플레이가 어긋난 부분
이 기록은 연습 후 분석을 위한 원자료가 됩니다.
계획을 스트레스 테스트하고 "이론의 빈틈" 찾기
고전적인 TTX와 마찬가지로, 레일 미로의 목적은 단순한 재미가 아니라 인시던트 대응 및 비즈니스 연속성 계획을 평가하고 스트레스 테스트 하는 것입니다.
다음과 같은 패턴을 주목해 보세요.
-
계획과 현실의 불일치
팀이 문서화된 프로세스를 반복적으로 무시하거나 우회하는가? 그렇다면 그 계획은 실제 업무 방식과 맞지 않을 수 있습니다. -
역할의 모호성
선로의 어떤 구간에서는 다음 움직임을 누가 책임지는지 아무도 모르는가?
혹은 여러 사람이 동시에 같은 기차를 움직이려 하는가? -
조정 실패
동기화되어야 할 선로(예: 고객 커뮤니케이션과 기술적 복구)가 서로 엇박자로 움직이고 있는가?
절차적인 문제 외에도, 레일 미로는 종종 조직 내에 존재하는 "이론의 빈틈(theory gaps)" 을 드러냅니다. 즉, 다중 스레드 장애에 대한 공유된 사고 모델이 없거나, 사람마다 상충된 모델을 가지고 있는 영역입니다.
이론의 빈틈 예시:
- "다중 인시던트 모드(multi-incident mode)"가 어떤 상태인지를 공통으로 이해하지 못함
- 모든 것이 동시에 불타고 있을 때, 어떤 고객/서비스를 먼저 살려야 하는지에 대한 직관이 서로 충돌함
- 새로운 배포를 중단하거나 변경을 동결하거나, "메타 인시던트(incident-of-incidents)"를 선언해야 하는 시점에 대한 지침이 모호하거나 없음
이는 예측 모델이 부재한 과학 분야에서 흔히 나타나는 현상과 비슷합니다. 사람들은 각자 로컬한 휴리스틱에 의존해 움직이고, 놀랄만한 일이 자주 발생합니다.
레일 미로는 이런 숨겨진 가정들을 외부로 끌어내어 다음을 가능하게 합니다.
- 인시던트 분류체계와 플레이북을 다듬고
- 의존성을 둘러싼 아키텍처 문서를 개선하며
- 트레이드오프와 우선순위를 논의하는 데 필요한 공통 언어를 발전시킬 수 있습니다.
낮은 리스크의 게임 같은 환경에서 자신감 쌓기
실제 인시던트는 스트레스가 큽니다. 평판, 비용, 감정적인 부담이 모두 얽혀 있기 때문에, 그 순간에는 학습이 잘 일어나기 어렵습니다.
골판지 인시던트 레일 미로는 의도적으로 긴장을 낮춘 환경을 제공합니다.
- 이것은 시험이 아니라 게임처럼 느껴집니다.
- 실패는 당연하게 여겨지며 안전합니다.
- 참가자는 언제든지 일시정지, 되감기, 재시도 할 수 있습니다.
이런 환경 안에서 사람들은 다음을 자유롭게 시도할 수 있습니다.
- 새로운 역할을 맡아보기 (예: 엔지니어가 인시던트 커맨더 역할을 해보기)
- 순서나 소유권에 대한 기존 가정을 의심해보기
- 다른 전략을 시도해 보고, 기차들이 어떻게 움직이는지 관찰하기
시간이 지날수록 이런 리허설은 다음과 같은 효과를 냅니다.
- 조직의 역량을 키운다: 더 많은 사람이 다중 스레드 인시던트가 실제로 어떻게 전개되는지 이해하게 됩니다.
- 개인의 자신감을 높인다: 복잡한 인시던트 상황에서 얼어붙거나 책임을 미루지 않고, 이미 "미로 속에서 기차를 몰아본" 경험을 바탕으로 움직일 수 있습니다.
인사이트를 실제 변화로 연결하기
레일 미로 세션이 진짜 가치 있으려면, 그 안에서 얻은 인사이트를 실제 변화로 연결해야 합니다.
연습 이후에는 다음 단계를 밟아 보세요.
-
구조화된 디브리핑을 진행한다
- 무엇이 가장 예상 밖이었는가?
- 기차들이 어디에서 쌓이거나 충돌했는가?
- 어떤 결정이 가장 어려웠고, 왜 그랬는가?
-
발견 사항을 아티팩트에 반영한다
- 런북과 플레이북 업데이트
- 에스컬레이션 경로와 역할 정의 조정
- 다중 인시던트 상황에서의 우선순위 정책 명확화
-
정신 모델을 다듬는다
- 연습 중 새로 관찰된 개념이나 패턴을 기록한다.
예: "incident-of-incidents 모드", "공유 병목 구간(shared bottleneck zones)" - 이를 교육과 온보딩 자료에 반영한다.
- 연습 중 새로 관찰된 개념이나 패턴을 기록한다.
-
다음 반복을 일정에 올린다
- 개선된 계획으로 비슷한 시나리오를 다시 시도한다.
- 점진적으로 복잡도를 올린다: 더 많은 선로, 더 촘촘한 제약, 새로운 이해관계자 추가.
결론
다중 스레드 장애는 더 이상 예외적인 상황이 아니라, 복잡하고 상호 의존적인 시스템의 일상적인 특징이 되었습니다. 그럼에도 많은 조직은 여전히 인시던트를 선형적이고 단일 스레드 관점으로만 바라봅니다.
골판지 인시던트 레일 미로는 이 간극을 메우는 방법을 제시합니다. 얽힌 종이 선로를 손으로 만들고, 그 위를 함께 탐색해 나가면서, 팀은 추상적인 동시성을 눈으로 보고 손으로 만질 수 있는 구체적인 문제로 바꿉니다.
그 결과는 단순히 재미있는 워크숍이 아닙니다. 보다 선명해진 시야입니다.
- 조직이 스트레스 상황에서 실제로 어떻게 조정하고 움직이는지
- 인시던트 및 연속성 계획이 어디에서는 잘 작동하고, 어디에서는 무너지는지
- 진짜 다중 스레드 회복력을 위해 어떤 정신 모델이 아직 부족한지
조금의 골판지, 종이, 그리고 의도만 있으면, 가장 어려운 인시던트를 실제로 겪기 전에 미리 연습할 수 있습니다. 그렇게 하면, 언젠가 진짜 미로 같은 상황이 찾아왔을 때, 팀은 이미 그 안에서 길을 찾는 법을 몸으로 익힌 상태가 되어 있을 것입니다.