아날로그 인시던트 컴퍼스: 종이 선로를 걸으며 멀티 팀 장애를 시뮬레이션하기
바닥에 테이프로 만든 ‘기차 정류장’ 지도와 종이 선로로, 추상적인 인시던트 테이블탑 훈련을 몸으로 체험하는 현실적인 장애 시뮬레이션으로 바꾸어 진짜 멀티 팀 회복력을 키우는 방법.
소개
대부분의 조직은 여전히 회의실 테이블에 둘러앉아 슬라이드와 타임라인, 몇 가지 가상의 질문으로 인시던트 대응을 연습합니다. 의도는 나쁘지 않지만, 형식 자체에 한계가 큽니다. 실제 장애는 턴제 전략 게임이 아닙니다. 지저분하고 분산되어 있고, 부분적인 정보와 서로 어긋난 멘탈 모델, 계속 바뀌는 우선순위로 가득 차 있습니다.
“우리 테이블탑 드릴은 실제 인시던트랑 전혀 다른 느낌이야” 라고 생각해 본 적이 있다면, 당신만 그런 게 아닙니다.
그 격차를 줄이는 방법 중 하나는 의외로 로우테크입니다. 의자에서 일어나 바닥으로 내려가는 것입니다.
시스템을 아날로그 기차 정류장(트레인야드) 바닥 지도로 만들어, 데이터 흐름·의존 관계·장애 전파 경로를 나타내는 종이 “선로”까지 갖춰 놓으면, 인시던트를 걸어 다니며 체험하는 경험으로 바꿀 수 있습니다. 이건 장난이 아니라, 복잡성을 물리적으로 눈앞에 펼쳐서 멀티 팀 장애를 함께 이해하고 논리적으로 따져 보기 쉽게 만드는 방법입니다.
이 글에서는 시스템 전경을 바닥 크기의 지도에 옮겨 놓은 아날로그 인시던트 컴퍼스가 어떻게 기존 테이블탑 훈련을 현실적인, 몸으로 느끼는 시뮬레이션으로 변모시켜서 진짜 회복력을 키워 주는지 살펴봅니다.
전통적인 테이블탑 훈련이 부족한 이유
전형적인 테이블탑 인시던트 드릴에는 공통적인 약점이 있습니다.
-
너무 추상적이다
- 모든 일이 대화와 슬라이드 속에서만 벌어집니다.
- 팀은 시스템과 상호작용하기보다는, 시스템에 대해 말만 합니다.
- 복잡한 상호 의존성은 눈에 보이지 않거나 과도하게 단순화됩니다.
-
너무 중앙집중적이다
- 모두 한 방에 앉아 있고, 커뮤니케이션은 깨끗하고 선형적으로 느껴집니다.
- 실제 대규모 장애에서는 사람들이 Slack, Zoom, 티켓 시스템, 워룸 등으로 흩어져 있습니다.
- 테이블탑 훈련은 의도치 않게 “모두가 항상 같은 정보를 동시에 보는” 비현실적인 세계에 맞춰 조직을 훈련시킵니다.
-
체크리스트에 지나치게 의존한다
- 초점이 “절차가 있는가, 잘 지키는가”로 이동합니다.
- 실제 인시던트는 즉흥 대응, 불확실성 관리, 팀 간 협상 능력을 요구합니다.
-
너무 예측 가능하다
- 시나리오가 좁고 통제되어 있습니다. 이미 알려진 장애, 분명한 루트 코즈, 깔끔한 해피 패스.
- 실제 장애는 연쇄적인 영향과 혼란스러운 신호가 뒤섞여 있는 경우가 많습니다.
결과적으로, 팀은 테이블탑 훈련에서는 “통과”하지만, 막상 다음 실제 장애가 터지면 여전히 준비가 안 된 느낌을 받곤 합니다.
생각 실험에서 ‘걸을 수 있는’ 경험으로
아날로그 인시던트 컴퍼스는 이런 상황을 뒤집습니다.
스크린에 떠 있는 아키텍처 다이어그램만 바라보는 대신, 시스템을 바닥 위의 기차 정류장(트레인야드)으로 그립니다.
- 서비스는 역(station) 이 됩니다.
- 데이터 흐름과 의존 관계는 선로(track) 가 됩니다.
- 외부 서비스, 사용자, 환경은 야드(yard), 사이딩(siding), 스위치(switch) 로 표현합니다.
이 지도를 만드는 데 필요한 건 다음과 같습니다.
- 마스킹 테이프 또는 페인터스 테이프 (주요 선로와 경계 표시)
- 출력한 아이콘이나 인덱스 카드 (서비스, 팀, 역할 표시)
- 포스트잇 (인시던트, 알림, 변경 사항 표시)
- 실이나 색깔이 다른 테이프 (트래픽 종류나 의존성 종류 구분)
그리고 그다음에는, 말로만 하지 말고 직접 걸어 다닙니다.
팀은 이 바닥 지도를 돌아다니며 다음과 같은 일을 합니다.
- 바깥단 “역”에서 발생한 알림을 따라 상류 의존성을 거슬러 올라갑니다.
- 한 “선로”에서 다른 선로로 장애가 어떻게 전파되는지 추적합니다.
- 어느 지점에서 팀 간 책임이 넘겨지는지 눈으로 확인합니다.
이 물리성이 훈련을 단순한 계획 검토에서 공간적·체화된 시뮬레이션으로 바꿔 줍니다. 이제는 머리뿐 아니라 몸도 “무슨 일이 벌어지고 있는지”를 함께 추적하게 됩니다.
종이 선로를 걸으며: 복잡성을 바깥으로 꺼내기
복잡한 시스템이 이해하기 어려운 이유는, 그 구조 대부분이 사람들 머릿속에만 있기 때문입니다. 아날로그 기차 정류장 지도는 그 복잡함을 외부로 끄집어내어 눈에 보이게 도와줍니다.
바닥에 펼쳐 놓으면 쉬워지는 것들
-
의존 관계가 더 이상 이론 속에만 있지 않습니다.
- 두 “역” 사이를 테이프로 잇는 순간, 얼마나 많은 서비스가 그 한 줄기에 의존하는지가 보입니다.
- 병목, 단일 장애 지점(SPOF), 과부하된 컴포넌트가 눈에 훨씬 잘 들어옵니다.
-
장애 경로가 눈에 보이고 걸을 수 있게 됩니다.
- “이 역이 전원을 잃으면, 어떤 선로들이 어두워지고, 누가 가장 먼저 영향을 받을까?” 라고 물을 수 있습니다.
- 사람들이 실제로 선로를 따라 걸어봅니다: 사용자 → API → 서비스 → 데이터베이스 → 서드파티 API.
-
멘탈 모델의 충돌이 생산적인 토론으로 바뀝니다.
- 두 엔지니어가 어떤 서비스가 특정 데이터베이스에 의존하는지에 대해 서로 다르게 알고 있을 수 있습니다.
- 이럴 때 가설로 싸우는 대신, 테이프를 옮겨 붙이고 그 파급 효과를 함께 논의합니다.
-
워크플로와 커뮤니케이션 라인을 겹쳐 볼 수 있습니다.
- “누가 페이지를 받는지”, “어디에 로그를 남기는지”, “어떻게 에스컬레이션 되는지”를 나타내는 포스트잇을 지도 위에 붙일 수 있습니다.
- 달라붙은 포스트잇이 없는 구역은, 런북·알림·오너십에 구멍이 있다는 신호로 보입니다.
이 모든 것을 바닥 위에 펼쳐 놓으면, 아키텍처 다이어그램을 늘 들여다보지 않는 사람까지 포함해서, 모두가 같은 그림을 공유할 수 있습니다.
멀티 팀 장애에는 공유된 물리적 지도가 필요하다
멀티 팀 장애는 대부분의 조직이 가장 힘들어하는 구간입니다. 팀마다 문제의 다른 조각만 보고 있고, 무엇이 실제로 잘못되고 있는지에 대한 멘탈 모델이 서로 충돌하는 경우가 많습니다.
공유된 물리적 지도는 이런 상황에서 조율의 기반(코디네이션 서피스) 역할을 합니다.
여러 팀·여러 위치를 아우를 때의 장점
-
흩어진 관점을 정렬해 줍니다.
팀이 서로 다른 장소에서 화상으로 참여하더라도, 바닥 지도를 비추는 카메라 하나만 있으면 모두가 같은 레이아웃을 참조할 수 있습니다.- “우리는 이 역에서 에러가 나기 시작했어요.”
- “알겠습니다, 거긴 우리 야드 상류 쪽이네요. 우리 스위치 쪽 확인해 볼게요.”
-
오너십과 경계를 명확히 드러냅니다.
어느 팀이 어떤 역·어떤 선로를 담당하는지 라벨이나 색 테이프로 표시합니다. 훈련 중 그 선로 어딘가에서 문제가 생기면, 누가 누구에게 말을 걸어야 할지가 바로 보입니다. -
대화를 더 풍부하게 만들어 줍니다.
사람들은 손가락으로 가리키고, 옮기고, 재배치할 수 있을 때 더 잘 생각합니다. 허공에서 추상적으로 논쟁하기보다, 모두가 바닥 지도 위 특정 지점에 모여서 이렇게 말합니다.- “우리가 관측성을 잃은 지점이 바로 여기예요.”
- “여기서 폴백이 작동했어야 했는데, 안 됐네요.”
-
단일 워룸을 넘어 확장할 수 있습니다.
모두를 한 공간에 모을 필요가 없습니다. 중심이 되는 소수 인원이 지도를 직접 걸어 다니고, 원격 참가자는 그 모습을 보며 안내하고 조언할 수 있습니다. 실제 인시던트처럼 분산된 상황을 더 잘 반영하는 방식입니다.
이 지도는 훈련 동안 조직 전체를 위한 일종의 아날로그 HUD(헤드업 디스플레이) 같은 역할을 합니다.
현실적인 “공격과 대응” 시뮬레이션 설계하기
기차 정류장 바닥 지도의 진짜 힘은 세션을 체크리스트 검토가 아니라 실시간 시나리오로 다루기 시작할 때 드러납니다.
컴플라이언스 점검에서 시뮬레이션으로 전환하기
- 기존 방식: “장애 조치(failover) 절차가 문서화돼 있나요?”
- 바꿔 보기: “지금 이 선로를 예고 없이 끊겠습니다. 바닥 지도를 걸어 다니며 어떻게 탐지하고, 어떻게 조율하고, 어떻게 복구할지 보여 주세요.”
현실적인 시뮬레이션을 구성하는 핵심 요소는 다음과 같습니다.
-
조각난 정보
실제 장애에서 정보가 흩어지는 상황을 흉내 냅니다.- 각 팀에게 시작 시점에 서로 다른 부분 정보만 제공합니다.
- 시간이 지나면서 새로운 사실을 조금씩 흘려줍니다.
- 오해와 혼란이 생기도록 허용하고, 사람들이 그것을 어떻게 풀어 가는지 관찰합니다.
-
동적인 변화
훈련 도중 퍼실리테이터는:- 새로운 알림을 의미하는 포스트잇을 지도 위에 추가로 붙입니다.
- 2차 장애를 흉내 내기 위해 선로(테이프)를 새로 붙이거나 떼어 냅니다.
- 트래픽 토큰을 옮겨 부하가 어떻게 이동하는지 시뮬레이션합니다.
-
여러 개의 동시 진행 스레드
팀이 지도 위에서 자연스럽게 분화되도록 유도합니다.- 한 그룹은 사용자 영향 범위를 추적합니다.
- 다른 그룹은 내부 전파 경로를 추적합니다.
- 또 다른 그룹은 커뮤니케이션·상태 공지를 전담합니다.
-
즉흥성과 협상
모든 대응을 미리 스크립트로 짜 두지 마세요. 팀이 지도 위에서 직접 협상하게 둡니다.- “이 선로를 끊으면, 여기에서 추가 트래픽을 감당해 줄 수 있나요?”
- “단기적으로 이 스위치를 누가 책임지고 가져갈 수 있을까요?”
목표는 완벽한 플레이북 시연이 아니라, 조직이 “움직이면서 어떻게 배우고 적응하는지”를 연습하는 것입니다.
물리적 레이아웃과 게임 엔진 디자인에서 배우기
흥미롭게도, 이 접근법은 게임 디자이너와 건축가가 일하는 방식과 닮았습니다. 이들은 시간보다 먼저 공간을 생각합니다.
게임 엔진·공간 설계에서 가져올 수 있는 교훈
-
디테일보다 먼저 공간을 블록킹(blocking)하라.
게임 디자이너는 레벨을 만들 때 먼저 단순한 도형으로 공간을 막아(flow를 잡아) 봅니다. 똑같이 해 보세요.- 핵심 시스템과 사용자 진입 지점을 대략적으로 배치합니다.
- 훈련을 여러 번 돌리면서 점진적으로 디테일을 추가합니다.
-
이동과 상호작용을 염두에 두고 설계하라.
사람들은 이 인시던트 공간 안에서 어떻게 움직일까요?- 지도 위에 중앙 “컨트롤 룸” 역할을 하는 구역이 있나요?
- 어떤 선로는 팀이 멀리까지 걸어가야만 하도록 설계되어 있나요? (실제 긴 의존 체인을 반영)
-
색상과 레이어링으로 가독성을 높여라.
잘 설계된 게임 레벨처럼, 지도도 한눈에 읽혀야 합니다.- 한 색은 크리티컬 경로.
- 다른 색은 관측·로깅 경로.
- 또 다른 색은 외부·서드파티 의존성.
-
각 러닝(run) 사이에 반복 개선하라.
바닥 지도를 살아 있는 아티팩트로 취급하세요. 각 훈련 후에:- 실제와 다른 것으로 드러난 선로는 수정하거나 보완합니다.
- 새로 도입된 서비스는 역으로 추가합니다.
- 반복적으로 혼란이 생기는 구역은 더 깊이 설계·문서화해야 할 곳으로 표시합니다.
레벨 디자이너처럼 생각하면, 현실적이면서도 직관적으로 탐색할 수 있는 인시던트 연습 환경을 만들어 낼 수 있습니다.
조직에서 실제로 적용하는 방법
첫날부터 완벽한 지도를 만들 필요는 없습니다. 작게 시작해서 점차 발전시키면 됩니다.
시작을 위한 간단한 레시피
-
현실적인 장애 시나리오 하나를 고릅니다.
실제로 있었거나, 거의 일어날 뻔했던 사건이면 가장 좋습니다. -
핵심 컴포넌트 10–20개를 뽑습니다.
충분히 흥미로울 정도로 많되, 지도가 읽기 어려워지지 않을 정도로만 고릅니다. -
기차 정류장 지도를 바닥에 테이프로 만듭니다.
회의실, 복도, 넓은 빈 공간이면 어디든 좋습니다. 역을 라벨링하고 선로를 그립니다. -
여러 팀을 함께 초대합니다.
최소한 제품(도메인) 팀 1개, 플랫폼/인프라 팀 1개, SRE/운영 팀 1개, 그리고 지원/고객 대응 역할 담당자 1명을 포함해 보세요. -
60–90분짜리 시뮬레이션을 한 번 돌립니다.
- 장애를 소개합니다.
- 사람들이 걸어 다니고, 가리키고, 논쟁하고, 즉흥적으로 대응하게 둡니다.
- 마지막에는 지도 앞에 둘러서서 디브리핑을 합니다.
-
인사이트를 지도 위에 바로 기록합니다.
포스트잇으로 다음을 표시합니다.- 새롭게 발견한 의존 관계
- 빠져 있는 알림이나 대시보드
- 팀 간 조율 문제
여기서부터 지도와 시나리오를 다듬어 가며, 다른 그룹·더 복잡한 상황과 함께 반복해서 돌려 보세요.
결론
회복력 있는 조직은 좋은 런북만 가진 게 아니라, 시스템이 스트레스 상황에서 어떻게 동작하는지에 대한 공유되고 정확한 멘탈 모델을 가지고 있습니다. 이런 모델은 추상적인 대화만으로는 만들기 어렵습니다.
아키텍처를 걸어 다닐 수 있는 기차 정류장 바닥 지도로 구현한 아날로그 인시던트 컴퍼스는 다음을 가능하게 하는 단순하지만 강력한 도구입니다.
- 테이블탑 드릴을 몸으로 체험하는 현실적인 장애 시뮬레이션으로 바꾸기
- 의존 관계와 장애 경로를 물리적으로 눈에 보이게 만들기
- 여러 팀을 하나의 공유되고 탐색 가능한 시스템 표현 위에 정렬시키기
- 즉흥 대응, 협상, 진짜 학습을 촉진하기
현대 분산 시스템을 이해하는 데 가장 효과적인 도구가 또 하나의 대시보드나 시각화 엔진일 필요는 없습니다. 때로는 테이프 한 롤, 바닥 위에 깔린 종이 선로, 그리고 장애를 함께 걸어 나가려는 사람들 그룹이면 충분합니다.