골판지 인시던트 철도 오락실: 가장 기묘한 장애를 저기술 게임으로 연습하기
골판지, 종이, 그리고 약간의 게임 디자인 사고만으로 팀이 정말로 참여하고 싶어 하는 강력한 저기술 인시던트 대응 훈련을 만드는 법.
골판지 인시던트 철도 오락실: 가장 기묘한 장애를 저기술 게임으로 연습하기
요즘 장애는 복잡하고, 시끄럽고, 스트레스가 심합니다. 우리가 쓰는 도구는 고도화되어 있지만, 실제 연습 방식은 대개 그렇지 않습니다. 공유 문서 하나, 줌 콜 하나, 잘해야 슬라이드 몇 장 정도일 때가 많죠. 비행 시뮬레이터로 반복 훈련하는 파일럿처럼, 우리도 인시던트를 연습할 수 있다면 어떨까요? 다만 필요한 건 골판지, 마커, 화이트보드뿐이라면요.
여기서 등장하는 것이 **골판지 인시던트 철도 오락실(Cardboard Incident Railway Arcade)**입니다. 게임 디자인, 공학 장난감, 클래식 게임 포스트모템에서 아이디어를 가져온, 저기술 인시던트 태블탑(tabletop) 연습 방식입니다. 종이와 골판지로 시스템을 표현한 “레벨”을 만들고, 기묘한 장애를 마치 오락실 게임을 플레이하듯이 하나씩 “깨 나가게” 됩니다.
겉보기엔 장난처럼 보여도, 결코 농담이 아닙니다. 이런 저기술 게임은 실제 비상 상황에서 팀의 대응 역량을 진지하게 끌어올릴 수 있습니다.
왜 인시던트에 저기술 게임이 실제로 효과가 있을까
1. 이미 우리는 인시던트를 게임처럼 운영하고 있다
실제 장애 상황을 떠올려 보세요.
- 분명한 목표가 있습니다: 서비스를 복구하고, 영향을 줄이는 것
- 여러 제약 조건이 있습니다: 시간 압박, 부족한 정보, 제한된 인력
- 지켜야 할 규칙이 있습니다: 인시던트 커맨더 역할, 장애 대응 플로우, SLA
- 계속해서 피드백이 들어옵니다: 메트릭, 로그, 고객 문의
이건 이미 하나의 게임입니다.
태블탑 연습은 그 게임을 안전하고, 반복 가능하며, 관찰 가능한 상태로 만드는 것뿐입니다. 실제 고객에게 영향이 가는 장애가 아니라면, 우리는 다음과 같은 것들을 할 수 있습니다.
- 다양한 접근 방식을 실험해 보고
- 실수하더라도 실제 피해 없이 지나갈 수 있으며
- 중요한 의사결정을 언제든지 멈추고 되돌려 보면서 자세히 들여다볼 수 있습니다.
골판지 기차, 종이 대시보드, 포스트잇 알람 같은 저기술 소품은 시스템의 추상적인 개념을 눈에 보이는, 함께 만질 수 있는, 재미있는 형태로 바꿔 줍니다.
2. 저기술 = 높은 집중
완전히 실제 환경과 비슷한 도구만으로 훈련을 하면, 사람들은 종종 디테일 속에 파묻힙니다. 반대로 골판지 모델이나 종이 시스템 맵을 쓰면:
- 잡음을 걷어내고 핵심 의존 관계만 드러낼 수 있고
- 화면 대신 흐름이 눈에 들어오며
- 클릭보다는 말하고 생각하는 일에 집중하게 됩니다.
공학 교육에서는 수십 년 동안 종이 기반 STEM 활동으로 다리, 회로, 철도 등을 시뮬레이션해 왔습니다. 분산 시스템도 똑같이 모델링할 수 있습니다. 데이터 흐름은 선으로, 서비스는 인덱스 카드로, 사용자나 이벤트는 토큰으로 표현하는 방식입니다.
반복 가능한 인시던트 “게임”을 위한 간단한 템플릿
재사용 가능한 템플릿이 있으면, 장애 시나리오를 설계하고, 실행하고, 시간이 지나도 계속 개선해 나가기가 쉬워집니다. 아래는 바로 가져다 쓸 수 있는 최소 구조입니다.
1. 시나리오 세팅
기본 요소를 정의합니다.
- 이름: "프로덕션의 유령 열차(Ghost Train in Production)", "사라지는 로그 스트림(The Vanishing Log Stream)" 같은 식으로
- 컨텍스트: 정상 동작이 어떤 모습인지 (트래픽, 핵심 서비스, 의존 관계)
- 트리거: 장애가 어떻게 시작되는지 (알람, 고객 문의, 내부 감지)
- 승리 조건: 무엇이 ‘해결’로 간주되는지 (SLO 회복, 근본 원인 파악, 커뮤니케이션 완료)
테이블 위에는 여러분의 시스템을 “철도 노선”처럼 깔아 둡니다.
- 서비스는 카드나 작은 박스로
- 데이터 흐름은 그려 놓은 레일이나 실(sewing thread)로
- 외부 의존성은 가장자리에 있는 역(Station) 으로 표현합니다.
2. 역할과 플레이어
참가자를 협동(co‑op) 게임의 플레이어처럼 다룹니다.
- 인시던트 커맨더(Incident Commander): 전체를 조율하고, 타임라인을 관리하며, 작업을 할당
- 테크 리드 / 응답자(Responders): 조사하고, 가설을 세우고, 테스트를 실행 (실제 도구 대신 말로 설명)
- 커뮤니케이션 리드(Comms Lead): 고객과 이해관계자에게 상태를 알림
- 옵저버 / 서기(Scribe): 의사결정, 시간, 핵심 순간들을 기록
원한다면 추가 “챌린지 역할”을 넣을 수도 있습니다.
- 카오스 엔진(Chaos Engine): 새로운 이벤트나 제약을 던져 넣는 퍼실리테이터
- 이해관계자 NPC: 임원이나 고객 역할을 하며 좋지 않은 타이밍에 질문을 던지는 사람
3. 턴 기반 진행 방식
연습은 짧은 “틱(tick)” 혹은 턴(예: 5분 단위)으로 진행합니다.
- 상태 업데이트: 퍼실리테이터가 지금 무슨 일이 일어나는지 알려줍니다 (알람, 고객 영향, 메트릭 변화).
- 플레이어 액션: 각 역할이 자신이 무엇을 하는지 선언합니다 (X를 조사한다, Y에게 알린다, Z를 롤백한다 등).
- 시스템 반응: 퍼실리테이터가 보드를 업데이트합니다. 토큰을 옮기거나, 서비스 카드를 "정상"에서 "성능 저하"로 뒤집거나, 새로운 알람 카드를 추가할 수 있습니다.
- 시간 압박 표현: 가상의 시간을 타임라인에 표시하고, 시간에 따라 영향이 어떻게 누적되는지 기록합니다.
이 구조 덕분에 언제든지 멈추거나, 되감거나, “만약 그때 이렇게 했으면 어떻게 됐을까?” 하며 가지치기(branch)할 수 있습니다.
4. 시나리오 종료
다음과 같은 시점에 끝낼 수 있습니다.
- 승리 조건이 달성되었을 때
- 시스템은 기술적으로 복구됐지만 팀의 신뢰도가 낮을 때
- 시간 제한에 도달했을 때 (이 또한 중요한 결과입니다)
그리고 바로 이어서 게임 이후 분석(post‑game breakdown) 으로 넘어갑니다.
인시던트 리포트뿐 아니라 게임 포스트모템에서 배우기
게임 스튜디오는 출시된 게임을 가지고 포스트모템(postmortem) 을 하는 전통이 있습니다. 이때 개발자들은 다음을 되짚어 봅니다.
- 어떤 시스템은 잘 작동했는가?
- 무엇이 실패했거나, 끝내 출시되지 못했는가?
- 플레이어를 놀라게 만든 것은 무엇인가?
- 다음번에는 무엇을 다르게 할 것인가?
인시던트도 똑같이 할 수 있습니다.
게임 이후 분석 템플릿
각 연습(또는 실제 장애) 후에 짧고 구조화된 디브리핑을 진행합니다.
-
타임라인 리뷰
주요 순간들을 함께 훑어봅니다. 최초 감지, 첫 번째 가설, 전환점이 된 순간, 해결 시점 등. -
잘된 점(What Worked)
- 효과적인 초기 조치
- 좋은 핸드오프나 커뮤니케이션 순간
- 일을 더 쉽게 만든 도구나 프로세스
-
실패했거나 불편했던 점(What Failed or Felt Bad)
- 모호한 오너십
- 도구 사용의 불편함
- 목표나 우선순위가 불분명했던 부분
-
플레이어 경험(PX) 체크인
- 언제 스트레스, 막힘, 과부하를 느꼈는가?
- 언제 자신감 있고 잘 맞춰 돌아간다고 느꼈는가?
- 과도하게 일이 몰리거나, 거의 일이 없던 역할은 없었는가?
-
왜 그랬는지(근본 원인, 비난 아님)
- 어떤 조건들이 이런 상황을 만들기 쉬웠는가? (알람 공백, 아키텍처, 인력 배치 등)
- 어떤 인센티브나 습관이 드러났는가? (히어로 문화, 사일로화 등)
-
디자인 변경 사항
- 시스템 측면에서 바꿀 것 (알람, 런북, 아키텍처)
- 프로세스 측면에서 바꿀 것 (역할 정의, 커뮤니케이션 템플릿, 에스컬레이션 경로)
- 향후 시나리오 측면에서 바꿀 것 (난이도, 현실성, 새로운 제약 조건)
이 시간을 인시던트 대응 게임에 대한 디자인 크리틱으로 보세요. 재판장이 아니라요.
게임 디자인 핵심 개념을 장애 훈련에 적용하기
전문 게임 디자이너가 될 필요는 없지만, 몇 가지 핵심 개념을 빌려오면 연습이 훨씬 흥미롭고 현실감 있게 바뀝니다.
1. 플레이어 경험(PX): 대응하는 사람이 느끼는 것
게임 디자인에서 플레이어 경험(Player Experience) 은 플레이할 때 어떤 감정이 드는지를 말합니다. 긴장감, 몰입, 좌절, 만족감 같은 것들입니다.
인시던트 연습에서 PX는 다음과 관련됩니다.
- 주요 순간의 스트레스 레벨
- 목표와 선택지가 얼마나 명확한지
- 발언하고, 틀릴 수도 있고, 에스컬레이션할 수 있는 심리적 안전감이 있는지
실제 스트레스와 의사결정 지점을 의도적으로 드러내는 시나리오를 설계해 보세요.
- 상충하는 우선순위: 성능 vs. 데이터 무결성
- 불완전한 정보: 시끄러운 알람, 빠진 로그
- 커뮤니케이션 딜레마: 확신이 없는 상태에서 고객에게 무엇을 말할 것인가
그리고 게임처럼 난이도를 조정합니다.
- 너무 쉬우면 → 사람들이 금세 흥미를 잃습니다.
- 너무 어렵다면 → 사람들은 아예 포기해 버립니다.
- 적당히 어렵고 도전적인 수준에서 → 사람들은 “학습의 플로우 상태”에 들어갑니다.
2. 밸런싱: 난이도와 역량의 균형 맞추기
게임에서 밸런싱은 규칙을 조정해 공정하면서도 만만치 않게 만드는 일입니다. 인시던트에서도 마찬가지입니다.
- 처음에는 단순하고 국소적인 장애(한 서비스만 말썽을 부리는 수준)로 시작합니다.
- 점차 팀 간 의존 관계와 다층적인 장애를 도입합니다.
- 가끔은 승리할 수 없는(no‑win) 시나리오를 설계해, 기술적 해결보다는 실패 상황에서의 커뮤니케이션을 연습하게 합니다.
여러 차례 연습에서 팀이 어떻게 성과를 내는지 추적하고, 실력이 늘수록 복잡성을 점진적으로 높이세요.
3. 레벨 디자인: 더 나은 시나리오 만들기
각 연습을 하나의 레벨(level) 로 생각해 보세요.
- 인트로 레벨: 역할과 프로세스를 익히는 수준
- 중간 레벨: 실제로 겪었던 장애를 닮은 시나리오
- 고급 레벨: 아직 겪지 않았지만 가능한 희귀 장애, 멀티 리전 이슈, 공급망(Supply Chain) 문제 등
실제 인시던트를 템플릿으로 활용하세요.
- 핵심 장애 패턴을 추상화합니다 (예: 재시도 폭주, 오래된 설정값, 잘못 라우팅된 트래픽 등).
- 그대로 재현하지 말고, 다른 외형으로 “스킨만 갈아입혀서” 사람들이 런북을 그대로 재생(replay)하지 못하게 합니다.
4. 인시던트를 위한 디자인 패턴
게임에는 퍼즐, 적의 행동, 레벨 구조 같은 재사용 가능한 패턴이 있습니다. 여러분의 인프라에도 비슷한 패턴이 존재합니다.
- 쓰로틀링 실패로 인한 트래픽 폭주(Thundering herd)
- 의존 서비스 장애
- 데이터 손상 vs. 데이터 손실
- 서서히 나빠지는 성능 저하 vs. 갑작스러운 완전 중단
이런 공통 인시던트 패턴 카드 덱을 만들어 두고, 서로 조합해 새 “레벨”을 빠르게 구성할 수 있습니다. 패턴 카드 몇 장 + 골판지 철도 맵 하나면, 몇 분 안에 새 시나리오가 탄생합니다.
골판지 인시던트 철도 오락실 만들기
화려한 소품은 필요 없습니다. 다음 정도면 충분히 시작할 수 있습니다.
- 골판지나 종이: 서비스와 컴포넌트 표현용
- 마커와 테이프: 레일, 경계, 데이터 흐름을 그리거나 표시
- 포스트잇(Sticky notes): 알람, 인시던트, 이벤트 업데이트 표현
- 토큰(동전, 단추, 종이 동그라미 등): 사용자, 요청, 메시지 등으로 사용
단계별 세팅 방법
-
시스템을 철도 노선으로 맵핑합니다.
- 각 서비스 = 하나의 역(Station)
- 각 데이터 흐름이나 의존 관계 = 하나의 레일(Track)
- 외부 서비스 = 가장자리에 있는 항구나 분기점(Junction)
-
트래픽 토큰을 배치해 정상 상태를 표현합니다.
- 요청이 한 역에서 다른 역으로 이동하는 모습
- 백그라운드 잡이 화물열차처럼 순환하는 모습
-
장애를 도입합니다.
- 특정 역 카드를 "다운" 또는 "성능 저하" 상태로 뒤집기
- 레일(의존성)을 빨간 마커나 카드로 막기
- 에러 메시지나 서포트 티켓을 나타내는 새로운 토큰 추가
-
이제 팀이 대응하게 둡니다.
- 어디를 먼저 볼지, 무엇을 바꿀지 팀이 결정합니다.
- 퍼실리테이터는 그에 따라 보드 위 상태(시스템 반응)를 업데이트합니다.
이런 물리적 모델은 비엔지니어 이해관계자에게도 복잡한 상호작용을 한눈에 보이게 만듭니다.
왜 슬라이드보다 골판지가 나은가
- 공유된 물리 공간: 모두가 테이블 주변에 서서 가리키고, 직접 움직여 볼 수 있습니다.
- 노트북 금지: 산만함이 줄어들고 대화가 늘어납니다.
- 체화된 학습(Embodied learning): 손으로 부품을 옮겨 보면, 흐름과 의존 관계가 머릿속에 더 잘 남습니다.
- 접근성: 신입, 이해관계자, 비기술 인력도 맥락을 따라가기 쉽습니다.
그리고 무엇보다 저렴합니다. 피자 박스와 인덱스 카드 몇 장만 있어도 첫 번째 레벨을 만들 수 있습니다.
일회성이 아닌, 진짜 ‘오락실’로 만들기
이 방식의 진짜 힘은 반복과 점진적 개선에서 나옵니다.
- 정기 세션을 일정에 박아 두세요.: 매달 혹은 분기마다 60–90분 정도
- 시나리오 라이브러리를 유지하세요: 각 연습은 오락실의 하나의 "게임 캐비닛"처럼 재사용 가능하게 남깁니다.
- 지표를 장기적으로 추적하세요: 감지까지 걸린 시간, 첫 가설까지의 시간, 역할 명확성 등
- 디자이너를 순환 배치하세요: 팀원들이 번갈아가며 시나리오를 설계하게 하면, 서로의 블라인드 스폿이 드러납니다.
곧 다음과 같은 것들을 얻게 될 것입니다.
- 인시던트 패턴에 대한 공통 언어
- 실제 장애 발생 시 더 부드럽고 자신감 있는 대응
- 실패로부터 배우는 것이 당연하고 안전한 문화
결론: 진지한 스킬, 우스꽝스러운 재료
인시던트를 연습하는 데 꼭 전용 카오스 엔지니어링 플랫폼이나 완벽한 스테이징 환경이 필요한 것은 아닙니다. 골판지, 종이, 그리고 약간의 게임 디자인 사고만 있으면 다음을 해낼 수 있습니다.
- 장애를 눈에 보이고 손으로 만질 수 있게 만들고
- 인시던트 대응을 그냥 “버티는 것”이 아니라 훈련하는 기술로 대우하며
- 단순한 시스템 다이어그램을 넘어 사람의 경험에 초점을 맞춘 시나리오를 설계할 수 있습니다.
여러분만의 골판지 인시던트 철도 오락실을 만들어 보세요.
- 한 가지 시나리오와 대충 그린 맵 하나로 작게 시작하고
- 단순하지만 반복 가능한 템플릿을 사용하며
- 매 세션 뒤에는 꼭 제대로 된 게임 이후 분석을 진행하고
- 게임 스튜디오가 레벨을 개선해 가듯, 시간이 갈수록 시나리오를 진화시키세요.
다음번에 기묘한 실제 장애가 터졌을 때, 팀은 그저 반사적으로 허둥대지 않을 것입니다. 골판지로 만든 오락실에서부터 연습해 온, 이기는 법을 알고 있는 게임을 다시 플레이하는 것처럼 대응하게 될 것입니다.