아날로그 장애 미로 보드: 엔지니어가 실제로 즐겨 하는 테이블탑 리스크 게임 설계하기
지루한 장애 리뷰를, 엔지니어링 팀이 자발적으로 참여하고 즐기며 사고 대응 역량을 키울 수 있는 아날로그 테이블탑 리스크 게임으로 바꾸는 방법.
아날로그 장애 미로 보드: 엔지니어가 실제로 즐겨 하는 테이블탑 리스크 게임 설계하기
장애 포스트모템과 건조한 런북 리뷰만으로는 엔지니어들의 관심을 끌기 어렵습니다. 그런데 화이트보드, 카드 뭉치, 시스템을 표현한 물리적인 “미로(labyrinth)” 보드, 그리고 안전한 환경에서 “프로덕션을 망가뜨려 볼” 기회를 준다면 어떨까요? 갑자기 모두가 몸을 앞으로 기울이기 시작합니다.
이것이 바로 아날로그 테이블탑 장애 게임의 장점입니다. 비용과 부담은 낮지만, 팀이 함께 장애 시나리오를 풀어나가며 실패 모드를 탐색하고, 실제 고객에게 피해가 가기 전에 의사결정을 연습할 수 있는 시뮬레이션이죠.
이 글에서는 교육공학과 학습과학의 원리를 활용해, 재미와 효과를 모두 잡을 수 있는 테이블탑 리스크 게임, 즉 “아날로그 장애 미로 보드(Analog Outage Labyrinth Board)”를 설계하는 방법을 단계별로 살펴보겠습니다.
왜 테이블탑 장애 게임이 효과적인가
테이블탑 연습은 새로운 개념이 아닙니다. 재난 대응, 항공, 의료 분야에서는 수십 년 동안 재난 대응 훈련을 위해 활용해 왔습니다. 이를 엔지니어링 맥락으로 옮기면, 테이블탑 장애 게임은 다음과 같은 장점을 제공합니다.
-
저비용·저위험의 연습 환경
대시보드를 따로 연결할 필요도, chaos monkey를 쓸 필요도 없습니다. 사람, 펜, 보드, 그리고 시나리오 카드만 있으면 됩니다. -
위기 전에 계획을 검증
실제 장애가 발생하기 전에 인시던트 런북, 에스컬레이션 규칙, 커뮤니케이션 프로세스를 시험해볼 수 있습니다. -
팀 간의 숨은 갭 발견
커뮤니케이션이 어디서 끊기는지, 누가 어떤 역할을 잘 모르는지, 어떤 의존성이 보이지 않는지 빠르게 드러납니다. -
안전한 의사결정 연습 환경
실수해도 평판이나 고객에 대한 리스크 없이 실험하고 결과를 확인해볼 수 있습니다. -
IT·엔지니어링 리스크에 최적화
장애 대응, 데이터 손실, 보안 사고, 서비스 성능 저하 같은 이슈는 시나리오 기반 시뮬레이션으로 옮기기 매우 좋습니다.
잘 설계된 테이블탑 게임은 단순한 회의를 넘어, 성인 학습 방식에 맞춘 구조화된 학습 환경이 됩니다.
학습과학을 끌어오기: 왜 EdTech 원리가 중요한가
게임이 단순한 “재미있는 활동”을 넘어 실제 역량 향상으로 이어지게 만들고 싶다면, 교육공학(EdTech) 원리를 빌려오는 것이 도움이 됩니다.
- 능동적 학습(Active Learning): 참가자가 직접 분석하고, 결정하고, 설명하도록 만들고, 단순히 듣기만 하게 두지 않습니다.
- 스캐폴딩(Scaffolding): 처음에는 단순한 시나리오로 시작해, 그룹의 자신감이 쌓일수록 점진적으로 난이도와 복잡도를 올립니다.
- 피드백 루프(Feedback Loops): 게임 진행 과정에서 선택의 결과가 명확하게 드러나고, 사후 회고(debrief)에서 이를 실제 프로세스와 연결해 줍니다.
- 사회적 학습(Social Learning): 정답을 알려주는 것보다, 서로의 사고 방식과 멘탈 모델을 보고 배우게 합니다.
- 상황 기반 연습(Situated Practice): 실제 사용하는 시스템, 도구, 제약을 기반으로 시나리오를 구성해 현실감을 높입니다.
이렇게 하면, 테이블탑 게임은 단순한 엔터테인먼트를 넘어 실제 인시던트에서 쓰일 정신적 근육을 키우는 도구가 됩니다.
아날로그 장애 미로 보드: 개념 살펴보기
프로덕션 환경을 서비스와 의존성으로 얽힌 미로(labyrinth) 형태로 표현한 물리적인 게임 보드를 떠올려 보세요. 각 노드는 시스템, 서비스, 혹은 팀을 나타내고, 엣지(선)는 중요한 경로와 연동 지점을 나타냅니다.
이 보드를 둘러싸고 엔지니어, SRE, 지원(서포트) 인력, 매니저들이 함께 앉아 다음과 같은 요소를 활용해 장애 시나리오를 플레이합니다.
- 시나리오 카드: 예) "데이터베이스 레이턴시 급증", "Auth 프로바이더 부분 장애", "예상치 못한 피처 플래그 롤백" 등
- 이벤트 토큰: 알림, 고객 문의, 시간이 지나며 새로 나타나는 증상 등을 나타내는 표시물
- 역할 배지(Role Badges): 인시던트 커맨더, 커뮤니케이션 리드, 온콜 엔지니어, SME(도메인 전문가) 등
- 의사결정 트랙(Decision Tracks): 시간, 심각도, 고객 영향도, 내부 부담도 등을 나타내는 간단한 시각적 트랙
게임의 목표는, 전개되는 장애 상황 속에서 제약 조건 하에서 최선의 의사결정을 내리며, 영향과 혼란을 관리하면서 이 미로를 헤쳐 나가는 것입니다.
게임 설계를 위한 단계별 프레임워크
아날로그 장애 미로 보드 테이블탑 연습을 직접 설계하고 운영할 수 있도록, 구조화된 프레임워크를 소개합니다.
1. 먼저 학습 목표를 정의하라
멋진 시나리오나 아트워크부터 시작하고 싶은 유혹을 잠시 눌러두세요. 먼저 이런 질문을 던져야 합니다.
- 이 세션 이후, 참가자들이 무엇을 더 잘하게 되길 원하는가?
- 어떤 행동이나 의사결정 패턴을 연습하게 만들고 싶은가?
대표적인 목표 예시는 다음과 같습니다.
- 인시던트 커맨드 구조(Incident Command System)를 실제로 사용해 보기
- 누가, 언제, 누구에게, 무엇을 커뮤니케이션해야 하는지 명확히 하기
- 시스템 및 팀 간의 숨겨진 의존성을 드러내기
- 주저하지 않고 초기에 에스컬레이션하는 것에 익숙해지기
- 새로 작성된 런북이나 인시던트 툴링을 시험해 보기
이 목표를 글로 명시해 두고, 게임 메커니즘을 설계할 때 계속 참조하세요.
2. 시스템을 ‘미로’로 매핑하기
다음은 아날로그 맵을 만드는 단계입니다.
- 주요 구성요소 나열: 핵심 서비스, 데이터 저장소, 외부 프로바이더, 주요 API, 유저 진입 지점 등을 목록으로 뽑습니다.
- 시각적으로 배치: 큰 종이나 화이트보드 위에 이 요소들을 노드로 배치하고, 클러스터, 경로, 병목 지점을 드러내며 ‘미로’ 형태로 구성합니다.
- 의존성 추가: 중요한 데이터/트래픽 흐름에 화살표를 그려 넣고, 특히 취약하거나 리스크가 큰 연결 지점은 강조합니다.
- 리스크 핫스팟 표시: 과거 인시던트가 자주 발생했거나, 문제가 생기면 영향이 큰 지점을 표시합니다.
완벽한 아키텍처 다이어그램을 만들 필요는 없습니다. 필요한 것은 게임으로 다룰 수 있을 만큼 단순화된 상호작용 모델입니다.
3. 시나리오 & 이벤트 카드 만들기
이제 게임을 움직이게 만드는 도전 과제를 설계할 차례입니다.
시나리오 카드(초기 조건) 예시:
- "EU 리전에서 체크아웃 엔드포인트가 갑자기 500 에러를 반환하기 시작했다."
- "백그라운드 잡이 주문을 처리하지 못해, 처리 대기열이 급격히 쌓이고 있다."
- "소셜 미디어에서 로그인 실패 증가가 보고되고 있지만, 아직 어떤 알림도 울리지 않았다."
이벤트 카드(시간 경과에 따른 전개) 예시:
- "PagerDuty 알림: DB 쓰기 레이턴시가 임계치를 초과했습니다."
- "고객 성공 팀에서 VIP 고객 컴플레인을 에스컬레이션했습니다."
- "프로모션 캠페인으로 트래픽이 3배로 급증했습니다."
- "클라우드 프로바이더 Status 페이지에 부분 장애가 보고되었습니다."
실제 인시던트 히스토리를 참고해 시나리오를 만들되, 개별 사건이나 사람에 대한 비난으로 이어지지 않도록 적당히 익명화·재구성하는 것이 좋습니다.
4. 역할과 규칙 정의하기
세션이 현실성과 집중도를 유지하도록 **역할(Role)**과 **기본 규칙(Rules)**을 명확히 합니다.
역할 배정:
- 인시던트 커맨더(Incident Commander): 전체 상황을 조율하고, 의사결정을 정리하며, 시간을 관리합니다.
- 테크 리드(Technical Lead, 다수 가능): 백엔드, 인프라, 데이터 등 각 도메인별로 기술적 조사와 대응을 이끕니다.
- 커뮤니케이션 리드(Comms Lead): 이해관계자, 고객, 내부 채널에 대한 업데이트를 담당합니다.
- 옵저버/스크라이브(Observer/Scribe): 주요 결정, 질문, 인상적인 순간들을 기록해 사후 회고에 활용합니다.
기본 규칙 설정:
- 각 “라운드”는 실제 시간 5~10분을 나타냅니다.
- 매 라운드가 끝나면 이벤트 카드를 한 장 뽑아 새로운 정보나 상황 변화를 시뮬레이션합니다.
- 결정은 반드시 말로 명시해야 합니다: 무엇을 할 것인지, 누가 할 것인지, 어떤 정보를 얻을 것으로 기대하는지.
- 퍼실리테이터는 팀의 선택에 따라 보드(영향 범위, 심각도, 영향 받은 시스템 등)를 업데이트합니다.
규칙은 단순해야 합니다. 머리를 써야 할 곳은 게임 규칙이 아니라 인시던트 자체여야 합니다.
5. 결과를 시각적으로 모델링하기
물리적인 보드의 강점 중 하나는, 결정의 파급효과를 눈으로 보여줄 수 있다는 점입니다.
- 영향받은 시스템에 토큰을 올려두어 영향 확산을 표현합니다.
- 타임라인 트랙에 주요 행동이 일어난 시점을 표시합니다.
- 서로 다른 색의 마커나 토큰으로 고객 영향도와 내부 운영 부담을 구분해서 표시합니다.
예를 들어, 팀이 특정 배포를 롤백하기로 결정했다면 다음과 같이 표현할 수 있습니다.
- 일시적으로 심각도가 낮아진다 (좋은 효과!)
- 하지만 어떤 종속 서비스는 새 API 계약을 기대하고 있었기 때문에, 그 서비스가 깨지는 새로운 이벤트가 발생한다 (새로운 문제!)
이러한 원인–결과의 루프를 눈으로 확인하는 과정에서 많은 학습이 일어납니다.
6. ‘시험’이 아니라 ‘학습 경험’으로 퍼실리테이션하기
퍼실리테이터의 역할은 채점관이 아니라 가이드입니다.
- 세션 시작 시 시나리오와 규칙을 명확히 설명합니다.
- 시간을 관리하고, 이벤트 카드를 투입하는 템포를 조절합니다.
- 다음과 같은 탐색형 질문을 던집니다.
- "지금 이 상황을 누가 알고 있어야 할까요?"
- "우리가 어떤 가정을 두고 있나요?"
- "어떤 신호가 있다면 이 가정이 맞는지/틀린지 확인할 수 있을까요?"
- 플레이 중에는 정답을 알려주려 하지 말고, 이슈를 기록해 두었다가 사후 회고에서 다룹니다.
목표는 팀이 게임을 완벽하게 “클리어”하는지 보는 것이 아니라, 압박 속에서 어떻게 생각하고 협업하는지 드러나게 하는 것입니다.
7. Debrief: 진짜 가치는 여기서 나온다
사후 회고(Debrief)를 절대 생략하지 마세요. 이 단계에서야 비로소 인사이트가 실제 개선으로 연결됩니다.
다음과 같은 질문을 활용해 볼 수 있습니다.
- 커뮤니케이션이 자연스럽게 흘렀던 부분과 막혔던 부분은 어디인가?
- 역할과 책임이 모호하게 느껴졌던 순간은 언제였는가?
- 우리 시스템 중 어떤 부분이 예상 밖이었는가?
- 실제로는 존재하지 않는 도구나 데이터에 의존하고 있다고 가정하지는 않았는가?
- 실제 인시던트에 도움이 되기 위해 어떤 프로세스, 문서, 툴링 변경이 필요할까?
그리고 구체적인 액션 아이템을 꼭 남기세요.
- 런북을 업데이트하거나 새로 작성하기
- 서비스/모듈/팀별 소유권과 에스컬레이션 경로 명확히 하기
- 알림 임계치나 대시보드 조정하기
- 새로운 인시던트 역할에 대한 교육 계획 수립하기
이 세션들을 일회성 워크숍이 아니라 지속적인 개선 루프로 취급하는 것이 중요합니다.
엔지니어들의 몰입을 유지하는 팁
테이블탑 장애 게임이 “잡무”처럼 느껴지면 금방 외면당합니다. 게임을 매력적으로 유지하는 몇 가지 방법은 다음과 같습니다.
- 진짜처럼 만들기: 실제 사용하는 스택, 도구, 과거 인시던트 사례를 기반으로 시나리오를 구성합니다.
- 판돈(Stake)을 분명히 하기: 고객·비즈니스 영향 트랙을 사용해, 각 의사결정이 어떤 의미를 갖는지 체감하게 만듭니다.
- 작게 시작하기: 첫 세션은 45~60분 정도, 하나의 비교적 단순한 시나리오만 다루는 방식이 좋습니다.
- 역할을 순환시키기: 여러 사람이 인시던트 커맨더나 커뮤니케이션 리드를 경험해 볼 수 있게 합니다.
- 완벽함보다 학습을 칭찬하기: “우리가 새로운 갭을 발견했다”를 성공으로 간주하는 문화를 만듭니다.
- 게임 디자인도 계속 개선하기: 세션 끝에 형식·룰에 대한 피드백을 받고, 다음 번에 반영합니다.
잘 운영되기 시작하면, 엔지니어들은 이 게임을 **실전 대비를 위한 귀중한 연습(reps)**으로 보기 시작합니다. 실제 온콜 근무에서 더 자신 있고 효과적으로 대응할 수 있게 되는 것이죠.
결론: 의도적으로 ‘연습하는 문화’를 만들기
장애와 인시던트는 피할 수 없습니다. 하지만 그 과정이 항상 혼란스럽고 비효율적일 필요는 없습니다.
인시던트 대비를 아날로그 테이블탑 미로 게임으로 바꿈으로써, 팀에게 다음과 같은 장점을 주는 구조화된 저위험 환경을 제공할 수 있습니다.
- 시스템이 스트레스 상황에서 실제로 어떻게 동작하는지 탐색하기
- 판돈이 높아지기 전에 의사결정과 커뮤니케이션을 미리 연습해 보기
- 프로세스, 소유권, 툴링의 취약한 부분을 드러내고 개선하기
능동적 학습, 피드백, 스캐폴딩 같은 교육공학 원리를 차용하면, 단지 재미있는 활동을 넘어 실질적으로 강력한 훈련 도구가 되는 테이블탑 연습을 설계할 수 있습니다.
처음에는 단순하게 시작해 보세요. 시스템의 대략적인 지도를 그려 보고, 과거 인시던트 하나를 골라 팀과 함께 천천히 되짚어 보십시오. 그런 다음, 여러분만의 아날로그 장애 미로 보드로 점진적으로 발전시켜 나가면 됩니다.
시간이 지날수록, 여러분은 단지 인시던트 대응을 개선하는 것에 그치지 않고, 다음 장애가 오기 훨씬 전에 의도적으로 연습하는 문화를 구축하게 될 것입니다.