아날로그 인시던트 스토리 인형극 무대: 종이 캐릭터로 장애를 재연해 숨은 역할 드러내기
종이 캐릭터와 저기술(로우테크) 인형극 무대를 활용해 엔지니어링 팀이 장애를 안전하게 재연하고, 보이지 않던 역할과 실제 커뮤니케이션 경로를 드러내며, 실운영 시스템을 건드리지 않고도 드문 실패 모드를 탐색하는 방법을 소개합니다.
아날로그 인시던트 스토리 인형극 무대: 종이 캐릭터로 장애를 재연해 숨은 역할 드러내기
현대적인 인시던트 대응은 대시보드, 로그, 자동화 도구로 가득합니다. 하지만 장애 상황에서 진짜 중요한 역학은 이런 도구들에 잘 드러나지 않습니다. 사람들끼리 어떻게 대화하는지, 실제로 누가 의사결정을 하는지, 압박 속에서 어떤 비공식적인 역할이 등장하는지 같은 부분입니다.
이 숨은 현실을 드러내는 의외로 강력한 방법이 있습니다. 바로 저기술(로우테크) 로 가는 것입니다.
여기서 소개하는 것이 바로 아날로그 인시던트 스토리 인형극 무대(Analog Incident Story Puppet Stage) 입니다. 터미널이나 테스트 환경 대신, 종이 캐릭터와 마커, 테이프를 사용해 실제 장애를 재연하는 단순한 물리적 “극장”입니다.
겉으로 보기에는 장난스럽게 느껴질 수 있습니다. 실제로 재미있기도 합니다. 하지만 동시에, 장애가 발생했을 때 여러분의 사회기술적(sociotechnical) 시스템이 실제로 어떻게 움직이는지를 빠르고 저렴하게, 그리고 진지하게 이해할 수 있는 방법이기도 합니다.
왜 굳이 인시던트를 연극처럼 재연할까?
대부분의 조직은 이미 어떤 형태로든 포스트모템(postmortem) 이나 인시던트 리뷰(incident review) 를 하고 있습니다. 이 활동은 분명히 가치가 있지만, 보통 다음과 같은 것에 강하게 의존합니다.
- 텍스트 기반 타임라인 ("14:32에 데이터베이스가 페일오버됨…")
- 기술 다이어그램 (서비스 맵, 의존성 그래프, 아키텍처 다이어그램)
하지만 이런 방식은 종종 인시던트의 인간적인 안무(human choreography) 를 놓칩니다.
- 실제로 누가 언제 리드를 잡았는가?
- 누가 조용히, 하지만 결정적인 일을 백그라운드에서 했는가?
- 실제 정보 흐름은 팀 간에 어떻게 오갔는가?
- 어떤 도구는 설계와 다르게 ‘편법’으로 사용되었는가?
재연을 하면 사람들은 그저 상황을 설명 하는 것이 아니라, 그 당시 맡았던 역할을 직접 다시 살아보게 됩니다. 이건 단지 이야기를 더 생생하게 만드는 것을 넘어, 인시던트 대응의 숨은 구조—비공식 리더, 비공식 전문가, 취약한 커뮤니케이션 경로, 프로세스의 빈틈—를 드러나게 합니다.
그리고 종이와 마커로 만드는 인형극 무대를 사용하면, 프로덕션을 건드리거나 비용이 큰 전체 시뮬레이션을 돌리지 않고도, 안전하고 저렴하게, 자주 이런 재연을 할 수 있습니다.
아날로그 인시던트 인형극 무대란 무엇인가?
장애를 위한 테이블탑 극장(tabletop theater) 이라고 생각하면 됩니다.
테이블이나 화이트보드에 단순한 “무대”를 만들고, 여기에 종이 캐릭터를 올려둡니다. 이 캐릭터들은 다음을 상징합니다.
- 사람 (온콜 엔지니어, SRE, 인시던트 커맨더, 고객지원, 프로덕트 매니저 등)
- 팀 (결제팀, 데이터팀, 플랫폼팀, 보안팀 등)
- 시스템 (API 게이트웨이, DB 클러스터, 메시지 큐, 피처 플래그 서비스 등)
- 외부 행위자 (고객, 벤더, 규제 기관, 서드파티 API 등)
각 캐릭터는 인덱스 카드, 포스트잇, 인쇄한 아이콘 같은 작은 종이 조각입니다. 집게나 받침, 자석 등에 붙여 세울 수 있습니다. 이 캐릭터들은 움직이거나, 그룹을 이루거나, 화살표로 연결되거나, 말풍선으로 둘러싸이거나, 타임스탬프를 적어 넣을 수 있습니다.
그 다음 팀이 모여 실제 인시던트를 함께 플레이하며 따라가거나, 가상의 "만약 이런 실패가 난다면" 시나리오를 탐색합니다.
이건 기술적인 의미의 시뮬레이션이 아닙니다. 아무 것도 배포되지 않고, 어떤 시스템도 변경되지 않습니다. 제약과 역할이 주어진 상태에서 진행하는 스토리텔링 기반 재연에 가깝습니다. 다음과 비슷합니다.
- 고객 응대 상황 연습
- 갈등 해결 롤플레이
- 재난 대응 훈련
— 단, 소프트웨어 장애 상황에서 여러분의 팀이 어떻게 행동하는지를 중심으로 맞춰져 있을 뿐입니다.
하이테크보다 로우테크가 유리한 지점
현대적인 카오스 엔지니어링 실험이나 게임데이(game day)는 강력하지만, 항상 실용적인 건 아닙니다.
- 비용 이 많이 들 수 있습니다 (인프라, 도구, 준비 시간 등)
- 특히 강하게 결합된 프로덕션 시스템의 경우 위험 이 따릅니다.
- 일정 조율과 실행에 시간이 오래 걸리는 경우가 많습니다.
라이브 테스트가 너무 위험하거나 비용이 많이 든다면, 아날로그 인형극 무대는 매력적인 대안이 됩니다.
- 프로덕션에 전혀 리스크 없음 – 종이 캐릭터는 프로덕션을 죽일 수 없습니다.
- 준비와 반복이 빠름 – 종이 몇 장, 마커, 그리고 60–90분이면 충분합니다.
- 반복 실험이 쉬움 – 한 세션 안에 여러 버전이나 “대체 타임라인”을 돌려볼 수 있습니다.
- 포용적 – 고객지원, 운영, 프로덕트, 법무 등 비기술 직군도 온전히 참여할 수 있습니다.
라이브 테스트를 완전히 대체하는 것이 아니라, 그 사이사이에 사람들이 기술과 인사이트를 연습 할 수 있는 마찰이 낮은 연습 공간을 하나 더 추가하는 것입니다.
인형극 세션은 이렇게 진행됩니다
아래는 간단히 따라 할 수 있는 구조입니다.
1. 스토리(또는 시나리오) 선택하기
다음 중 하나를 고릅니다.
- 더 잘 이해하고 싶은 실제 과거 인시던트
- 프로덕션에서 쉽게 테스트하기는 어렵지만 걱정되는 그럴듯한 실패 모드
- 이미 경험한 인시던트의 "만약 그때…" 분기(branch) (예: “인시던트 커맨더가 다른 타임존에 있었다면?”)
그리고 명확한 시작 시점 을 정의합니다. 예: “체크아웃 API 지연(latency) 증가에 대한 알람이 발생했다.”
2. 캐릭터 캐스팅 만들기
종이 카드에 다음을 적거나 그립니다.
- 개별 역할: 온콜 SRE, 데이터베이스 엔지니어, 인시던트 커맨더, 고객지원 에이전트, PR 리드, 벤더 담당자
- 시스템: Checkout API, Payments DB, Feature Flag Service, Monitoring, Slack
- 맥락 행위자: 엔터프라이즈 고객, 규제 기관, Status Page
그림 실력을 걱정할 필요는 없습니다. 이름이 잘 보이고, 아주 단순한 아이콘 정도면 충분합니다.
시스템은 한쪽, 팀은 다른 쪽, 고객은 가장자리 쪽 등 대략적인 레이아웃을 잡아 테이블이나 보드 위에 올려둡니다.
3. 참가자에게 역할 배정하기
참가자들에게 본인 역할 이나 다른 사람의 역할을 맡겨봅니다.
- 누군가는 온콜 엔지니어를 맡고
- 누군가는 인시던트 커맨더를 맡고
- 또 다른 누군가는 Monitoring 이나 Status Page 를 맡아 일종의 내레이터처럼 행동할 수 있습니다.
실제 인시던트를 재연하는 경우, 당시 참여했던 사람들을 초대하면 좋습니다. 이야기가 전개되는 동안 세부 사항을 바로잡거나 보완해 줄 수 있습니다.
4. 인시던트를 스토리처럼 따라가기
타임라인을 따라가며 진행합니다.
- 트리거: “14:32에 알람이 발생합니다.” Monitoring 카드를 움직이고, 말풍선을 그립니다. “/checkout 지연 증가.”
- 탐지 & 1차 대응: 누가 이걸 가장 먼저 봅니까? 그 사람의 카드를 옮기고, 알람 도구로 선을 그립니다.
- 에스컬레이션: 그 다음으로 누가 호출(paging)되나요? 카드를 옮기고, 화살표를 추가합니다.
- 커뮤니케이션: 인시던트 채널은 언제 열리나요? 누가 들어오나요? Slack이나 Zoom도 하나의 캐릭터처럼 표현하고, 사람들을 그쪽에 연결합니다.
- 의사결정 & 액션: 핵심 조치를 포스트잇으로 적어, 관련된 시스템 또는 사람 옆에 붙입니다.
- 대외 커뮤니케이션: 고객, 지원팀, 임원진은 언제 그림 속으로 들어옵니까? 관련 카드를 장면 안으로 옮깁니다.
참가자들이 각자의 캐릭터 말투로 말하도록 격려하세요.
- “저는 온콜 SRE입니다. 알람을 확인하고 대시보드를 봅니다.”
- “저는 고객지원입니다. 알람 뜨기 직전에 티켓이 급증한 걸 봅니다.”
이런 롤플레이 방식은 저위험 환경에서 인시던트 대응 스킬을 연습 할 수 있게 해 주고, 미묘한 협업 문제를 훨씬 더 잘 드러나게 만듭니다.
5. 멈추고, 돌아보고, 분기하기
언제든지 멈추고 이런 질문을 던질 수 있습니다.
- “지금 이 그림에서 누가 빠져 있나요?”
- “보드에는 안 보이지만 중요한 일을 하고 있는 사람 이 있나요?”
- “어떤 정보가 특정 한 곳에만 갇혀 있고, 다른 사람들에게는 전달되지 않고 있나요?”
그 다음에는 분기(branch) 를 탐색해 봅니다.
- “온콜이 이 알람을 10분 동안 못 봤다면 어떻게 되었을까?”
- “데이터베이스 엔지니어가 부재중이었다면?”
- “여기에 자동 복구(auto‑remediation)가 켜져 있었다면?”
종이 캐릭터의 위치를 바꿔가며 이런 대체 타임라인을 만들고, 각각을 하나의 미니 실험(micro‑experiment) 으로 취급합니다. 현재 셋업이 얼마나 취약한지 혹은 얼마나 탄탄한지를, 아무 것도 깨뜨리지 않고 시험해볼 수 있습니다.
숨은 역할과 커뮤니케이션 경로 드러내기
인형극 무대의 진짜 힘은, 기존 다이어그램이나 타임라인으로는 잘 보이지 않던 것들을 눈앞에 펼쳐준다는 점입니다.
숨겨진 역할들
자주 다음과 같은 것들을 발견하게 됩니다.
- Slack에서 자연스럽게 기록 담당자(note‑taker) 가 되어, 사실상 히스토리안을 맡는 사람
- 공식 직책은 아니지만 실제로 인시던트 커맨더 역할 을 하는 시니어 엔지니어
- 공식적으로 인정받지는 않지만, 고객 영향도를 조용히 취합하고 요약하는 고객지원 리드
- 런북에는 등장하지 않는데도, 실제 상황에서는 모두가 모이는 사실상의 허브 도구(내부 대시보드 같은 것)
이런 것들을 인형극 무대 위에 눈에 보이는 캐릭터로 올려두면, 다음과 같은 질문을 할 기회가 생깁니다.
- 이건 공식 역할로 정의 해야 하는가?
- 이 역할을 맡는 사람이 충분한 지원과 교육 을 받고 있는가?
- 우리가 문서로 정리한 프로세스는 실제로 일어나는 일을 반영하고 있는가, 아니면 이미 오래된 이상적인 모델인가?
커뮤니케이션·조정의 빈틈
화살표와 말풍선을 그리다 보면 자주 이런 것들이 보입니다.
- 중요한 업데이트가 오직 한 사람을 통해서만 전달되는 구조
- 협업해야 하지만 서로 직접 소통하지 않는 팀들
- 시스템이나 의사결정의 오너십이 불분명 해서 생기는 지연
로그 파일 속에서는 잡아내기 힘들지만, 보드 위에서 종이 캐릭터들이 한 사람이나 한 도구 주변에 과도하게 몰려 있는 모습 을 보면 이런 문제는 금세 눈에 들어옵니다.
재연을 ‘실험’으로 다루기
각 인형극 세션은 하나의 실험 으로 설계할 수 있습니다.
- 가설: “인시던트 커맨더를 더 이른 시점에 명확히 지정하면 혼선과 중복 작업이 줄어들 것이다.”
- 개입: 같은 시나리오를 두 번 돌려봅니다. 한 번은 리더십이 자연스럽게 정해지도록 두고, 한 번은 알람이 뜨는 순간부터 명확히 커맨더를 지정합니다.
- 관찰: 누가 말하는지, 의사결정은 어떻게 이뤄지는지, 고객에게 언제 소식이 전달되는지를 비교해 봅니다.
비슷한 방식으로 다음 같은 것들도 실험해볼 수 있습니다.
- Status Page 업데이트 규칙 추가
- 커뮤니케이션 리드 로테이션 도입
- 에스컬레이션 규칙 이나 팀 경계 변경
또한 실제로 만들기에는 너무 위험한 희귀하거나 극한 상황 도 탐색할 수 있습니다.
- 여러 리전이 동시에 장애가 나는 상황
- 피크 트래픽 중 핵심 벤더가 다운되는 경우
- 규제 마감 직전에 인시던트가 터지는 경우
종이와 대화만으로 진행되기 때문에, “이게 공휴일에 터졌다면?” 같은 현실에서는 일부러 만들 수 없는 조합도 맘껏 탐색할 수 있고, 그 과정에서 운영 리스크 없이 많은 것을 배울 수 있습니다.
시작할 때 도움이 되는 실용 팁
- 처음에는 작게 시작하세요. 한두 팀과 한 건의 잘 알려진 인시던트로 파일럿을 해보세요.
- 시간을 타임박스하세요. 60–90분을 목표로 합니다. 30–45분은 재연, 나머지 30–45분은 되돌아보고 개선점을 뽑는 데 씁니다.
- 퍼실리테이터를 지정하세요. 중립적인 사람이 시간 관리, 리플렉션 질문, 모두의 발언 기회 보장을 담당합니다.
- 인사이트를 눈에 보이게 기록하세요. 별도 보드나 다른 색 포스트잇을 사용해 “새 역할 후보”, “오너십 불명확”, “커뮤니케이션 갭”, “프로세스와 실제 불일치” 등을 구분해 두세요.
- 마지막에는 구체적인 액션으로 마무리하세요. 인사이트를 작게 실험 가능한 형태로 바꾸세요. 런북 업데이트, 역할 정의 명확화, 에스컬레이션 정책 조정, 향후 카오스 테스트 계획 수립 등.
결론: 장난 같지만 진지한 학습의 장
종이 캐릭터로 가득 찬 인형극 무대는 장난감처럼 보일 수 있지만, 실제로는 여러분의 중요한 일을 비추는 강력한 렌즈입니다.
인시던트를 아날로그 방식으로 다시 플레이 해 보면:
- 인시던트 대응 스킬을 연습할 수 있는 안전하고 부담 낮은 연습 공간 이 생기고
- 글로 쓰는 포스트모템에서는 잘 보이지 않던 숨은 역할, 책임, 커뮤니케이션 경로 를 표면으로 끌어올릴 수 있으며
- 너무 위험하거나 느린 라이브 시뮬레이션 대신 쓸 수 있는 저렴하고 빠른 대안 을 하나 더 갖게 되고
- 기술적 결과뿐 아니라 복잡한 사회기술적 상호작용 자체를 눈에 보이게 만들 수 있으며
- 각 재연을 실험 으로 다루면서, 평소에는 경험하기 어려운 드문 실패 모드와 What‑if 상황을 탐색할 수 있습니다.
도구와 데이터만 더 늘리는 데 집착하기 쉬운 시대에, 때로는 한 발 물러서서 마커를 들고, 여러분의 시스템을 작은 무대 위에 올려놓는 것이 가장 통찰력 있는 선택일 수 있습니다. 종이 캐릭터가 장애를 대신 해결해 주지는 못하지만, 어디서부터 손을 대야 하는지 를 보여주는 데는 놀랄 만큼 효과적입니다.