아날로그 인시던트 스토리 가든 패스: 미래 장애를 위한 종이 산책로 설계하기
종이로 만든 물리적 ‘스토리 가든 패스’ 산책로를 이용해 연극처럼 인시던트를 리허설하고, 대응 프로세스를 프로토타이핑하며, 실제 장애 전에 팀을 준비시키는 방법을 다룹니다.
아날로그 인시던트 스토리 가든 패스: 미래 장애를 위한 종이 산책로 설계하기
디지털 장애는 실제로 터지기 전까지는 항상 추상적으로만 느껴집니다.
새벽 3시에 알람이 울리고, 대시보드가 깜빡이고, Slack이 알림으로 뒤덮일 때, 사람들은 다이어그램이나 프로세스 문서를 경험하는 게 아닙니다. 그들이 실제로 마주하는 건 스트레스, 혼란, 그리고 불완전한 정보입니다.
그래서 인시던트 대응에는 런북과 도구만으로는 충분하지 않습니다. 리허설이 필요합니다.
이 글에서는 **아날로그 ‘스토리 가든 패스(story garden path)’**라는 아이디어를 살펴봅니다. 인시던트 스토리를, 실제로 팀이 걸어가며 단계별로 따라가 볼 수 있는 종이 산책로로 만드는 것입니다. 인시던트 프로세스를 몸으로 걸어보는, 물리적이고 로우테크한 시뮬레이션이라고 생각하면 됩니다.
이 글에서 다룰 내용:
- 스토리 가든 패스가 무엇이고, 왜 효과적인가
- 인시던트 리허설을 연극 리허설처럼 다루는 방법
- 물리적인 종이 기반 인시던트 연습을 설계하고 운영하는 방법
- 온콜 필수 교육 과정으로 활용하는 방법
- 인시던트 대응을 위한 살아 있는 디자인 시스템으로 발전시키는 방법
인시던트를 위한 스토리 가든 패스란?
스토리 가든 패스는 바닥이나 벽 위에 종이(또는 포스터, 포스트잇, 테이프 등)를 이용해 만든 물리적인 길입니다. 각 ‘스텝’은 인시던트에서 일어나는 특정 순간을 표현하는 스테이션(station)입니다.
예를 들면:
- 알람 페이지가 온 순간
- 이해하기 어려운 대시보드를 마주한 순간
- 고객사에서 에스컬레이션이 들어온 순간
- 리더십에 상태를 보고해야 하는 순간
- 어려운 결정을 내려야 하는 순간
참가자들은 이 경로를 순서대로 걸으면서, 한 스테이션에서 다음 스테이션으로 이동합니다. 각 지점마다 다음과 같은 행동을 합니다.
- 짧은 내러티브나 프롬프트를 읽습니다. (예: “지금 새벽 2시 17분입니다. PagerDuty에서 당신을 페이지했습니다…”)
- 프롭스(props)와 상호작용합니다. (대시보드 출력물, 티켓, 채팅 로그, API 응답 등)
- 자신의 역할과 눈앞에 있는 정보만을 바탕으로 다음에 무엇을 할지 결정합니다.
이런 물리적·아날로그 형식은 인시던트 런북을 단순한 문서가 아니라 사람들이 몸으로 느끼고 기억할 수 있는 경험으로 바꿔 줍니다.
인시던트 리허설을 연극 리허설처럼 다루기
연극은 막이 오르는 날부터 시작되지 않습니다. 그 전까지 배우들은 여러 주에 걸쳐 다음을 이해하려고 애씁니다.
- 동기(Motivations) – 내 캐릭터는 이 장면에서 무엇을 중요하게 생각하는가?
- 관계(Relationships) – 나는 누구에게 의존하고, 누가 나에게 의존하는가?
- 비트(Beats) – 지금 이 순간에 무엇이 달라지는가? 무엇을 반드시 이루어야 하는가?
인시던트도 같은 방식으로 접근할 수 있습니다.
스토리 가든 패스 연습을 진행할 때 역할을 다음과 같이 분배합니다.
- Incident Commander(IC) – 전체를 조율하며 큰 그림을 유지
- 온콜 엔지니어(들) – 조사 및 복구 담당
- 커뮤니케이션 리드(Comms Lead) – 이해관계자, 고객, 내부 팀에 상황 공유
- Subject Matter Expert(SME) – 페이지를 받고 참여하는 전문 담당자
- Observer / Scribe – 잘된 점과 안 된 점을 기록하는 관찰자/서기
각 스테이션에서 단순히 “지금 무엇을 할까?”라고 묻는 대신 다음을 질문합니다.
- 지금 이 순간, 당신의 목표는 무엇인가? (예: 서비스를 복구한다, 혼란을 줄인다, 상황을 명확히 한다 등)
- 지금 어떤 정보가 있었으면 좋겠는가?
- 누구를 더 불러야 하는가?
- 무엇이 더 나빠지는 것을 막으려고 하는가?
이 연습의 목표는 완벽한 퍼포먼스를 만드는 것이 아니라, 각 참가자가 다음을 분명히 이해하도록 돕는 것입니다.
“인시던트의 매 순간마다, 나는 무엇을 이루려고 하는가?”
이 명확성이 실제 장애 상황에서는 망설임과 인지적 과부하를 크게 줄여 줍니다.
학습을 개념이 아니라 ‘몸으로’ 만들기
우리는 보통 읽은 것보다, 직접 한 행동을 더 잘 기억합니다.
스토리 가든 패스가 효과적인 이유는 학습을 물리적인 행동에 기반 두기 때문입니다.
- 사람들은 트리거부터 해결까지 공간을 실제로 이동합니다.
- 인쇄된 로그, 인시던트 타임라인, 시뮬레이션된 Slack 대화, 가짜 상태 페이지 초안 같은 프롭스들을 직접 만져봅니다.
- 실제 프로덕션에서 사용할 **대시보드(스크린샷 또는 읽기 전용 라이브 뷰)**를 직접 확인합니다.
이를 통해 연습은 다음과 같아집니다.
- 체감되는 경험(Visceral) – 시간 압박과 분기되는 의사결정을 실제로 느끼게 됩니다.
- 기억에 남는 경험(Memorable) – 걷고, 물건을 만지는 행동 자체가 경험을 뇌에 각인시킵니다.
- 구체적인 경험(Concrete) – “서비스를 트라이에이지(triage)하라”는 모호한 지시가 “이 대시보드를 보라. 당신의 첫 쿼리는 무엇인가?” 같은 구체적 행동으로 바뀝니다.
원한다면 각 스테이션에 2–3분의 제한 시간을 두어, 실제 긴박감을 더할 수도 있습니다.
종이로 산책로 만들기
시작하는 데 거창한 도구나 시뮬레이션 프레임워크는 필요 없습니다. 기본적인 준비물만으로 충분합니다.
- 프린터, 종이, 마커, 테이프
- 포스트잇 또는 인덱스 카드
- 화이트보드나 큰 롤지(버처 페이퍼)
1. 시나리오 선택하기
먼저 현실적으로 일어날 법한 장애 시나리오를 하나 고릅니다. 예를 들면:
- 크리티컬 API 레이턴시 급등
- 잘못된 데이터베이스 페일오버
- 인증 서비스 장애
- 재시도 폭주로 인한 연쇄 장애(cascading retry storm)
처음에는 단순한 것부터 시작하세요. 이후에 복잡도를 얼마든지 추가할 수 있습니다.
2. 인시던트 스토리 맵 그리기
인시던트를 **스토리 비트(story beats)**의 연속으로 타임라인 형태로 스케치합니다.
- 트리거: 알람 발생
- 트라이에이지: 첫 번째 메트릭/로그 확인
- 에스컬레이션: 더 많은 사람을 참여시킴
- 워커어라운드 또는 완화 조치
- 커뮤니케이션 업데이트
- 근본 원인(Root Cause) 파악
- 장기적인 수정안 결정
- 인시던트 종료 및 후속 조치
각 비트가 바닥 위에 있는 하나의 스테이션이 됩니다.
3. 스테이션과 프롭스 만들기
각 스테이션마다 다음을 준비합니다.
- 짧은 내러티브 카드 – 지금 무슨 일이 벌어지고 있는지 설명
- 인풋 자료 – 대시보드, 로그, 고객 이메일, 서포트 티켓, 이전 채팅 메시지 등
- 역할별로 다른 프롬프트 예:
- Incident Commander: “지금 다음으로 어떤 공지를 할 건가요?”
- 온콜: “다음에 어떤 시스템을 확인하나요? 어떤 쿼리 또는 메트릭을 볼 건가요?”
- Comms Lead: “지금 누구에게 업데이트가 필요하고, 무엇을 전달해야 하나요?”
이 스테이션들을 복도, 회의실, 혹은 개방된 공간에 순서대로 배치합니다. 바닥에 테이프나 화살표를 붙여 이동 경로를 표시하세요.
4. 라이브 워크스루로 진행하기
3–6명 정도의 소규모 그룹을 모아서 다음 순서로 진행합니다.
- 역할을 명확하게 할당합니다.
- 1번 스테이션에서 시작해 내러티브를 소리 내어 읽습니다.
- 각 역할이 자신이 취할 행동을 차례로 설명하도록 합니다.
- 결정 사항과 떠오른 질문을 포스트잇에 적어가며 기록합니다.
- 다음 스테이션으로 이동해 같은 과정을 반복합니다.
진행 중에 바로바로 정답을 알려주거나 교정하려고 하지 마세요. 시나리오가 끝까지 흘러가게 한 뒤에 함께 되돌아보는 편이 좋습니다.
5. 되돌아보기와 인사이트 정리
마지막에는 짧은 회고를 진행합니다.
- 어느 지점에서 혼란이 특히 컸는가?
- 어떤 결정이 특히 느리거나 모호하게 느껴졌는가?
- 어떤 문서, 대시보드, 도구가 부족했는가?
- 어떤 책임이 제대로 이해되지 않았는가?
이 인사이트를 인시던트 플레이북에 반영하고, 산책로 구성도 함께 업데이트합니다.
템플릿으로 만드는 저비용 테이블탑(tabletop) 연습
스토리 가든 패스를 반복 가능한 테이블탑 인시던트 연습 시스템으로 확장할 수 있습니다.
재사용 가능한 템플릿을 만들어 두세요.
- 시나리오 브리프 – 요약, 영향 범위, 관련 시스템
- 스테이션 카드 – 트리거, 시그널, 의사결정, 결과
- 역할 가이드 – IC, 온콜, Comms, SME의 역할과 책임
- 메트릭 & 대시보드 목록 – 어떤 뷰를 보여줄지, 무엇을 설명하는지
모든 것이 아날로그이고 모듈형이기 때문에 다음과 같이 활용할 수 있습니다.
- 장애 유형만 바꾸기 – 네트워크 파티션, 디스크 포화, 잘못된 배포 등
- 심각도 조정 – 경미한 인시던트부터 SEV-1급까지
- 시간대나 온콜 로테이션별로 다양한 상황 연습
이렇게 하면 복잡한 시뮬레이션 엔진이나 커스텀 툴링 없이도 중대 장애에 대비할 수 있습니다. 펜, 종이, 그리고 몇 시간만 있으면 충분합니다.
온콜 로테이션 전에 필수 교육으로 만들기
준비 안 된 사람을 바로 온콜 로테이션에 투입하는 것은 신뢰성과 안정성 관점에서 안티 패턴입니다.
대신 스토리 가든 패스를 온콜 필수 교육 과정의 일부로 만드세요.
엔지니어가 온콜 로테이션에 합류하기 전에, 최소한 다음을 경험하도록 합니다.
- 아날로그 인시던트 산책로를 한 번은 온콜 담당자 역할로 직접 걸어보기
- Incident Commander를 따라다니며(섀도잉) 조율 방식과 의사결정 패턴을 관찰해 보기
- 인시던트 플레이북을 산책로와 함께 검토하며, 각 단계가 실제 행동과 어떻게 연결되는지 확인하기
이 과정을 거치고 나면, 첫 실제 페이지를 받을 때 이미 다음을 경험한 상태가 됩니다.
- 현실적인 장애 상황을 시각적으로, 물리적으로 한 번 걸어본 경험
- 대시보드를 읽고 여러 시그널을 종합해 본 연습
- 누구에게 연락하고, 어떻게 에스컬레이션하며, 압박 속에서 어떻게 커뮤니케이션해야 하는지에 대한 감각
이는 패닉을 줄이고, 대응 속도를 높이며, 팀 전체의 공유된 멘탈 모델을 형성하는 데 큰 도움이 됩니다.
인시던트 대응을 위한 디자인 시스템으로 활용하기
스토리 가든 패스의 강력한 부수 효과 중 하나는, 이것이 조직의 인시던트 대응 방식을 보여주는 디자인 시스템으로 작동한다는 점입니다.
연습을 반복하다 보면:
- 누락된 단계나 역할을 발견하게 됩니다.
- 불필요한 핸드오프나 중복 작업을 찾아낼 수 있습니다.
- 커뮤니케이션 주기와 의사결정 포인트를 조정하게 됩니다.
이러한 변화는 항상 두 곳에 동시에 반영할 수 있습니다.
- 종이 산책로 – 물리적인 레이아웃, 스테이션 내용, 프롬프트
- 인시던트 문서 – 플레이북, 역할 설명서, 런북
시간이 지나면서, 산책로는 이렇게 진화합니다.
- 일회성 교육 도구 → 인시던트 프로세스의 살아 있는 프로토타입
- 정적인 포스터 모음 → 장애가 어떻게 흘러가는지를 보여주는 공유 언어
리더십, 신규 입사자, SRE, 서포트 팀 등 다양한 구성원이 모두 같은 길을 걸어보면, 이 조직에서 “좋은 인시던트 대응”이 무엇을 의미하는지에 대해 동일한 핵심 내러티브를 공유하게 됩니다.
결론: 미래의 장애를, 미리 걸어보라
모든 장애를 예측할 수는 없지만, 좋은 대응의 형태를 미리 리허설할 수는 있습니다.
스테이션, 프롭스, 역할이 준비된 단순한 아날로그 스토리 가든 패스—종이로 만든 산책로—는 인시던트 대응을 한 번뿐인 위기 대응이 아니라 반복 연습할 수 있는 퍼포먼스로 바꿔 줍니다.
다음과 같은 방식으로:
- 리허설을 연극처럼 다루고
- 학습을 몸의 움직임과 프롭스에 grounded 시키고
- 저비용 테이블탑 스타일 템플릿을 활용하고
- 온콜 교육의 필수 단계로 산책로를 요구하고
- 프로세스 변화에 맞춰 산책로 레이아웃을 지속적으로 진화시키면
…팀은 실제 프로덕션 환경에서 장애를 맞닥뜨리기 전에, 몸으로 미래의 인시던트를 미리 경험하게 됩니다.
필요한 것은 완벽함이 아니라 연습입니다.
종이를 꺼내 바닥에 길을 붙이고, 팀을 초대해 내일 일어날지도 모르는 장애를 오늘 함께 걸어보세요. 아직 stakes가 낮을 때, 배움은 훨씬 깊이 스며듭니다.