아날로그 인시던트 시어터: 프로덕션 장애를 실제로 터지기 전에 종이 소품으로 리허설하기
화이트보드와 포스트잇 같은 로우테크 테이블탑 연습과 프리모템을 통해 숨겨진 장애 모드를 찾고, 인시던트 대응을 정교하게 다듬고, 실제 장애에 강한 문화를 만드는 방법을 소개합니다.
아날로그 인시던트 시어터: 프로덕션 장애를 실제로 터지기 전에 종이 소품으로 리허설하기
오늘날 시스템은 정교한 모니터링, 자동화, 인시던트 관리 도구들로 구동됩니다. 하지만 프로덕션에서 문제가 터졌을 때, 가장 중요한 것은 종종 기술 스택이 아니라 사람들이 어떻게 대응하느냐입니다.
여기서 등장하는 것이 바로 아날로그 인시던트 시어터(Analog Incident Theater) 입니다. 화이트보드, 포스트잇, 종이 소품만으로 프로덕션 장애를 저기술·고효과 방식으로 재연하는 접근입니다. 프리모템(premortem)과 SRE 도구들과 결합하면, 다음 대형 인시던트가 오기 전에 “계획과 현실 사이의 간극”을 찾아낼 수 있습니다.
이 글에서는 테이블탑(Tabletop) 연습과 프리모템이 어떻게 동작하는지, 왜 장애를 ‘연기해 보는 것’이 큰 효과를 내는지, 그리고 이 아날로그 시뮬레이션을 최신 SRE 실무와 어떻게 결합할 수 있는지 살펴봅니다.
왜 굳이 인시던트를 ‘연기’해야 할까?
대부분의 팀은 나름의 인시던트 대응 계획(incident response plan) 을 가지고 있습니다. 문서, 런북, 위키 페이지 형태로 존재하죠. 보기에 꽤 탄탄해 보이지만, 이 계획이 처음으로 진짜 시험대에 오르는 순간은 보통 실제 장애 상황입니다. 그것도 시간 압박과 고객의 기대 속에서 말이죠.
이건 순서가 잘못된 겁니다.
위기 한가운데서 처음으로 허점을 발견하기보다는, 소방 훈련(fire drill) 처럼 미리 대응을 리허설 할 수 있습니다. 이것이 바로 인시던트 대응 테이블탑 연습(incident response tabletop exercise) 의 핵심 아이디어입니다.
- 공격, 장애, 실패 시나리오를 하나 설정합니다.
- 인시던트 대응 팀이 그 상황에서 무엇을 할지, 단계별로 순서대로 이야기합니다.
- 실제 사람이 문서를 사용해 보는 과정을 통해, 문서상의 계획이 현실에서 얼마나 통하는지 관찰합니다.
이 연습의 목표는 시뮬레이션에서 “승리”하는 것이 아닙니다. 오히려 다음과 같은 불일치와 허점을 드러내는 것입니다.
- 아무도 실제로 수행할 수 없는 런북 상의 단계
- 불분명한 소유권: “Failover 결정을 누가 내려도 되는 거죠?”
- 빠져 있는 커뮤니케이션 흐름: “고객에게 알릴까요? 언제? 누가 메시지를 작성하죠?”
테이블탑 연습은 이런 갭을 안전한 환경에서 드러나게 해 줍니다. 이때는 모두가 차분하고, 수정 비용도 저렴합니다.
인시던트 대응 테이블탑 연습이란 무엇인가?
테이블탑 연습은 구조화된, 로우테크 롤플레이(roleplay) 를 통해 인시던트를 연기하는 방식입니다. 프로덕션에서 실제로 장애를 일으키는 카오스 엔지니어링과 달리, 모든 것은 종이(또는 가상 화이트보드) 위에서만 벌어집니다. 실제 시스템은 건드리지 않습니다.
핵심 특징은 다음과 같습니다.
- 시나리오 기반: “EU 고객의 데이터베이스 레이턴시가 급증하고 에러율이 올라간다” 같은 현실적인 장애 시나리오에서 시작합니다.
- 역할 중심: 각 참가자는 인시던트 커맨더, 온콜 엔지니어, 커뮤니케이션 리드, 프로덕트 오너 등 특정 역할을 맡습니다.
- 대화 기반: 실제로 프로덕션에 명령을 입력하는 대신, 어떤 도구를 보고, 어떤 결정을 내리고, 누구에게 알릴지 등을 말로 풀어갑니다.
- 퍼실리테이션: 퍼실리테이터가 시간 경과에 따라 새로운 정보를 공개합니다. ("로그에 이런 내용이 보입니다", "고객이 트위터에 글을 올리기 시작했습니다" 등) 그리고 그룹이 흐름을 이어가도록 돕습니다.
이 연습의 1차 목표는 모든 인시던트 대응 인원이 위기 때 자신의 역할과 책임을 명확히 이해하도록 하는 것입니다. 사람들은 다음을 학습합니다.
- 자신이 어떤 결정을 내릴 권한이 있는지
- 언제, 누구에게 에스컬레이션해야 하는지
- 시간 압박 속에서 다른 역할과 어떻게 조율해야 하는지
연습이 끝나면 팀은 누가, 언제, 무엇을, 어떻게 하는지를 문서뿐 아니라 실제 행동의 레벨에서 훨씬 더 명확하게 이해하게 됩니다.
문서와 현실 사이의 간극
테이블탑 연습을 해 보면 꽤 겸손해지는 경험을 하게 됩니다. 위키의 깔끔한 다이어그램과 실제 사람들이 반응하는 방식 사이의 차이가 금세 드러나기 때문입니다.
보통 다음과 같은 갭이 드러납니다.
- 구식 런북 – “3단계에 Graphite를 보라고 돼 있는데, 작년에 Prometheus로 이미 갈아탔어요.”
- 모호한 책임 분배 – 두 사람은 자신이 인시던트 커맨더라고 생각하는데, 정작 고객 커뮤니케이션은 아무도 안 맡고 있음.
- 숨겨진 의존성 – 레거시 인증 서비스(auth service)를 아는 유일한 사람이 방에 없음.
- 도구에 대한 가정 – 실제로 존재하지 않는 메트릭이나 로그가 있다고 가정한 계획.
테이블탑 연습의 목적은 이런 불일치를 프로덕션 수준의 고통이 되기 전에 끌어올리는 것입니다. 하나하나 발견되는 갭은 다음과 같은 개선 기회가 됩니다.
- 런북 업데이트 또는 신규 작성
- 역할과 에스컬레이션 경로를 명확화
- 부족한 모니터링, 알람, 대시보드 추가
- 암묵지(tribal knowledge) 문서화
말하자면, 인시던트 대응 프로세스에 대한 품질 보증(QA) 을 하는 셈입니다.
프리모템: 미래의 실패를 일부러 상상하기
테이블탑 연습은 보통 정해진 시나리오에서 시작합니다. 그런데 어떤 시나리오를 골라서 연습해야 할까요? 여기서 프리모템(premortem) 이 등장합니다.
프리모템은 전통적인 포스트모템(postmortem)을 뒤집어 놓은 방식입니다.
- 포스트모템에서는 이미 일이 잘못된 뒤에, 어떻게 그런 일이 벌어졌는지 분석합니다.
- 프리모템에서는 “앞으로 큰일이 터진 미래”를 상상하고, 그 사태가 어떻게 발생했을지를 거꾸로 추적해 갑니다.
일반적인 진행 순서는 다음과 같습니다.
- 가상의 재난을 선언합니다. “지금은 6개월 뒤이고, 회사 역사상 최악의 장애가 방금 일어났습니다.”
- 그 재난이 어떻게 발생했을지를 두고 제한 없는 상상력 기반 브레인스토밍을 유도합니다.
- 특히 튀어 보이는 아이디어들을 빠짐없이 적습니다. 프로세스 실패, 조직 이슈, 벤더 문제, 엣지 케이스 버그, 위험한 마이그레이션 등 무엇이든 좋습니다.
- 아이디어를 모니터링 공백, 단일 장애점(SPOF), 불명확한 오너십 등 주제별로 묶습니다.
- 그중 가장 그럴듯하거나 임팩트가 큰 시나리오들을 골라 이후 테이블탑 연습의 인풋으로 사용합니다.
프리모템의 진짜 가치는 의도적으로 당연한 장애 모드를 넘어서는 상상을 하게 만든다는 점입니다. 사람들이 1시간 동안 마음 편히 상상력을 풀어 놓을 수 있는 환경이 주어지면 종종 다음과 같은 것들을 끌어올립니다.
- 비기술적 리스크 (핵심 인력 이탈, 법적 제약, 예산 삭감 등)
- 팀 간 오해 (“백업은 저 팀이 하는 줄 알았는데요.” “아니요, 저희는 당신들이 하는 줄 알았는데요.”)
- 현재 어느 대시보드에서도 감시하지 않는 장애 모드
프리모템과 테이블탑 연습은 서로를 보완합니다. 프리모템은 무엇이 잘못될 수 있는지를 넓게 탐색하고, 테이블탑 연습은 실제로 그것이 발생했을 때 어떻게 대응할지 리허설 합니다.
아날로그 인시던트 시어터 만들기
근사한 실험실이나 완벽한 시뮬레이션 환경은 필요 없습니다. 기본적인 준비물과 약간의 구조만 있으면 “인시던트 시어터”를 만들 수 있습니다.
필요한 것
- 방해받지 않고 대화할 수 있는 공간 (오프라인 회의실 또는 온라인 화상회의)
- 퍼실리테이터와 서기(스크라이브)
- 화이트보드 또는 디지털 보드(Miro, FigJam 등)
- 다음을 표현할 수 있는 포스트잇 또는 가상의 카드
- 시스템과 서비스
- 알람(Alerts)
- 로그/메트릭 스냅샷
- 고객 문의/제보
- 외부 제약(컴플라이언스, 법무 등)
간단한 세션 진행 방법
-
시나리오를 고른다
- 프리모템에서 나온 아이디어를 쓰거나, 과거 인시던트에 약간 변주를 준 케이스를 사용합니다.
-
역할을 할당한다
- 인시던트 커맨더(Incident Commander)
- 온콜 엔지니어(Subsystem별)
- 커뮤니케이션 리드(고객 및 내부 이해관계자)
- 선택: 프로덕트 매니저, 고객지원, 보안, 법무 등
-
상황을 세팅한다
- T=0 시점에 팀이 알고 있는 정보를 설명합니다. (예: 알람 발생, 에러율 상승, 고객지원 티켓 유입 등)
-
라운드로 진행한다
- 각 5–10분짜리 라운드는 시간 점프 하나(T+10, T+20 등)를 의미합니다.
- 팀은 그 시간 동안 무엇을 할지를 말합니다. 퍼실리테이터는 새 메트릭, 로그 한 줄, 트위터 여론 폭주 같은 새로운 “단서”를 종이나 보드에 추가합니다.
-
결정과 마찰을 기록한다
- 서기는 다음을 기록합니다: 내린 결정, 혼란이 있었던 지점, 부족한 데이터, 불명확한 오너십, “원래 이런 게 있어야 하는데…” 같은 코멘트들.
-
디브리핑 및 개선
- 어떤 부분은 잘 작동했고, 어떤 부분이 무너졌는지 함께 리뷰합니다.
- 발견한 내용을 구체적인 액션으로 전환합니다. 새 런북, 알람, 대시보드, 교육, 프로세스 변경 등.
이것이 바로 아날로그 시어터입니다. 프로덕션은 손대지 않지만, 현실적인 제약과 역할을 가진 상태에서 인시던트를 직접 연기해 보는 것입니다.
아날로그 리허설과 현대 SRE 도구의 결합
이 접근은 기존 도구를 대체하려는 것이 아닙니다. 오히려 도구를 더 효과적으로 쓰기 위한 것입니다.
아날로그 리허설과 현대 SRE 실무를 결합하면, 보다 입체적인 대비 전략을 세울 수 있습니다.
- 모니터링 & 가시성(Observability): 테이블탑에서 다룬 인시던트를 바탕으로 “어떤 시그널이 필요했는가”를 정의하고, 그에 맞게 메트릭·로그·트레이스를 추가/개선합니다.
- 자동화 & 런북: 사람들이 특정 수작업을 계속 반복하는 패턴이 보이면, 이를 런북이나 자동화 스크립트로 옮깁니다.
- 인시던트 관리 도구: 실제와 똑같이 채널 구조, 인시던트 타임라인, 온콜 로테이션, 상태 페이지(status page) 업데이트 등을 연습해 봅니다.
- 포스트모템 템플릿: 연습이 끝난 뒤에도 실제 인시던트와 동일한 프로세스로 미니 포스트모템을 진행합니다.
아날로그 시뮬레이션은 사람과 프로세스의 약점을 드러냅니다. 그다음 이 약점을 보완하고 시스템을 강화하는 도구가 바로 여러분의 SRE 툴체인입니다.
심리적 안전감이 있는 문화 만들기
정기적인 테이블탑 연습과 프리모템이 가져오는 가장 중요한 장기적인 효과는 기술적인 것이 아니라 문화적인 것입니다.
이 세션을 주기적으로 진행하면:
- 실패, 아슬아슬했던 상황(near-miss), 불확실성에 대해 터놓고 이야기하는 것이 자연스러워집니다.
- 리더십이 “비난보다 학습을 중시한다”는 신호를 보냅니다.
- 시스템의 취약성에 대한 우려를 공식적으로 제기할 수 있는 구조를 제공합니다.
이것이 바로 심리적 안전감(psychological safety) 을 만듭니다. 질문을 해도, 문제를 제기해도, 실수를 인정해도 괜찮다고 모두가 믿게 되는 상태입니다. 이게 없으면 시뮬레이션도 피상적으로 끝나고, 실제 인시던트는 필요 이상으로 심각해지기 쉽습니다.
이런 방식으로 연습하는 팀들은 보통 다음과 같은 특징을 보입니다.
- 실제 인시던트를 더 빨리 감지합니다.
- 더 적절한 수준으로, 더 제때에 에스컬레이션합니다.
- 기능 간(엔지니어링, 제품, 지원, 경영진 등) 커뮤니케이션이 명확해집니다.
- 시뮬레이션과 실제 장애 모두로부터 더 빠르게 학습합니다.
아날로그 인시던트 시어터 는 결국 조직의 사고방식 일부가 됩니다. 호기심 많고, 선제적이며, 실패를 외면하지 않는 태도 말입니다.
시작하기: 첫 시도는 작게
이걸 시작하기 위해 임원 승인이나 3개월짜리 프로젝트는 필요 없습니다.
이렇게 시작해 보세요.
- 소규모 서비스 팀을 대상으로 60–90분짜리 테이블탑 을 한 번 잡습니다.
- 단순한 시나리오 를 사용합니다. (예: 피크 트래픽 동안 부분적인 장애 발생)
- 역할을 할당하고 인시던트를 함께 walkthrough 하면서, 모든 마찰 지점을 빠짐없이 적습니다.
- 바로 실행할 수 있는 1–3가지 개선 사항 을 고릅니다.
- 다음 세션을 미리 달력에 예약 해 둡니다.
시간이 지나면 시나리오를 확장하고, 더 많은 팀을 참여시키고, 프리모템 세션을 섞어 시나리오 풀을 풍부하게 만들 수 있습니다. 그렇게 하다 보면 어느새 아날로그 리허설이 정기적인 리듬이 되고, 그 결과물이 도구와 프로세스의 지속적인 개선으로 이어질 것입니다.
마무리
프로덕션 장애는 피할 수 없습니다. 우리가 선택할 수 있는 것은 인시던트 대응이 실제 위기 도중에 처음 시험대에 오를지, 아니면 미리, 종이 위에서 안전하게 시험해 볼지입니다.
다음을 결합하면:
- 역할과 책임을 리허설하기 위한 인시던트 대응 테이블탑 연습
- 미래의 실패를 상상하고 탐색하는 프리모템
- 배운 것을 운영에 녹여내는 현대 SRE 도구 체인
강력한 시스템과 팀을 함께 만들어 가는 아날로그 인시던트 시어터 를 구축할 수 있습니다.
로우테크 소품, 의도된 롤플레이, 열린 대화는 어떤 대시보드도 보여주지 못하는 취약성을 드러낼 수 있습니다. 이런 연습을 정기적으로 수행하고, 심리적 안전감을 쌓아 나가면, 다음 프로덕션 인시던트라는 막이 올랐을 때 훨씬 더 잘 대비된 상태로 맞이하게 될 것입니다.