아날로그 인시던트 스토리 ‘연극 상자’: 최악의 장애를 손으로 리허설하기
접이식 탁상형 ‘연극 상자’를 활용해 경영진과 기술 팀이 함께 대규모 장애를 리허설하고, 숨은 의존성을 드러내며, 실제 인시던트 대응 역량을 향상시키는 방법.
아날로그 인시던트 스토리 ‘연극 상자’: 최악의 장애를 손으로 리허설하기
현대적인 장애는 지저분합니다. 문제는 더 이상 망가진 데이터베이스나 잘못 설정된 방화벽 하나로 끝나지 않습니다. 여기에는 뒤엉킨 Slack 채널, 답을 찾느라 허둥대는 임원들, 갑자기 동작을 멈춘 출입 통제 시스템, 점점 불안해지는 고객들이 모두 얽혀 있습니다.
대부분의 조직은 이를 준비하기 위해 도구를 씁니다. 대시보드, 런북, 인시던트 봇 같은 것들이죠. 물론 중요합니다. 하지만 한 가지가 빠져 있습니다. 바로 공유된 연습(shared practice), 특히 경영진과 기술 대응자 사이의 공유 연습입니다.
여기서 **“아날로그 인시던트 스토리 연극 상자(Theater-in-a-Box)”**가 등장합니다. 최악의 장애를 손으로 다시 연기해 볼 수 있는, 접이식 저기술(로우테크) 탁상형 무대입니다.
비유가 아닙니다. 말 그대로 인쇄된 카드, 간단한 소품, 짧은 스크립트가 들어 있는 상자입니다. 회의실 탁자 위에서 상자를 열면, 경영진과 엔지니어를 같은 이야기 속으로 끌어들이는 30분짜리 재사용 가능한 인시던트 연습 세션이 완성됩니다.
디지털 세상에서 왜 아날로그를 써야 할까?
인시던트는 본질적으로 사람의 문제입니다. 대규모 장애 동안 사람들은:
- 불완전한 정보로 의사결정을 하고
- 압박 속에서 트레이드오프를 조정하며
- 역할과 사일로를 가로질러 소통(혹은 오소통)합니다.
대시보드는 이런 걸 훈련시키지 못합니다. 사람이 해야 합니다.
아날로그 탁상형 “연극”은 모두를 조금 느리게 만들면서, 자신을 둘러싼 시스템 전체를 보게 만듭니다. 기술 레이어, 조직 구조도, 벤더 의존성, 물리적 환경, 그리고 정치적 맥락까지요. 그러면 초점은 _“뭐가 고장 났지?”_에서 _“뭔가 망가졌을 때, 우리는 어떻게 함께 움직이지?”_로 옮겨갑니다.
효과적인 연습이 되려면 다음을 만족해야 합니다.
- C-레벨과 기술 대응자 모두를 포함할 것
- 단순하지만 현실적이고, 의사결정 중심일 것
- 짧고 반복 가능할 것
- 숨은 의존성과 취약성을 드러낼 것
- **융합 보안(물리 + 디지털)**을 반영할 것
- 기술적 ‘영웅 플레이’보다 조정(coordination)과 커뮤니케이션을 연습할 것
이걸 실제로 상자 안에 넣고, 다음 분기부터 돌릴 수 있는 형태로 바꿔 봅시다.
“연극 상자(Theater-in-a-Box)”란 무엇인가?
어떤 책상 위든 펼칠 수 있는 키트를 떠올려 보세요.
- 접이식 배경판 또는 단일 페이지짜리 환경 “지도”: 핵심 시스템, 사용자 유형, 물리적 위치 등을 한눈에 보여주는 맵
- 역할 카드(role card): 온콜 엔지니어, 인시던트 커맨더, CISO, CEO, PR 리드, 시설/보안 매니저, SRE 등
- 인시던트 프롬프트 카드: 시간 흐름에 따라 이벤트가 추가되는 짧고 현실적인 장애 스토리
- 결정 토큰(decision token) 또는 포스트잇: 팀이 내린 선택과 감수한 트레이드오프를 표현하는 데 사용
- 10분짜리 퍼실리테이터 스크립트: 어떻게 시작하고, 무엇을 언제 공개하며, 어떤 질문을 던지고, 언제 마칠지에 대한 가이드
진짜 핵심은 제약입니다. 각 시나리오는 약 30분 안에 끝나도록 설계하고, 그 직후 조건을 조금 바꿔서 한 번 더 반복하게 만듭니다.
이건 보드게임을 만드는 게 아닙니다. 여러분은 **리허설 무대(rehearsal stage)**를 만드는 중입니다.
단순하지만 현실적이고, 결정에 초점을 둔 시나리오 설계하기
목표는 여러분의 기술 스택 모든 디테일을 시뮬레이션하는 것이 아닙니다. 목표는 시간은 부족하고, 가시성은 낮을 때 중요한 결정을 어떻게 내리는지를 연습하는 것입니다.
시나리오를 설계할 때는 다음을 따릅니다.
1. 실제 인시던트에서 출발하라
실제로 있었거나, 거의 일어났던 일을 고르세요.
- 특정 지역 클라우드 리전 장애
- 자회사나 벤더에서 발생한 랜섬웨어 사고
- 인증서 만료로 인한 인증 서비스 전체 장애
- 데이터센터 출입을 막아버린 스마트락 시스템 장애
복잡한 건 걷어냅니다. 하나의 명확한 스토리라인만 남기세요.
“전체 고객의 30%에서 인증이 간헐적으로 실패하고 있습니다. 지원 티켓이 쌓이고 있으며, 한 대형 엔터프라이즈 고객이 전화를 걸어 ETA를 요구하고 있습니다.”
2. 디버깅이 아니라 ‘결정 포인트’에 집중하라
각 시나리오마다 참가자를 생각하게 만드는 핵심 질문을 3–5개 정도 뽑아둡니다.
- 위험 vs. 속도: 지금 바로 롤백할까요, 아니면 데이터를 더 모을까요?
- 고객 영향: 누구에게, 언제, 어느 정도 수준까지 상황을 알릴까요?
- 규제 리스크: 이걸 보안 사고로 보고해야 할까요? 누가 최종 결정권자일까요?
- 운영 연속성: 디그레이드 모드로 운영해도 될까요? 누가 승인하나요?
소품은 단순합니다. 각 결정은 팀이 탁자 위에 올려야 하는 카드나 토큰 하나이면 됩니다.
만약 누군가 특정 로그 파일이나 커널 파라미터 같은 디테일에 빠져들면, 퍼실리테이터가 이렇게 되돌립니다.
“이 추상화 수준에서는, 엔지니어들이 해당 디테일을 조사한다고 가정하세요. 여러분이 팀으로서 무엇을 결정하는지에 집중해 주세요.”
3. 짧고 타이트하게 유지하라 (약 30분)
좋은 패턴은 다음과 같습니다.
- 5분 – 맥락 설명 및 역할 배정
- 15분 – 시나리오 진행, 몇 분 간격으로 새로운 이벤트 카드를 공개
- 10분 – 리뷰/디브리핑: 무엇이 잘 되었는가? 무엇이 불명확했는가? 무엇이 놀라웠는가?
이렇게 하면 다음이 가능해집니다.
- 리더십 정기 미팅 안에 시나리오를 넣을 수 있고
- 분기별로 여러 개를 돌려볼 수 있으며
- 신규 임원 온보딩 절차의 표준 단계로 만들 수 있습니다.
연 1회 종일짜리 “빅뱅” 연습보다, 짧고 반복 가능한 연습이 훨씬 더 큰 효과를 냅니다.
같은 시나리오를 다시 돌려라 — 단, 변수 하나를 부숴라
**두 번째 런(run)**에서 진짜 배움이 나옵니다.
한 번 시나리오를 돌린 뒤, 무대를 리셋하고 한 가지만 바꿉니다.
- 온콜 엔지니어가 이동 중이라 30분 늦게 도착한다.
- CEO가 출장 중이라 SMS로만 연락 가능하다.
- 주요 벤더 담당자가 향후 1시간 동안은 연락이 되지 않는다.
- 배지 리더 시스템이 다운되어 물리적 출입이 제한된다.
이제 같은 이야기를, 이 제약을 적용한 상태로 다시 진행합니다.
그러면 곧 이런 사실들이 드러납니다.
- “우리는 항상 이 한 사람에게만 고객 커뮤니케이션 승인 권한을 의존하고 있네.”
- “우리 물리 보안 벤더는 사실상 단일 장애점(single point of failure)이다.”
- “CFO가 건물에 못 들어오면, 급여 수동 처리용 우회 프로세스가 막힌다.”
익숙한 안전망 하나를 제거하면, 숨은 의존성이 자연스럽게 드러납니다.
이 발견들을 눈에 보이게 남겨 두세요. 화이트보드, 공유 문서, 혹은 포스트잇이 붙은 테이블 사진이면 충분합니다. 이 결과물은 곧 다음의 입력값이 됩니다.
- 크로스 트레이닝 및 역할 커버리지 계획
- 에스컬레이션 경로 업데이트
- 벤더 이중화/대체 전략
- 인시던트 의사결정 권한 구조의 명문화 개선
융합 보안을 잊지 말라: 물리 + 디지털
대부분의 탁상형 연습은 데이터센터나 클라우드 계정 안에서만 끝납니다. 실제 장애는 그렇지 않습니다.
현대 조직에서 **물리 보안과 디지털 보안은 이미 융합(converged)**되어 있습니다.
- 스마트락과 배지 리더는 클라우드 서비스에 의존하고
- 카메라 영상은 디지털 모니터링 플랫폼으로 들어가며
- HVAC와 환경 제어 시스템은 기업 네트워크 위에서 동작합니다.
인시던트 연습에서 이 부분을 빼버리면, 리스크의 큰 한 축을 그대로 놓치는 셈입니다.
시나리오에 물리 시스템을 녹여 넣어라
다음과 같은 이벤트 카드를 추가해 보세요.
- “한 층의 스마트락이 ‘잠김(닫힘)’ 상태로 고장 나 네트워크 룸 출입이 막혔습니다.”
- “장애 동안 배송구(dock) 카메라가 오프라인 상태가 됩니다. 보안팀이 에스컬레이션합니다.”
- “인시던트 기간 동안의 배지 로그에서, 근무 시간 외 출입 패턴이 탐지되었습니다. 관련이 있을까요?”
그리고 다음을 물어보세요.
- 비상시 물리 보안 통제를 무시하거나 오버라이드할 수 있는 권한은 누구에게 있는가?
- 보안팀, IT팀, 시설팀은 어떻게 공조하는가?
- 카메라 피드나 배지 로그 같은 물리적 증거가 사용 불가할 때, 무엇이 달라지는가?
이 질문들은 임원과 기술 팀 모두에게 인시던트는 비트(bit)만의 문제가 아니라, 건물과 문, 사람의 문제라는 현실을 상기시켜 줍니다.
사람의 측면 연습하기: 커뮤니케이션과 조정
대부분의 사후 인시던트 리뷰에서 가장 많이 나오는 후회는 “인덱스를 잘못 골랐다”가 아닙니다. 대신 이런 것들입니다.
- “리더십에게 45분 동안 업데이트를 못 했다.”
- “법무(Legal)와 PR을 너무 늦게 끌어들였다.”
- “고객에게 나간 메시지가 서로 엇갈렸다.”
아날로그 연극 상자는 이런 걸 안전하게 연습할 수 있는 장소입니다.
- 대외적으로 회사의 목소리를 내는 사람은 누구인가?
- 내부 인시던트 채널의 ‘소유자’는 누구인가?
- 임원 브리핑에 필요한 최소 정보는 무엇인가?
- 실시간 의견 충돌이 생겼을 때 어떻게 처리할 것인가?
이를 명시적으로 설계해 두세요.
- CEO나 COO 역할 카드에는 “언제 이사회를 통지해야 하는지 최종 결정해야 한다”는 제약을 넣습니다.
- CISO 카드에는 “규제 신고 의무 가능성이 있다”는 힌트를 담습니다.
- 엔지니어링 리드 카드에는 “루트코즈에 대해 확신할 수 없는 상태”라는 제약을 둡니다.
디브리핑에서는 단순히 “문제를 해결했는가?”만 묻지 말고, 다음을 함께 물어보세요.
- “올바른 사람이 올바른 정보를 가지고 있었는가?”
- “혼란이나 불일치 때문에 시간을 낭비한 지점은 어디였는가?”
- “이 연습을 기반으로 실제 인시던트 프로세스에서 무엇을 바꾸고 싶은가?”
일회성 이벤트가 아니라, 지속적인 연습으로 만들기
한 번 잘 만든 탁상형 연습은 ‘재미있는 행사’입니다. 하지만 짧고 재사용 가능한 시나리오의 시리즈는 조직의 역량을 키웁니다.
여러분의 “연극 상자”가 계속 살아 움직이게 하려면:
- 포맷을 표준화하세요: 시간 구조, 역할, 소품 구성을 최대한 동일하게 유지합니다.
- 시나리오 테마를 순환하세요: 장애, 보안 인시던트, 벤더 장애, 물리적 중단 등
- 세션 스폰서를 번갈아 가며 맡기기: 매번 다른 리더가 세션을 후원·주도하게 합니다.
- 결과를 기록하세요: 시나리오별로 한 페이지 정리—주요 결정, 드러난 갭, 후속 액션
임원들에게는, 실제 대형 장애를 맞기 전에 그 ‘느낌’을 몸으로 익힐 수 있는 직관을 길러 줍니다.
기술 대응자에게는, 리더십이 자신들이 마주하는 압박과 복잡성을 직접 경험해 보았고, 어떻게 지원해야 하는지 알고 있다는 신뢰를 쌓아 줍니다.
조직 전체로 보면, 회복 탄력성(resilience)을 보다 현실적으로 이해하게 됩니다. 시스템이 복구 가능한지만이 아니라, 사람과 프로세스가 얼마나 잘 맞춰 움직일 수 있는지까지 포함해서 말이죠.
결론: 위기가 오기 전에 무대를 지어라
다음 대형 장애를 준비하는 데 거대한 시뮬레이션 플랫폼이 꼭 필요한 건 아닙니다. 필요한 건 1시간, 탁자 하나, 종이 몇 장, 그리고 올바른 사람들입니다.
아날로그 인시던트 스토리 연극 상자는 다음을 돕습니다.
- 임원과 기술 대응자를 함께 훈련시키고
- 짧고 현실적이며, 결정 중심적인 장애 시나리오를 돌려 보고
- 같은 인시던트를 조건만 바꿔 재연해 숨은 의존성을 찾아내고
- **융합 보안(물리 + 디지털)**을 포함해 실제 세상의 복잡성을 반영하며
- 기술적 대응뿐 아니라 조정과 커뮤니케이션 역량까지 강화하게 합니다.
조직이 위기 상황에서 어떻게 움직이는지 위기 도중에 처음 배우는 것만큼 나쁜 타이밍은 없습니다. 접이식 무대를 지금 만들어 두고, 실제로 닥치기 전에 미래의 장애들을 미리 리허설해 보세요.