종이만으로 돌리는 혼돈 캐러셀: 고신뢰 팀을 위한 로우테크 로테이션 훈련
실제 프로덕션을 건드리지 않고도, 종이만 사용하는 ‘혼돈 캐러셀’ 훈련으로 팀의 신뢰성 직감(shared reliability intuition)을 키우고, 인시던트 역할을 연습하며, 장애·보안 대응 역량을 강화하는 방법.
종이만으로 돌리는 혼돈 캐러셀: 고신뢰 팀을 위한 로우테크 로테이션 훈련
신뢰성(Reliability) 훈련은 종종 이렇게 양자택일처럼 보입니다. “아무것도 안 하고 운에 맡기기” vs “비싼 카오스 엔지니어링 프로그램을 구축하기”.
그런데 대부분의 팀이 그냥 지나치는, 거대한 중간 지대가 하나 있습니다. 바로 종이만 사용하는 혼돈 캐러셀(paper-only chaos carousel) 입니다.
이것은 기술 장비가 거의 필요 없는 테이블탑(tabletop) 스타일의 훈련으로, 팀이 실제 같은 장애나 공격 시나리오를 인쇄된 카드로만 따라가 보면서 연습하는 방식입니다. 스크립트도 없고, 테스트 환경도 없고, 실서비스에 위험을 주는 실험도 없습니다. 사람, 종이, 대화만 있으면 됩니다.
잘 설계된 혼돈 캐러셀은 신뢰성, 보안, 운영 역량을 위한 가벼운 연습장 역할을 합니다. 팀이 시스템이 어떻게 장애를 일으키고 복구되는지, 어떻게 대응하고 개선해야 하는지에 대한 공유 직감을 키우도록 도와줍니다. 실제 인시던트가 발생할 때까지 마냥 기다릴 필요가 없습니다.
이 글에서는 종이만 사용하는 혼돈 캐러셀이 무엇인지, 왜 효과적인지, 어떻게 운영하는지, 그리고 더 큰 인시던트 훈련 프로그램 안에 어떻게 녹여 넣을 수 있는지를 설명합니다.
종이만 사용하는 혼돈 캐러셀은 무엇인가?
종이만 사용하는 혼돈 캐러셀은 다음과 같이 진행되는 구조화된 그룹 연습입니다.
- 실제 시스템을 건드리지 않고, 인쇄된 시나리오 카드로 인시던트를 시뮬레이션합니다.
- 참여자들은 장애를 어떻게 탐지·진단·대응할지 말로 풀어가며 논의합니다.
- 각 라운드마다 역할을 교대하면서, 인시던트 커맨더(IC), 온콜, 커뮤니케이션 담당 등 다양한 역할을 모두가 번갈아 가며 연습합니다.
- 각 시나리오 후에 짧은 **디브리핑(회고)**을 진행해 배운 점과 개선점을 정리합니다.
쉽게 말해, 클라우드 인프라 대신 포스트잇과 출력물로 만든 인시던트용 플라이트 시뮬레이터라고 보면 됩니다.
비용이 거의 들지 않고, 준비가 빠르며 위험도 없기 때문에, 혼돈 캐러셀은 정기적으로 운영할 수 있습니다. 월 1회, 혹은 더 작은 단위로 쪼개서 주간으로도 가능합니다.
왜 종이 훈련을 해야 할까?
이미 온콜도 하고, 포스트모템도 하는데, 여기에 종이까지 더해야 할까요?
1. 공유된 신뢰성 직감을 만든다
많은 조직에서는 시스템이 어떻게 망가지고, 어떻게 복구되는지 깊이 이해하는 사람은 소수뿐입니다. 나머지는 대부분 런북에 적힌 대로만 움직이는 경우가 많습니다.
혼돈 캐러셀은 다음을 돕습니다.
- 장애 양상, 증상, 완화 방법에 대해 여럿이 함께 추론하게 만듭니다.
- 시니어들이 갖고 있던 **암묵지(implicit knowledge)**를 끌어내어, 다른 사람들이 자연스럽게 흡수하도록 합니다.
- 신뢰성과 리스크를 이야기할 때 사용할 수 있는 공통 언어를 만들어 줍니다.
시간이 지나면 팀 전체가 문제와 트레이드오프를 보다 일관되게 예상하고 판단하게 되고, 실제 인시던트는 덜 혼란스럽고 더 의도적인 대응이 가능해집니다.
2. 부담 없이 연습할 수 있다
실제 인시던트는 언제나 고위험·고스트레스 상황입니다. 사람들은 보통:
- 이전에 남들이 했던 것만 따라 하려 하거나,
- 중요한 역할을 맡는 것을 피하거나,
- 더 나은 프로세스를 시도하기보다, 익숙한 안전한 선택지만 고릅니다.
종이만 사용하는 환경은 심리적으로 안전한 공간입니다.
- 프로덕션을 망가뜨릴 일이 없습니다.
- 실수해도 비용이 거의 없고, 언제든 되돌릴 수 있습니다.
- 시나리오를 멈추거나, 되감거나, 다시 해볼 수 있습니다.
이런 환경은 사람들에게 새로운 역할과 행동을 실험해 볼 수 있는 최적의 장이 됩니다.
3. 더 많은 조직 구성원을 포함시킬 수 있다
실제 인시던트는 보통 온콜 담당자와 한두 명의 전문가를 중심으로 돌아갑니다.
하지만 혼돈 캐러셀에는 다음과 같은 다양한 역할을 초대할 수 있습니다.
- 엔지니어 (백엔드, 프론트엔드, 데이터, 인프라)
- SRE / DevOps
- 보안 및 위협 대응팀
- 고객지원, CS, 어카운트 매니저
- 프로덕트, 심지어 마케팅(대외 커뮤니케이션 연습용)
이렇게 폭넓은 참여를 통해, 조직 구성원 모두가 인시던트 동안 무슨 일이 벌어지는지, 그리고 자신의 역할이 회복탄력성(resilience)에 어떻게 기여하는지를 이해할 수 있게 됩니다.
좋은 혼돈 캐러셀 시나리오를 설계하는 법
혼돈 캐러셀의 가치 대부분은 시나리오의 질에서 나옵니다. “웹사이트 다운” 같은 지나치게 일반적인 카드 대신, 당신의 시스템과 위협 모델에 맞춘 맞춤형 시나리오를 만들어야 합니다.
현실적인 장애 양상에 기반하라
다음과 같이 이전에 실제로 겪었거나, 충분히 일어날 법한 인시던트를 기반으로 시나리오를 만드세요.
- DDoS 공격: API 게이트웨이 또는 로그인 엔드포인트를 겨냥한 공격
- 랜섬웨어: 내부 파일 공유나 중요한 CI/CD 아티팩트가 암호화되는 상황
- 연쇄 장애(cascading outage): 데이터베이스, 메시지 큐, 서드파티 API 같은 단일 의존성이 실패하면서 여러 서비스에 문제가 번지는 경우
- 설정 오류(misconfiguration) 예:
- 피처 플래그 롤아웃 범위를 잘못 지정
- 방화벽이나 ACL 설정을 잘못 변경
- 오토스케일링, 레이트 리밋(rate limit) 값을 잘못 설정
각 시나리오별로 다음을 정의합니다.
- 초기 증상: 온콜이 처음 보게 되는 것은 무엇인가? (알림, 고객 문의, 대시보드 스파이크 등)
- 시스템 영향: 기술적·사용자 관점에서 무엇이 어떻게 망가졌는가?
- 비즈니스 영향: 매출 리스크? 데이터 손실? 컴플라이언스 위반? 평판 리스크?
- 제약 조건: 시간 압박, 주요 인력 부재, 일부 모니터링/툴링 장애 등
짧은 시나리오와 긴 시나리오를 섞어라
다양한 유형의 프롬프트 포트폴리오를 준비해 두면 좋습니다.
- 10분짜리 마이크로 시나리오: 한두 가지 의사결정에만 집중하는 짧은 시나리오 (예: 1차 트라이에이지, 에스컬레이션, 초기 커뮤니케이션 등)
- 30–45분짜리 딥다이브 시나리오: 인시던트가 여러 단계로 흘러가는 스토리라인 (탐지 → 진단 → 완화 → 복구 → 후속 조치)
이렇게 여러 길이의 시나리오를 준비해두면, 그때그때 주어진 시간에 맞춰 세션 구성을 유연하게 조정할 수 있습니다.
혼돈 캐러셀 운영 방법: 단계별 가이드
바로 가져다 쓸 수 있는 간단한 진행 구조를 소개합니다.
1. 자료 준비하기
세션 전에 다음을 준비합니다.
- 시나리오 카드: 라운드마다 1장씩, 다음 내용을 인쇄해 둡니다.
- 배경 상황과 시작 증상
- 알려진 정보 / 아직 모르는 정보
- 가상의 로그, 메트릭 스크린샷, 알림 텍스트 등 관련 데이터 조각
- 역할 카드: 각 라운드에서 사용할 역할을 간단히 설명해 둡니다.
- 인시던트 커맨더(Incident Commander, IC)
- 온콜 엔지니어
- 커뮤니케이션 리드(내부 + 외부)
- 보안팀 혹은 특정 팀과의 연락 담당(Liaison)
- 서기 / 기록 담당(Scribe)
추가로 아래와 같은 것들을 준비해도 좋습니다.
- 시스템을 그려볼 수 있는 빈 종이, 화이트보드
- 현재 사용 중인 런북 / 플레이북 출력본 (참고용)
2. 그룹 브리핑 (5–10분)
세션 시작 전에 기대치를 명확히 합니다.
- 이건 시험이 아니라 연습입니다.
- 목표는 비난이 아니라 학습과 개선입니다.
- 각자 “무엇을 할지, 왜 그렇게 할지”를 생각을 말로 풀어가며 설명해야 합니다.
진행 흐름을 간단히 설명합니다.
- 역할을 정한다.
- 시나리오를 공개한다.
- 대응 과정을 말로 풀어간다.
- 짧게 디브리핑한다.
- 역할을 바꿔가며 반복한다.
3. 시나리오 진행 (라운드당 15–40분)
각 라운드는 다음과 같이 진행합니다.
- 초기 상태 공개: 시나리오 카드를 나눠주고, 모두 함께 큰 소리로 읽습니다.
- IC가 진행을 리드하도록 합니다. IC는 다음을 주도합니다.
- 상황에 대한 추가 질문 정리
- 첫 액션(대시보드 확인, 다른 팀 호출, 인시던트 심각도 선언 등)
- 커뮤니케이션 결정(Slack 채널 개설, 상태 페이지 업데이트, 고객 메일 발송 여부 등)
- 스토리를 전개합니다. 팀이 대응해 나가는 동안, 진행자는 시스템 역할을 대신하며 추가 카드를 공개할 수 있습니다.
- 새로운 알림
- 고객이나 이해관계자의 메시지
- 예상치 못한 부작용
- 현실적이되 초점을 유지합니다. 즉흥극처럼 흘러가지 않도록 하고, 실제 시스템에서 있을 법한 행동에 기반해 전개합니다.
실제 도구·대시보드·문서를 머릿속에 떠올리며 언급하게 하되, 굳이 로그인해서 클릭까지 할 필요는 없습니다. 목표는 클릭 동작이 아니라 사고 과정을 시뮬레이션하는 것입니다.
4. 라운드마다 역할 교대하기
각 시나리오가 끝나면:
- IC, 온콜, 커뮤니케이션, 서기 등 역할을 서로 바꿉니다.
- 평소에 조용한 사람도 “이번엔 IC를 맡아보자”고 명시적으로 지지하면서 핵심 역할을 맡겨 봅니다.
이렇게 역할을 돌려가며 연습하면, 실제 인시던트에서는 보기만 하던 책임들을 직접 수행해 본 사람이 훨씬 많아지게 됩니다.
대화를 구체적인 개선으로 연결하기
혼돈 캐러셀에서 가장 중요한 순간은 각 시나리오 이후에 진행하는 디브리핑입니다.
1. 디브리핑 구조 잡기 (시나리오당 10–15분)
디브리핑 때는 다음과 같은 질문들을 일관되게 던져 보세요.
- 탐지(Detection)
- 실제 오늘이라면, 우리는 이 장애를 어떻게 처음 알아차릴까?
- 지금 설정된 알림/모니터링으로는 충분히 빨리 잡아낼 수 있을까?
- 진단(Diagnosis)
- 우리는 어디부터 먼저 살펴볼까? 의미 없던 곳에 시간을 쓴 부분은 없었나?
- 어떤 로그/메트릭/트레이스가 도움이 될까? 지금은 그게 있는가, 없는가?
- 대응(Response)
- 인시던트 커맨더는 명확했는가? 의사결정은 제때 내려졌는가?
- 이해관계자와 고객에게 효과적으로 커뮤니케이션했는가?
- 프로세스 & 툴링(Process & Tools)
- 관련 런북·플레이북이 존재했는가? 실제로 도움이 되었는가?
- 누구에게 연락해야 하는지, 어떻게 에스컬레이트해야 하는지 모두 알고 있었는가?
그리고 다음과 같은 구체적 후속 조치를 반드시 기록합니다.
- 새로운 런북 / 플레이북 작성 또는 기존 문서 업데이트
- 알림 임계값(threshold) 조정, 누락된 모니터링 추가
- 온콜 가이드, 에스컬레이션 체계 개선
- 특정 툴이나 시스템에 대한 추가 교육 필요성 식별
2. 개선 사항을 지속적으로 추적하기
아주 단순한 로그라도 좋습니다. 다음 내용을 꾸준히 남겨 두세요.
- 어떤 시나리오를 돌렸는지
- 어떤 문제가 드러났는지
- 어떤 변경·개선을 실제로 적용했는지
몇 달 뒤 비슷한 시나리오를 다시 돌려 보면, 설령 종이 기반이더라도 **MTTR(Mean Time To Recovery, 평균 복구 시간)**과 의사결정의 질이 실제로 좋아졌는지 가늠해 볼 수 있습니다.
더 큰 훈련 프로그램 안에 혼돈 캐러셀을 녹여 넣기
종이 기반 훈련은 강력하지만, 전체 퍼즐의 한 조각일 뿐입니다. 다른 형태의 연습과 함께 묶일 때 가장 큰 효과를 냅니다.
1. 실제 시뮬레이션과 페어링하기
혼돈 캐러셀은 말 그대로 필드에 나가기 전, 전술을 리허설하는 장입니다.
- 먼저 종이 훈련을 통해 “무엇을 할지”를 논의하고 합의합니다.
- 그 다음에 스테이징이나 안전한 프로덕션 환경에서 **게임데이(game day)**나 실제 **장애 주입(fault injection)**을 돌려 보며 “어떻게 동작하는지”를 검증합니다.
종이 훈련에서 나오는 인사이트는, 충분한 사전 준비 없이 라이브 카오스 이벤트를 돌릴 경우 위험해질 수 있는 구멍과 리스크를 미리 드러내 줍니다.
2. 런북·플레이북과 직접 연결하기
각 혼돈 캐러셀 세션은 다음을 목표로 해야 합니다.
- 기존 런북을 실제로 참고해 보게 만들고,
- 문서가 없거나, 낡았거나, 애매한 부분을 드러내며,
- 그 결과로 문서를 개선하는 구체적 태스크를 만들어 내는 것.
시간이 지나면, 혼돈 캐러셀에서 돌린 시나리오들과 런북·플레이북은 하나의 피드백 루프를 형성하게 됩니다. 시나리오는 문서를 테스트하고, 문서는 더 많은 시나리오를 소화할 수 있게 진화합니다.
3. 일회성이 아니라 리듬으로 만들기
준비도와 MTTR에 실제 영향을 주려면, 혼돈 캐러셀은 한 번 하고 끝내는 이벤트가 아니라, 팀의 리듬이 되어야 합니다.
- 주요 시스템 영역별로 월 1회 등 정기적인 주기를 정해 돌립니다.
- 매번 어떤 팀·도메인(결제, 인증, 검색, 데이터 파이프라인 등)을 포커스할지 바꿔가며 진행합니다.
- 세션 결과를 팀의 신뢰성 로드맵에 반영합니다.
이 리듬이 자리 잡으면 다음과 같은 변화를 체감하게 됩니다.
- 실제 인시던트에서 더 빠르고 자신 있는 대응
- 명확한 의사결정을 통해 MTTR 단축
- “장애 대비”가 예외적인 일이 아니라, 너무나 당연한 일로 받아들여지는 강한 신뢰성 문화 형성
시작하기: 최소 구성으로 여는 첫 세션
커밋이나 예산부터 따낼 필요는 없습니다. 다음 주에 바로 첫 번째 종이 기반 혼돈 캐러셀을 돌리고 싶다면, 이렇게 시작해 보세요.
- 지난 6–12개월 동안 있었던 실제 인시던트 하나를 고릅니다.
- 그 사건을 두 장짜리 시나리오 카드로 바꿉니다.
- 카드 1: 증상 + 부분적인 정보
- 카드 2: 실제 원인을 드러내는 추가 정보
- 엔지니어링, 운영, 보안에서 4–6명을 초대합니다.
- IC, 온콜, 커뮤니케이션, 서기 역할을 나눕니다.
- 20–25분 동안 시나리오를 따라가며 대응 과정을 말로 풀어봅니다.
- 15분 동안 디브리핑을 하며, 3–5개의 구체적인 개선 사항을 도출합니다.
이렇게 한 번만 해 보면, 전체 패턴을 바로 감 잡을 수 있습니다. 그다음부터는:
- 시나리오를 더 추가하고,
- 역할 로테이션을 더 다양하게 시도하고,
- 더 많은 팀을 참여시키면 됩니다.
결론
종이만 사용하는 혼돈 캐러셀은 팀의 신뢰성 근육을 키우기 위한 저비용·고효율 방법입니다.
현실적인 장애·공격 시나리오를 종이 위에 올려놓고, 핵심 역할을 번갈아 맡아 보며, 각 연습을 런북·모니터링·프로세스 개선으로 연결해 나가면, 인시던트 대응을 위한 안전하고 반복 가능한 연습장이 생깁니다.
공들인 카오스 엔지니어링 플랫폼이 없어도, 팀의 공유된 신뢰성 직감을 키우는 일은 지금 당장 시작할 수 있습니다. 필요한 것은 다음뿐입니다.
- 실제 시스템과 위협 모델에 기반한, 잘 설계된 시나리오
- 대화와 역할 교대를 위한 단순한 진행 구조
- 매 라운드 끝에 호기심을 가지고 진행하는, 짧지만 집중된 디브리핑
그 이후의 모든 것—더 짧아진 MTTR, 더 침착한 인시던트 대응, 더 강한 신뢰성 문화—은 결국 지속적인 연습의 결과물입니다.