골판지 관제탑: 종이 전쟁실로 더 안전한 장애 대응을 프로토타이핑하기
저렴한 골판지·종이 ‘전쟁실’이 형식적인 테이블탑 연습을, 현실적인 협업 설계 연습으로 바꿔 진짜 회복탄력성을 쌓는 방법.
골판지 관제탑: 종이 전쟁실로 더 안전한 장애 대응을 프로토타이핑하기
장애 대응 연습이 슬라이드 덱, 회의실, 그리고 “내가 보기엔 이때 이렇게 할 듯?”이라고 말하는 몇 명의 지루한 사람들로 끝난다면, 신뢰성은 사실상 운에 맡기고 있는 셈이다.
실제 장애는 지저분하다. 사람들이 여러 시간대에 흩어져 있고, 도구는 절반쯤 고장 나 있고, Slack은 불타고 있으며, 그 멀쩡해 보이던 런북은 갑자기 소설처럼 느껴진다. 그런데도 대부분의 조직은 현실의 혼돈과는 거의 닿아 있지 않은 추상적인 테이블탑(tabletop) 연습으로만 “연습”을 한다.
더 나은 방법이 있다. **골판지 관제탑(cardboard control tower)**을 만드는 것이다.
진짜 탑을 세우라는 말이 아니라, 골판지·마커·포스트잇으로 만드는 **물리적인 1회용 “종이 전쟁실(paper war room)”**에서 장애를 프로토타이핑하라는 뜻이다. 비용은 거의 들지 않고, 부담은 낮으며, 놀라울 만큼 강력하다.
이 글에서는 물리적 시뮬레이션이 왜 효과적인지, 어떻게 운영하는지, 그리고 이를 통해 장애 대응을 단순 체크박스 의식에서 핵심 신뢰성 실천으로 어떻게 진화시킬 수 있는지를 살펴본다.
왜 전통적인 테이블탑 연습은 한계가 있는가
고전적인 테이블탑 연습은 보통 이런 식이다.
- 가상의 장애를 설명하는 슬라이드 덱
- 시나리오를 이끄는 단 한 명의 퍼실리테이터
- “이때는 아마 이렇게 할 걸요”라며 이야기하는, 한 방(혹은 Zoom)에 모인 소수의 사람들
이런 세션의 문제는 다음과 같다.
- 너무 추상적이다 – 사람들은 실제로 새벽 3시에 깨워졌을 때, 피곤하고 맥락이 없을 때 어떻게 행동하는지가 아니라, 이상적인 모습을 말로만 설명한다.
- 너무 중앙집중적이다 – 모두가 한 (가상) 방에 모여 있지만, 실제 장애는 분산되어 일어난다. 누군가는 온콜 중이고, 누군가는 출퇴근 중이고, 누군가는 여러 채널에 반쯤만 들어와 있다.
- 너무 선형적이다 – 실제 장애는 한 줄짜리 스토리로 흘러가지 않는다. 정보는 늦게 도착하고, 도구는 말썽을 부리며, 의사결정 경로는 갈라진다.
결과적으로 우리가 얻는 것은 실천이 아니라 이론이다. 사람들은 “연습 잘 끝냈다”는 느낌으로 방을 나가지만, 조직은 실제 압박 상황에서 어떻게 행동할지 제대로 리허설해 보지 못한 상태 그대로다.
종이 전쟁실: 장애를 눈에 보이게 만들기
종이 전쟁실은 장애가 슬라이드가 아니라, 벽과 테이블 위에서 전개되는 물리적인 시뮬레이션 공간이다. 예를 들면:
- 화이트보드나 벽은 시스템 맵이 된다.
- 골판지 조각은 서비스, 팀, 또는 커뮤니케이션 채널이 된다.
- 포스트잇은 이벤트, 알람, 의사결정, 핸드오프를 나타낸다.
이런 “골판지 관제탑” 방식은 연습의 분위기를 완전히 바꾼다.
- 촉각적이다: 장애가 눈에 보인다. 손가락으로 가리키고, 옮기고, 묶고, 그 복잡함을 실제로 느낄 수 있다.
- 협업적이다: 사람들은 일어나서 걷고, 모이고, 이야기한다. 턴제 Q&A가 아니라, 진짜 팀 스포츠가 된다.
- 저위험·저비용이다: 결국 다 골판지와 종이일 뿐이다. 공식적인 무언가를 깨뜨리는 것도 아니고, 언제든 다시 배열할 수 있다.
이제 더 이상 장애 대응을 말로만 이야기하지 않는다. 실제로 몸으로 리허설하는 것이다.
1회용 아티팩트가 ‘단점’이 아니라 ‘장점’인 이유
골판지 관제탑의 핵심은 모든 것이 1회용이고, 쉽게 재구성 가능하다는 점이다.
- 서비스: 인덱스 카드나 골판지 직사각형
- 역할: 색깔 배지나 포스트잇
- 커뮤니케이션 경로: 실, 화살표, 혹은 마커 선
- 이벤트: 포스트잇에 적는 타임스탬프
어떤 것도 영구적인 것처럼 느껴지지 않기 때문에, 팀은 훨씬 더 자유롭게 다음을 시도할 수 있다.
- 새로운 흐름을 실험 – “초기 트라이에지를 다른 역할이 한다면?” 카드를 옮겨 보고 결과를 본다.
- 역할을 안전하게 재설계 – “별도의 Status Commander(상태 총괄)를 두면 어떨까?” 포스트잇 하나 추가하고 이번 라운드에서 시험해 본다.
- 가정에 도전 – “여기 승인 4단계가 정말 다 필요할까?” 과감히 줄 긋고, 그 영향을 시뮬레이션해 본다.
이렇게 장애 대응을 설계 문제로 다루지, 신성불가침한 절차로 취급하지 않는다. 이런 사고방식이 있어야 런북이 현실과 계속 맞춰진 상태로, 살아 있는 문서로 남을 수 있다.
골판지 관제탑 세션 운영 방법
비싼 도구는 필요 없다. 필요한 것은 다음뿐이다.
- 필기 가능한 표면이 있는 방(화이트보드 또는 큰 롤 페이퍼)
- 인덱스 카드, 포스트잇, 마커, 테이프
- 퍼실리테이터 1명과 몇 가지 참여 역할(예: Incident Commander, 커뮤니케이션 담당, 도메인 전문가들)
1. 시스템과 사람을 맵으로 그리기
먼저 시뮬레이션할 세계를 그린다.
- 핵심 서비스를 카드로 만들어 벽에 붙인다(API, DB, Auth, 결제 등).
- 각 서비스의 담당 팀을 적어 연결한다.
- 커뮤니케이션 채널을 그린다: Slack 장애 채널, 온콜 전화, Status Page, 티켓 시스템 등.
완벽한 아키텍처 다이어그램을 만들려 하지 마라. 목표는 정보와 책임이 어떻게 흐르는지 보여 주는 실용적인 지도다.
2. 시나리오 선택하기
현실적이지만 세상 끝날 일은 아닌 수준의 장애를 고른다. 예를 들면:
- 핵심 API의 레이턴시 스파이크
- 특정 리전 일부 장애
- 잘못 설정된 Feature Flag로 인한 고객 영향
그리고 포스트잇에 간단한 시작 상태를 적는다.
- “09:00 – Alert: us-east-1에서 API latency > 2s”
- “09:02 – 고객지원에서 로그인 실패를 보고함”
3. 실제(또는 압축된) 시간으로 시뮬레이션하기
시나리오를 시간 박스로 나눠 진행한다(예: 실제 5분당 장애 시간 5분).
- 퍼실리테이터가 새로운 이벤트를 투입한다: 알람, 로그, 고객 신고, 도구 장애 등.
- 참여자들은 실제로 존재하는 커뮤니케이션 경로와 역할 만 사용해 대응한다.
- 모든 행동은 물리적으로 표현한다: 카드를 옮기고, 포스트잇을 붙이고, 선을 그린다.
목표는 다음 질문에 답하는 것이다. “이 장애는 실제로 우리 시스템과 조직 안에서 어떻게 전파되는가?”
4. 의사결정, 지연, 혼선을 추적하기
시나리오가 전개되는 동안 다음을 잡아 낸다.
- 의사결정이 어디에서 막혔는가?
- 정보가 어디에서 누락되거나, 늦게 도착하거나, 중복되었는가?
- 어떤 역할이 과부하였거나 모호했는가?
이 순간들을 눈에 띄는 색의 포스트잇으로 표시한다(예: 지연은 빨간색, 혼선은 주황색, “의외의 우회로”는 파란색). 이들이 곧 개선 아이디어의 금광이 된다.
5. 검사관이 아니라 디자이너처럼 회고하기
연습이 끝나면 한 걸음 물러서서, 벽 전체를 하나의 프로토타입처럼 바라본다.
- 무엇을 단순화하거나 합치거나 없앨 수 있을까?
- 어디에 자동화나 더 명확한 오너십을 추가해야 할까?
- 어떤 런북은 현실과 잘 맞았고, 어떤 것은 이미 구시대의 유물이 되었는가?
이 인사이트를 곧바로 실제 변경으로 연결한다. 런북 업데이트, 역할 정의 명확화, 에스컬레이션 경로 수정 등을 하고, 다음 드릴에서 이를 다시 검증한다.
체크박스용 테이블탑에서 핵심 신뢰성 연습으로
대부분의 조직은 드릴을 컴플라이언스를 위한 체크박스로 취급한다.
- 1년에 한 번 테이블탑 연습
- 참석자 서명 받아 두기
- 슬라이드 정리해서 보관
골판지 관제탑은 장애 연습을 반복적인 장인 작업으로 다루게 만든다.
- 정기적인 드릴: 특정 장애 양상에 초점을 맞춘, 짧고 구조화된 세션을 매달 혹은 분기마다 진행한다.
- 런북 리허설: 하나의 런북만 골라, 실제로 몸으로 한 단계씩 밟아 나가 본다. 사람들이 어디에서 막히는가? 어떤 정보가 당연히 있을 거라 가정하지만 실제론 없는가?
- 시간 제한 시뮬레이션: 60–90분짜리 드릴에서 시간을 실제 변수로 둔다. “완벽하진 않지만 충분히 좋은” 결정을 압박 속에서 내리는 연습을 한다.
이를 꾸준히 하는 팀은 보통 다음과 같은 특징을 보인다.
- SLO를 더 잘 지킨다. 조기 대응을 언제, 어떻게 해야 할지 몸으로 알고 있기 때문이다.
- 장애 시간이 짧아진다. 조정·협업 패턴이 이미 연습된 상태라, 그때그때 새로 발명할 필요가 없다.
- 심리적 안전감이 커진다. 이미 비슷한 “영화”를 여러 번 봤고, 각자 해야 할 역할을 알고 있기 때문이다.
진짜 회복탄력성과 근육 기억 만들기
머리로만 이해하는 것과 실제 운영 준비 태세는 다르다.
현실 세계의 조건—시간 압박, 불완전한 정보, 도구 장애—을 흉내 낸 공격·대응 시뮬레이션이야말로 진짜 회복탄력성을 만든다. 종이 전쟁실은 바로 이런 연습을 위한 안전한 샌드박스를 제공한다.
- 기본 Incident 채널이 시끄럽거나 아예 죽었을 때 어떻게 되는지 보고 싶은가? 벽에서 그 채널을 과감히 지우고, 다른 경로로 우회해 보라.
- 팀이 일부만 남은 상황(휴가, 병가, 시간대 차이)에서도 버틸 수 있는지 궁금한가? 역할 카드를 몇 개 빼고 그대로 시나리오를 돌려 보라.
- 새로운 역할(예: 고객 담당 Liaison)을 두면 도움이 될지 알고 싶은가? 시뮬레이션 중간에 그 역할을 추가하고, 실제로 어떤 변화가 생기는지 본다.
모든 게 골판지와 종이이기 때문에, 실제 시스템을 망칠 걱정 없이 **“브레이킹 체인지”**를 마음껏 실험해 볼 수 있고, 그중 가장 좋은 패턴만 골라 실제 운영에 들여올 수 있다.
시간이 흐를수록 팀의 온콜 준비도는 “이 상황이면 아마 이렇게 하겠지”에서 “이 패턴은 우리가 실제로 여러 번 연습해 봤다”로 바뀐다.
다음 주에 바로 시작하는 방법
작게 시작하는 데에 경영진 승인은 필요 없다. 이렇게 해 보자.
- 중요하게 여기는 서비스 하나를 고른다.
- 4–6명을 초대한다: 최소 한 명의 온콜 담당, 한 명의 팀 리드, 그리고 지원이나 프로덕트 쪽에서 한 명.
- 화이트보드가 있는 방을 90분 예약한다.
- 준비물: 인덱스 카드, 마커, 포스트잇, 테이프.
- 하나의, 적당한 수준의 시나리오만 돌려 보고, 딱 한 가지 질문에 집중한다: “커뮤니케이션과 조정은 어디에서 깨졌는가?”
그리고 결과를 다음 세 가지 범주로만 정리한다.
- 하나는 없앨 것 – 중복된 단계, 승인, 또는 도구.
- 하나는 명확히 할 것 – 오너십, 에스컬레이션 경로, 커뮤니케이션 채널 등.
- 하나는 다시 연습할 것 – 특히 까다로운 핸드오프나 진단 단계.
한 달 뒤에 다시 한다. 골판지를 바꾸고, 프로세스를 바꾸면서, 장애 대응이 점점 더 날카로워지는 것을 지켜보라.
결론: 손으로 만드는 설계 작업으로서의 신뢰성
장애 자체를 완전히 예측하는 것은 불가능하다. 하지만 그 대응 방식은 다르다.
골판지, 종이, 마커를 동원해 장애 연습을 손으로 만드는, 반복적인 설계 프로세스로 바꾸면 다음을 할 수 있다.
- 보이지 않던 시스템·사회적 역학을 눈앞에 드러낸다.
- 굳어 버린 가정과 오래된 런북을 찾아낸다.
- 분산된 팀 전체에 실질적인 근육 기억을 만든다.
- 신뢰성을 일회성 프로젝트가 아니라, 계속 진화하는 하나의 기술·공예로 다룬다.
골판지 관제탑은 미술·공예 시간이 아니다. 실제 장애가 터지기 전에 더 안전한 장애를 미리 프로토타이핑하는 장치다.
지금의 테이블탑 연습이 지나치게 깔끔하고 현실과 동떨어져 느껴진다면, 마커와 골판지, 그리고 빈 벽 하나만 준비하라. 다음 장애 상황에서 그 차이를 절실히 느끼게 될 것이다.