종이 실패 그린룸: 오픈 전 야간을 위한 사고 대응 리허설 백스테이지 의식
극장에서 영감을 받은 테이블탑 연습과 사고 대응 드릴을 활용해, 실제 프로덕션에 장애가 발생하기 전에 ‘백스테이지 그린룸’에서 안전하게 실패를 리허설하는 방법을 살펴봅니다.
종이 실패 그린룸: 오픈 전 야간을 위한 사고 대응 리허설 백스테이지 의식
극장에서 개막 공연(오프닝 나이트)에 리허설 없이 무대에 오르는 사람은 없습니다. 대본 리딩, 동선 맞추기(blocking), 테크 리허설, 드레스 리허설까지 여러 단계가 있죠. 실수는 초기에 환영받습니다. 그래야 실제 조명 아래에서 반복되지 않기 때문입니다.
하지만 많은 엔지니어링 조직에서는, 심각한 사고를 팀이 함께 제대로 경험하는 첫 순간이 곧바로 “오프닝 나이트”입니다. 역할은 모호하고, 커뮤니케이션은 즉흥적이며, ‘대본’이라고 해봐야 어딘가에 있는 오래된 런북을 어렴풋이 기억하는 정도에 그칩니다.
여기서 종이 실패 그린룸(Paper Failure Greenroom) 이 등장합니다. 실제 프로덕션이 깨지기 전에, 종이(또는 샌드박스) 위에서 안전하게 사고를 리허설하는 백스테이지 공간입니다.
사고는 오프닝 나이트, 테이블탑은 리허설
프로덕션 환경을 메인 무대로 생각해 봅시다. 고객은 관객입니다. 대규모 장애? 그건 아주 긴장감 높은 대형 공연의 첫날입니다.
하지만 신뢰할 수 있는 사고 대응 체계를 만드는 진짜 작업은 무대 뒤(offstage) 에서 벌어집니다.
테이블탑(tabletop) 연습은 가이드된, 저위험 토론 형식으로 가상의 사고 상황을 함께 밟아 나가는 연습입니다. 연극으로 치면 대본 리딩과 동선 리허설에 해당합니다. 이 연습은 다음과 같은 특징을 가집니다.
- 저비용: 복잡한 툴링은 필요 없습니다. 시나리오, 퍼실리테이터, 회의실(또는 줌)만 있으면 충분합니다.
- 저위험: 프로덕션에는 아무 영향도 주지 않습니다. 실제 시스템이 아니라 종이(또는 슬라이드) 위에서만 시뮬레이션합니다.
- 고학습: 실제 고객에게 영향이 가기 훨씬 전에, 프로세스·툴·가정의 빈틈을 드러내 줍니다.
테이블탑 연습의 목적은 실제 장애의 모든 디테일을 그대로 재현하는 데 있지 않습니다. 사고가 났을 때 엔지니어, SRE, 고객지원, 프로덕트, 리더십 등 출연진이 함께 어떻게 움직이는지를 연습하는 데 있습니다.
전체 사고 라이프사이클을 가로지르는 드릴 설계
좋은 리허설은 클라이맥스 장면만 다루지 않습니다. 이야기의 전체 흐름을 훑어봅니다. 사고 대응 드릴도 마찬가지로, 엔드 투 엔드 라이프사이클 전체를 다뤄야 합니다.
-
탐지(Detection)
- 처음 무엇이 잘못됐다는 걸 어떻게 알아차리나요?
- 누가 페이지를 받나요? 어떤 알람이 있고, 무엇이 부족한가요?
-
트리아지 & 분류(Triage & Classification)
- 심각도(severity)는 어떻게 판단하나요?
- 어떤 팀이 관여하나요? 누가 Incident Commander인가요?
-
조율 & 커뮤니케이션(Coordination & Communication)
- 팀 내부에서는 어떻게 상황을 공유하나요?
- 이해관계자와 고객에게는 어떻게 커뮤니케이션하나요?
-
완화 & 해결(Mitigation & Resolution)
- 가장 안전한 첫 행동은 무엇인가요?
- 런북과 과거 사고 기록은 어디에서 찾을 수 있나요?
-
종료 & 학습(Closure & Learning)
- 사고가 완전히 해결되었다는 걸 어떻게 확인하나요?
- 어떻게, 언제 회고(retrospective)를 진행하나요?
잘 설계된 시나리오는 팀이 이 모든 단계를 차례대로 밟도록 이끕니다. 목표는 “빠르게 해결해서 게임에서 이기는 것”이 아니라, 마찰 지점을 발견하는 것입니다.
- “이 시스템의 오너가 누군지 아무도 모른다.”
- “SEV-1이랑 SEV-2를 어떻게 구분하는지 합의가 없다.”
- “런북이 어디 있는지 아무도 모른다.”
- “상태 페이지(status page) 업데이트를 30분 동안 깜빡했다.”
이런 발견이 바로 금광입니다. 드레스 리허설 중에 대사를 까먹거나 조명 타이밍이 어긋난 걸 잡아내는 것과 같습니다. 개막 전에 발견했기 때문에 그 가치가 큽니다.
심각도 체계와 역할: 캐스팅 리스트와 대본
무대 위에서 누가 어떤 역할인지 아무도 모른다면, 공연은 절대 매끄럽게 진행될 수 없습니다.
일관되고 반복 가능한 사고 대응은 두 가지 기반 요소에 의존합니다.
1. 명확한 심각도(Severity) 체계
심각도 체계는 “상황이 얼마나 심각한지, 얼마나 빨리 대응해야 하는지”에 대한 공통 언어입니다. 예를 들어:
- SEV-1: 치명적 영향, 많은 고객이 영향을 받거나 심각한 데이터 리스크 존재. 전사 대응.
- SEV-2: 눈에 띄는 성능 저하, 의미 있는 고객 영향, 다만 일부 우회 방법은 존재.
- SEV-3: 경미한 저하 또는 국소적 영향, 근무 시간 내 대응.
- SEV-4: 화면상의 미관 문제 등 저영향 이슈, 일반 업무로 처리.
테이블탑 연습은 이런 정의를 압박 테스트합니다.
- 같은 시나리오를 놓고 모두가 동일한 심각도로 분류하나요?
- SEV-1이면 자동으로 무엇이 트리거되는지(예: 전용 incident 채널, 커뮤니케이션 리드 지정, 리더십 페이지 등)를 모두 알고 있나요?
모두가 심각도에 대한 같은 멘탈 모델을 공유하면, 실제 사고의 첫 10분이 훨씬 덜 혼란스럽습니다.
2. 정의된 역할과 책임
연극에는 연출, 무대 감독, 배우, 조명, 음향 등 역할이 분명합니다. 사고 대응에서도 이와 비슷한 명확한 역할이 필요합니다. 예를 들면:
- Incident Commander (IC) – 키보드를 잡는 사람이 아니라, 전체 대응 프로세스를 책임지는 사람입니다. 포커스를 유지하고, 작업을 할당하며, 타임라인을 관리합니다.
- Operations Lead – 기술적인 진단과 완화 조치를 주도합니다.
- Communications Lead – 이해관계자, 상태 페이지, 사내 채널 등에 대한 모든 공지를 담당합니다.
- Scribe – 타임라인과 주요 결정을 상세히 기록해 나중에 리뷰할 수 있게 합니다.
테이블탑 드릴은 사람들이 실제 압박이 오기 전에 이 역할들을 직접 연습해 볼 수 있는 장입니다. 예를 들어:
- 여러 세션에 걸쳐 참가자들이 역할을 번갈아 맡게 할 수 있습니다.
- 주니어 엔지니어가 멘토링을 받으며 IC 역할을 시도해 볼 수 있습니다.
- 역할이 헷갈리는 순간이 드러나면 책임 범위를 다시 다듬을 수 있습니다.
역할이 명확해지면, 사고 대응은 “모두가 한꺼번에 떠드는 회의”에서 “조직된 공연”으로 바뀝니다.
리허설을 통한 심리적 안전감 구축
사고는 본질적으로 스트레스를 유발합니다. 새벽 3시 페이지, 화난 고객 메시지, 리더십의 잇따른 업데이트 요청… 특히 온콜 경험이 적은 엔지니어에게는 상당한 부담입니다.
정기적인 시뮬레이션은 익숙함을 통해 심리적 안전감을 만들어 줍니다.
사람들이 다음을 경험했다면:
- 비슷한 상황을 리허설에서 이미 한 번 겪어봤고,
- 사고를 선언하고 역할을 맡아보는 연습을 했으며,
- 커뮤니케이션 패턴과 에스컬레이션 경로를 여러 번 밟아봤다면,
실제 사고는 완전한 혼돈이라기보다, 이미 알고 있는 상황의 고강도 버전처럼 느껴집니다.
그 결과 다음과 같은 것들이 줄어듭니다.
- 다른 사람들 앞에서 “실수할까 봐” 느끼는 두려움
- 주도권을 잡거나 발언하는 데의 주저함
- 알람이 쏟아질 때의 인지 과부하
그리고 다음과 같은 것들이 늘어납니다.
- 툴과 런북을 실제로 사용하는 데 대한 자신감
- 팀이 비난보다는 지원을 해줄 거라는 신뢰
- 불확실함을 솔직히 드러내려는 의지(“잘 모르겠다”가 허용되는 분위기)
그린룸은 배우가 긴장을 풀고, 캐릭터에 몰입하며, 떨림을 털어내는 공간입니다. 테이블탑 세션도 온콜 인력에게 그런 역할을 해야 합니다.
“드릴을 플레이한다” 마인드셋: 빈번하게, 현실적으로, 몰입감 있게
진짜 가치를 얻으려면 드릴을 일회성 컴플라이언스 체크가 아니라, 정기적인 연습으로 취급해야 합니다.
“드릴을 플레이한다(play a drill)”는 마인드셋을 가져보세요.
-
빈번하게(Frequent)
- 작고 집중된 연습을 매월 또는 격주로 진행합니다.
- 시스템, 심각도, 참여자를 번갈아가며 교체합니다.
- 대부분의 세션은 사람들의 시간을 존중해 60–90분 안에 끝냅니다.
-
현실적으로(Realistic)
- 실제로 있었던 사고(자신들의 것이든 공개된 사례든)를 기반으로 시나리오를 만듭니다.
- 모호성을 포함합니다. 상충하는 알람, 불완전한 데이터, 불분명한 소유권 등.
- 실제 제약을 반영합니다. 불완전한 대시보드, 노이즈 많은 로그, 시간 압박 등.
-
몰입감 있게(Immersive)
- 실제 사용하는 툴을 그대로 씁니다. incident 슬랙 채널, 티켓 시스템, 상태 페이지 초안 등.
- 모두가 실서비스 때와 같은 실제 역할을 그대로 수행하게 합니다.
- “10분이 더 지났고, 에러율이 두 배로 올랐습니다”처럼 시간 점프를 넣어 속도를 유지합니다.
-
실패해도 안전하게(Safe to Fail)
- 드릴을 평가가 아니라 학습 공간으로 명시적으로 규정합니다.
- 실수 지적 대신, “X에 아무도 접근 권한이 없다는 걸 알아냈다” 같은 문제 제기를 장려합니다.
리허설이 실제에 가까울수록, 오프닝 나이트는 “특별하지만 낯설지 않은 공연”에 더 가까워집니다. 중요하긴 하지만, 압도적이진 않은 상태가 됩니다.
리허설을 학습으로 전환하기: 사후 리뷰
연습 자체는 가치의 절반에 불과합니다. 나머지 절반은 그 후에 무엇을 하느냐에서 나옵니다.
모든 것이 생생할 때, 15–30분 정도의 짧은 사후 리뷰(post-exercise review) 를 진행하세요.
-
스토리 재구성
- 어떤 일이 단계별로 일어났나요?
- 문제를 처음 인지한 시점은 언제였나요?
- 어떤 결정을 내렸고, 그 이유는 무엇이었나요?
-
잘 된 점 강조
- 매끄러운 핸드오프? 훌륭한 IC 리더십? 탄탄한 고객 공지?
- 실제로 도움이 된 툴이나 런북은 무엇이었나요?
-
갭과 리스크 드러내기
- 빠져 있는 알람이나 대시보드
- 불분명한 오너십이나 역할 혼선
- 승인·커뮤니케이션 과정에서의 병목
-
구체적인 개선 항목 정의
- 심각도 정의나 역할 설명 업데이트
- 런북·알람 추가 또는 개선
- 구조적인 개선을 위한 후속 티켓 생성
-
학습 내용 광범위 공유
- “이번 리허설에서 X를 배웠고, 그래서 Y를 바꾼다”는 식으로 조직 전체에 요약을 공유합니다.
- 온콜 팀을 넘어, 조직 전반의 리스크 인식(organizational risk awareness) 을 높이는 계기로 삼습니다.
이 리뷰를 ‘대본 수정’이라고 생각하세요. 각 세션이 다음 공연을 더 단단하고, 명확하고, 덜 놀랍게 만들어 줍니다.
시작하기: 첫 번째 종이 실패 그린룸 세션
거대한 프로그램이 없어도 됩니다. 작게 시작하세요.
-
시스템과 시나리오 선택
- 예: 피크 시간대 결제 처리 지연(latency)이 급증한다.
-
캐스트 정의
- IC, Ops Lead, Comms Lead, Scribe, 그리고 퍼실리테이터를 정합니다.
- 관련 팀에서 몇 명의 옵저버를 초대합니다.
-
대본이 아닌 ‘비트(beat)’ 준비
- 핵심 단계만 잡아둡니다. 초기 알람, 고객 제보, 영향 확산 등.
- “DB CPU가 95%까지 치솟는다”와 같이 새 정보를 주입할 타이밍을 미리 정합니다.
-
60분 동안 진행
- 탐지, 트리아지, 완화, 커뮤니케이션, 종료까지 한 바퀴를 돕니다.
- 의도를 설명하기 위해 잠시 멈출 수는 있지만, 지나친 교정으로 흐름을 끊지는 않습니다.
-
리뷰 및 학습 정리
- 무엇이 사람들을 놀라게 했나요?
- 실제 사고 대응 프로세스를 내일부터 어떻게 바꾸고 싶은가요?
그다음, 다음 세션을 바로 잡으세요.
결론: 준비되지 않은 채로 데뷔하지 말 것
오프닝 나이트는 언젠가 반드시 옵니다. 시스템은 실패하고, 알람은 울리며, 고객은 이를 알아차립니다.
각 사고를 완전히 즉흥적인 공연으로 취급할 수도 있습니다. 혹은 종이 실패 그린룸을 만들어, 실제 조명이 켜지기 훨씬 전에 팀이 함께 리허설하고, 다듬고, 자신감을 쌓게 할 수도 있습니다.
다음과 같은 실천을 통해:
- 테이블탑 연습을 저위험 리허설로 활용하고,
- 명확한 심각도 체계와 역할을 반복해서 연습하며,
- 심리적 안전감과 빈번하고 몰입감 있는 드릴을 강조하고,
- 모든 연습을 학습 기회로 전환하면,
사고는 ‘알 수 없는 두려운 것’에서 ‘도전적이지만 익숙한 공연’으로 탈바꿈합니다.
실패를 먼저, 백스테이지에서, 종이 위에서 리허설하세요. 그래야 커튼이 올라가고 실제 사고가 찾아왔을 때, 팀은 침착하고, 조직적이며, 신뢰할 수 있는 공연을 준비된 모습으로 선보일 수 있습니다.