종이로만 하는 인시던트 철도 시간표: 진짜 장애가 오기 전에 매일 작은 드릴을 스케줄링하는 법
실제 장애가 터지기 전에, 종이로만 진행하는 작은 인시던트 테이블탑 드릴을 활용해 인시던트 대응 계획을 리허설하고, 숨은 리스크를 드러내며, 진짜 장애에도 끄떡없는 회복력을 만드는 방법.
종이로만 하는 인시던트 철도 시간표: 진짜 장애가 오기 전에 매일 작은 드릴을 스케줄링하는 법
현대 시스템은 교과서적인 방식으로 예쁘게 실패하지 않습니다. 제품 출시 한가운데, 핵심 엔지니어가 휴가 중일 때, 혹은 “작고 안전한” 변경을 막 배포한 직후에 실패합니다. 그 순간, 인시던트 대응이 실제로 어떻게 돌아가는지 처음으로 배우는 최악의 타이밍은 바로 인시던트가 진행 중일 때입니다.
그래서 종이로만 진행하는 인시던트 테이블탑 드릴이 필요합니다.
이걸 여러분의 신뢰성 프로그램을 위한 **철도 시간표(railway timetable)**라고 생각해 보세요. 짧고, 예측 가능하며, 구조화된 연습이라는 “기차”들이 일정대로 계속 운행되기 때문에, 진짜 비상 상황이라는 열차가 전속력으로 달려올 때, 모두가 이미 어디에 서 있어야 하고 무엇을 해야 하는지 알고 있는 상태가 됩니다.
이 글에서는 이런 작은 드릴을 어떻게 설계하고 운영하는지, 이것이 왜 조직 간 정렬(cross-team alignment)에 중요한지, 그리고 어떻게 이 드릴을 모두가 잊어버리는 일회성 교육이 아니라, 공식적인 신뢰성 통제(reliability control)의 일부로 만드는지 살펴보겠습니다.
종이로만 하는 인시던트 드릴이란 무엇인가?
종이로만 하는 인시던트 드릴(일명 테이블탑(Tabletop) 연습)은 짧고 부담이 적은 세션으로, 다음과 같이 진행합니다.
- 시나리오를 글, 문서, 슬라이드 등으로 설명만 해서 인시던트를 가상으로 시뮬레이션합니다.
- 참가자들은 실제 프로덕션 시스템을 건드리지 않고, 무엇을 할지 말로만 풀어갑니다.
- **타임라인, 의사결정, 커뮤니케이션, 핸드오프(인수인계)**를 함께 쭉 따라가 봅니다.
실제 알람도 없고, 실제 장애도 없습니다. 다만 실제 프로세스·툴·역할을 사용해, 압박 속에서 생각하고 협업하는 연습을 하는 것입니다.
이런 연습의 특징은 다음과 같습니다.
- 저렴함: 인프라에 영향이 없고, 특별한 도구도 필요 없습니다.
- 안전함: 고객을 해치지 않고도 “만약 이런 카오스가?”를 마음껏 탐색할 수 있습니다.
- 빠름: 30–60분이면 의미 있는 드릴을 충분히 할 수 있습니다.
목표는 모두가 완벽하다는 것을 증명하는 게 아닙니다. 지금 고칠 수 있을 때, 지식 격차, 프로세스의 구멍, 숨은 의존성을 드러내는 것입니다.
작지만 자주 하는 드릴이, 크고 드문 시뮬레이션보다 나은 이유
대부분의 조직은 가끔씩 대규모 “전사 인시던트 시뮬레이션”을 합니다. 물론 쓸모가 있지만, 너무 드물고 준비가 무거워서 **근육 기억(muscle memory)**을 만들기엔 부족합니다.
더 나은 패턴은, 작고 규칙적인 드릴을 스케줄링하는 것입니다. 마치 여러분만의 신뢰성 철도 시간표를 운영하는 것처럼요.
- 15–30분 정도, 주 1회 또는 격주
- 하나의 집중된 시나리오
- 작은 그룹: 온콜 엔지니어 몇 명, 인시던트 커맨더(incident commander), 필요하다면 시큐리티나 프로덕트 담당자
이렇게 “작지만 빈번한” 접근이 주는 이점은 다음과 같습니다.
- 근육 기억 형성: 인시던트 오픈, 심각도(severity) 선언, 상태 페이지 업데이트, 추가 호출(paging), 의사결정 에스컬레이션 같은 걸 너무 자주 연습해서, 즉흥이 아니라 반사적으로 나오게 됩니다.
- 심리적 진입 장벽 낮춤: 20분짜리 종이 드릴은, 거대한 대장정이 아니라 “할 만한 작은 일”로 느껴집니다.
- 빠른 학습 루프: 문제를 일찍 찾아 조금씩 계속 고치게 되고, 한 번에 몰아서 고통스럽게 깨닫는 일을 줄입니다.
즉, 인시던트 대응 연습을 연 1회 마라톤이 아니라 매일 하는 재활 운동처럼 다루는 것입니다.
현실적이고, 약간은 지저분한 시나리오를 쓰라
테이블탑 시나리오가 너무 깔끔하고 답이 뻔하면, 배우는 게 거의 없습니다.
대신, 실제 팀이 마주칠 법한 약간 지저분하고 현실적인 인시던트를 설계해야 합니다. 마치 미스터리 사건처럼요.
- 부분적인 증상: “한 리전의 트래픽이 30% 줄었는데, 에러율은 괜찮아 보인다.”
- 낯선 툴: “
ragtool이라는 걸 언급하는 런북이 있는데, 팀 절반은 이 스크립트를 써 본 적이 없다.” - 상충하는 신호: “시큐리티 팀은 이상 로그인을 보고, Ops는 클러스터 장애를 보고, 프로덕트는 고객 불만을 받고 있다.”
드릴 중에, 이렇게 말할 수 있습니다.
10:03에 모니터링에서 EU 리전의 체크아웃 전환율이 40% 떨어진 걸 발견했습니다. 레이턴시 대시보드는 정상이네요. 마케팅 팀은 새 캠페인이 뭔가를 깨뜨린 건지 묻고 있습니다. 리전 라우팅을 고친다는
ragtool스크립트가 있다는데, 누가 오너인지 아무도 확신하지 못합니다.
이제 그룹에 물어보세요.
- 누가 인시던트 커맨더인가요? 그건 어떻게 결정되나요?
- 우리의 첫 번째 액션은 무엇이어야 할까요? 어디부터 볼까요?
- 누가
ragtool을 안전하게 실행할 수 있을까요? 이게 상황을 악화시키지 않는다는 걸 어떻게 검증하죠? - 지원팀, 리더십, 고객에게 누가, 어떤 주기로 알리나요?
여기서 중요한 건 “정답”이 아닙니다. 사람들이 어디서 머뭇거리고, 의견이 갈리고, 모른다고 하는지를 보는 것입니다. 이런 지점을 **인시던트 대응 계획(IRP, Incident Response Plan)**과 런북(runbook)을 개선하는 입력으로 삼는 것이 핵심입니다.
드릴을 인시던트 대응 계획 리허설로 사용하라
IRP는 폴더 속에 넣어두는 PDF가 아닙니다. 반드시 리허설해야 하는 스크립트입니다.
테이블탑 드릴을 이용해 IRP를 실제로 세밀하게 연습하세요.
- 역할: 누가 인시던트 커맨더(Incident Commander), 스크라이브(scribe, 기록 담당), 커뮤니케이션 리드, 기술 리드 역할을 맡나요?
- 타임라인: 언제 인시던트를 공식 선언하나요? 언제 심각도를 올리나요? 언제 리더십이나 법무팀을 개입시키나요?
- 메카닉스(운영 방식): 어떤 채널(Slack/Teams/전화)을 쓰나요? 인시던트 티켓은 어떻게 만들고 업데이트하나요? 중앙 타임라인은 어디에 있나요?
드릴 중에 사람들이 이렇게 말하는 순간을 눈여겨보세요.
- “원래는 이렇게 해야 할 것 같은데…”
- “예전에 그런 내용이 있는 문서를 본 것 같아요…”
- “이건 누가 최종 승인하는지 모르겠어요.”
이게 곧 IRP의 구멍입니다. 드릴이 끝난 뒤에는:
- 계획의 일부를 더 명확하게 다시 쓰고,
- 인시던트 커맨더와 스크라이브를 위한 체크리스트를 추가하고,
- 런북과 연락처 리스트를 만들거나 업데이트할 수 있습니다.
이 과정을 반복하며 IRP는 이론 문서에서 실전에 검증된 플레이북으로 진화합니다.
조직 간 정렬: 공통된 그림을 연습하라
실제 인시던트는 거의 절대 한 팀의 문제가 아닙니다. Ops, Security, Engineering, Product, 리더십 모두 이해관계가 있습니다.
테이블탑 드릴은 이런 것들을 안전하게 연습하는 공간입니다.
- 공유된 상황 인식(Shared Situational Awareness): 모두가 같은 사실과 대시보드를 기반으로 움직이는지.
- 명확한 커뮤니케이션 리듬: 뜬금없는 메시지가 아니라, 정기적인 업데이트 패턴이 있는지.
- 분명한 의사결정 책임: 누구에게 페일오버(failover) 결정 권한이 있는지? 누가 배포를 중단하는지? 누가 고객 커뮤니케이션을 승인하는지?
다음과 같은 대표들을 초대하는 것을 고려해 보세요.
- Operations / SRE – 시스템 상태 파악과 복구 조치 담당
- Security – 운영 인시던트인지 보안 인시던트인지 구분하고, 차단·격리(containment)를 조언
- Feature Engineering / Product – 고객 영향과 비즈니스 리스크 평가
- 리더십 / 인시던트 커맨더 풀 – 어려운 결정을 실제로 내리는 역할
드릴에서는 다음을 함께 연습합니다.
- 정보가 팀 간에 어떻게 흐르는지
- 시간이 촉박할 때, 이견이 나면 어떻게 정리·결정하는지
- 어떤 결정이 어떻게 기록되고, 근거가 어떻게 남는지
이런 조직 간 상호작용의 리허설이, 종종 기술적인 논의보다 훨씬 큰 가치를 줍니다.
포스트모템: 연습을 시스템 개선으로 전환하라
시나리오가 끝났다고 드릴이 끝난 것은 아닙니다. 진짜 가치는 **포스트모템(postmortem)**에서 나옵니다.
각 연습 뒤에는 구조화된, 블레이멀리스(blameless, 비난 없는) 리뷰를 진행하세요.
- 타임라인 – 시나리오에서 어떤 일이 일어났고, 우리는 무엇을 어떤 순서로 하겠다고 말했는지?
- 잘된 점 – IRP, 툴, 팀워크가 어디에서 좋은 결정을 뒷받침했는지?
- 어려웠거나 헷갈린 점 – 빠진 문서, 불명확한 오너십, 시끄러운 채널, 툴의 한계 등
- 핵심 학습 – 무엇이 우리를 놀라게 했는지? 어떤 가정이 틀렸는지?
- 구체적인 액션 – 프로세스, 툴, 문서를 어떻게 바꿀 것인지?
그리고 이것이 명시적으로 블레이멀리스하도록 만드세요.
- 개인 역량이 아니라 시스템과 프로세스에 초점을 맞추고,
- “왜 그렇게 했냐?” 대신 “그 행동이 자연스럽게 나오도록 만든 건 무엇인가?”를 질문합니다.
그리고 정말 중요한 것은, 이 결과를 실제 신뢰성 작업으로 취급하는 것입니다. 메모로 남겨두고 잊어버리는 게 아니라요.
포스트모템을 표준 신뢰성 통제로 만들라
드릴에서 나온 인사이트가 실제 변화를 만들지 못하면, 그냥 보여주기용 연극에 불과합니다.
포스트모템을 여러분의 신뢰성 프로그램 속 **표준 통제(control)**로 만드세요.
- 역할 정의: 포스트모템의 오너는 누구인가? 후속 액션이 추적·완료되도록 책임지는 사람은 누구인가?
- 타임라인:
- 포스트모템 초안은 인시던트/드릴 후 X일 이내,
- 액션 아이템 정의는 Y일 이내,
- 액션 완료 여부 리뷰는 Z주 이내
- 메카닉스:
- 각 개선 사항에 대해 티켓을 만들고, 명확한 오너와 마감일을 지정합니다.
- 티켓을 포스트모템 문서와 링크합니다.
- 실제 인시던트와 드릴에서 나온 미완료 액션을 모두 추적하는 대시보드를 둡니다.
- **체인지 게이트(change gate)**를 추가합니다. 예: “이 리스크는 아래 액션들이 완료되기 전까진 닫힌 것으로 보지 않는다.”
이렇게 드릴 → 포스트모템 → 추적되는 개선이라는 루프를 제도화하면, 작은 드릴 하나하나가 시스템과 프로세스의 회복력을 영구적으로 업그레이드하게 됩니다.
“교육의 날”이 아니라 리스크 감소로 포지셔닝하라
리더십과 바쁜 팀들의 동의를 얻으려면, 이 연습을 올바르게 프레이밍해야 합니다.
AI 기반 피싱, 랜섬웨어, 점점 복잡해지는 클라우드 아키텍처가 일상이 된 세상에서, 인시던트 대응은 선택 사항이 아닙니다. 이는 핵심 리스크 관리 기능입니다.
종이 기반 드릴을 다음과 같이 포지셔닝하세요.
- 카오스에 대한 보험: 공격자나 랜덤한 장애가 터지기 전에, 낮은 비용으로 취약성을 발견하고 고치는 방법
- 규제 및 고객 신뢰 확보 수단: 많은 산업에서 인시던트 대응 준비태세에 대한 증거를 요구하며, 테이블탑 연습은 그에 부합하는 신뢰할 만한 통제입니다.
- 비즈니스 연속성 연습: “어떻게 고치느냐?”뿐만 아니라, “고장 난 상태에서도 어떻게 운영을 이어가느냐?”까지 포함합니다.
리더십이 “왜 여기에 시간을 쓰는가?”라고 묻는다면, 이렇게 답할 수 있습니다.
오늘 통제된 연습에 한 시간을 투자하는 것이, 진짜 사건이 터졌을 때 수일의 장애 시간, 평판 손상, 침해 노출을 막아 줄 수 있기 때문입니다. ‘언제일지 모르지만, 언젠가’ 올 그 순간을 위해서 말이죠.
그리고 드릴 및 후속 개선을 다음과 연결해 두세요.
- **리스크 레지스터(risk register)**와 시큐리티 포스처 보고서
- SLA / SLO 및 가용성(availability) 약속
- 회복력 및 인시던트 대응 의무에 대한 감사(audit) 증빙
이렇게 프레이밍하면, 테이블탑 연습은 “있으면 좋은 교육 활동”이 아니라 필수적인 리스크 감소 통제로 인식됩니다.
정리: 여러분의 인시던트 철도 시간표 만들기
여러분만의 종이 기반 철도 시간표를 운영하려면, 다음 단계부터 시작하세요.
- 정기 슬롯을 예약합니다. (예: 격주 30분)
- 각 세션마다 하나의, 현실적이지만 범위가 명확한 시나리오를 만듭니다.
- 그 시나리오에 적합한 조직 간 참가자 구성을 초대합니다.
- IRP를 실제처럼 쭉 따라가며, 의사결정·역할·커뮤니케이션을 하나씩 짚어 봅니다.
- 짧은 포스트모템을 진행해, 학습 내용과 구체적인 액션을 기록합니다.
- 이 개선 사항들을 일반적인 신뢰성 작업과 똑같이 티켓과 대시보드로 추적합니다.
시간이 지나면 조직은 다음과 같은 변화를 경험하게 됩니다.
- 실제 인시던트에서의 불확실성이 줄어듭니다.
- 팀 간 신뢰와 협업이 좋아집니다.
- IRP, 런북, 툴링이 점점 더 단단해집니다.
무엇보다 중요한 것은, 장애에 대해 **의도적인 연습(culture of deliberate practice)**을 하는 문화가 생긴다는 점입니다. 진짜 상황이 닥치기 전에, 이미 수십 번은 리허설해 본 대응을 하게 되는 것입니다.
이것이 바로 종이로만 하는 인시던트 철도 시간표의 힘입니다. 오늘의 작고 예측 가능한 드릴들이, 내일 실제 장애라는 열차가 들이닥쳤을 때 모두가 이미 올바른 플랫폼에 서서, 움직일 준비가 되어 있도록 만들어 줍니다.