Rain Lag

종이 인시던트 스토리 스위치보드: 신호가 꼬이기 전에 장애 대응 회선을 손으로 연결하기

실제와 가까운 고가치 인시던트 대응 테이블탑 연습을 설계해 커뮤니케이션의 빈틈을 드러내고, 장애 플레이북을 검증하며, 팀을 실제 위기에 대비시키는 방법.

종이 인시던트 스토리 스위치보드: 신호가 꼬이기 전에 장애 대응 회선을 손으로 연결하기

장애가 터지면, 부하가 걸리는 건 시스템만이 아니다. 사람도, 커뮤니케이션 채널도 함께 과부하가 걸린다. 상태 페이지는 경고로 뒤덮이고, 임원들은 답을 요구하고, 고객은 화가 나 있고, Slack은 소방호스처럼 쏟아진다. 신호가 뒤섞이기 시작했을 때는 이미 실시간으로 풀어내기엔 늦어버린 경우가 많다.

그래서 **“종이 인시던트 스토리 스위치보드(paper incident story switchboard)”**가 필요하다. 의도적으로 로우테크이지만, 실제와 매우 비슷하게 사전에 인시던트를 손으로 배선해 보는 방식이다. 현실적인 테이블탑(tabletop) 연습을 통해 장애나 공격 상황을 종이와 대화 위에서 미리 걸어가 보면서, 실제 전화와 알림이 쏟아지기 전에 어떤 회선을 어떻게 연결해야 하는지 팀이 이미 알고 있게 만드는 것이다.

이 글에서는 이런 연습을 어떻게 설계해야 실제 위협 환경에 잘 맞고, 기술적인 역량과 커뮤니케이션 능력을 모두 시험하며, 배운 것을 지속적인 개선으로 이어갈 수 있는지 단계별로 풀어본다.


테이블탑 연습은 ‘불편할 만큼’ 현실적이어야 한다

많은 테이블탑 연습이 실패하는 이유는, 실제 위험의 날카로운 모서리를 전혀 건드리지 못한 채 **“컴플라이언스 쇼”**처럼 형식적인 연극에 그치기 때문이다. 추상적이고, 어디에나 있을 법한 시나리오라서 우리 조직의 현실과 잘 맞지 않는다.

쓸모 있는 연습을 하려면, 시나리오는 우리 조직의 위협 환경에 맞게 구체적으로 맞춤화되어야지, 어디선가 가져온 템플릿이면 안 된다. 예를 들면 이런 식이다.

  • 랜섬웨어(ransomware): 대규모 데이터 보관, 레거시 시스템, 중요한 B2B 연동이 많은 조직
  • DDoS 공격: 가용성이 최우선 SLO인 고객 접점 플랫폼
  • 피싱 및 업무 이메일 계정 탈취(BEC, Business Email Compromise): 고가치 금전 흐름이나 분산된 결재/승인 프로세스를 가진 조직
  • 내부자 위협(Insider threat): 고권한 접근, 민감한 지적 재산, 복잡한 벤더 생태계를 가진 환경

그리고 이런 날카로운 질문을 던져야 한다.

  • 우리 매출에 가장 치명적인 ‘최악의 하루’ 시나리오는 무엇인가?
  • 우리 브랜드나 신뢰를 가장 크게 훼손할 수 있는 일은 무엇인가?
  • 어떤 시스템이 멈추면 사람의 생명이나 안전이 위험해지는가?

종이 인시던트 스토리 스위치보드는 이런 우리 조직만의 시나리오를 기준으로 배선되어야 한다. 교과서적인 일반론이 아니라. 참가자들이 “이건 진짜 우리한테 일어날 수 있는 일인데?”라고 느낄수록 훨씬 진지하게 몰입한다.


두 가지 테이블탑 스타일: 토론형 vs 운영형

테이블탑 연습은 화이트보드에서 스토리텔링만 하는 것부터, 실제 미니 드릴(drill)에 가까운 것까지 스펙트럼처럼 이어진다.

1. 토론형(Discussion-Based) 연습

주로 대화 중심으로 진행되는 유형이다.

  • 진행자가 단계별 “인젝트(inject)”로 시나리오를 던진다.
  • 참가자들이 각 단계에서 무엇을 할지 말로 풀어간다.
  • 퍼실리테이터는 결정, 질문, 발견된 빈틈을 기록한다.

이 형식은 다음에 유용하다.

  • 역할과 책임(ownership)을 명확히 하는 데
  • “만약 이런 상황이라면?” 하는 가지치기와 엣지 케이스를 탐색하는 데
  • 임원이나 비기술 이해관계자를 포함시키는 데

2. 운영형(Operational, Hands-On) 연습

여기서는 실제 도구와 시스템을 섞어 쓴다.

  • 참가자들이 대시보드를 보고, (안전한/시뮬레이션된 환경에서) 명령을 실행하고, 실제 커뮤니케이션 채널을 사용한다.
  • 결정은 제한된 시간 안에 내려야 해서 압박감을 느끼게 한다.

이 형식은 다음에 적합하다.

  • 모니터링, 트레이싱(tracing), 런북(runbook)을 스트레스 상황에서 실제로 사용해 보는 연습
  • 빠진 대시보드, 애매한 알림, 시끄러운 로그처럼 툴링 마찰을 드러내는 것
  • 인시던트 대응 계획이 실제로 실행 가능한지 검증하는 것

두 형식 모두 중요하다. 토론형은 암묵적인 가정을 드러내고, 운영형은 실무적인 마찰을 노출한다. 스위치보드는 이 둘을 번갈아 가며 돌리면서, 사람들에게 생각할 기회와 실제로 손을 움직여 보는 기회를 모두 줘야 한다.


그럴듯한 스토리보다, 분명한 목적에서 시작하라

할리우드 영화처럼 극적인 시나리오를 만들고 싶어지는 유혹이 크다. 하지만 플롯 트위스트를 만들기 전에, 먼저 단순하고 구체적인 목적 문장을 적어야 한다.

“이 연습의 목적은, 의심되는 랜섬웨어 인시던트를 분류(triage)하고, 내부/외부 커뮤니케이션을 조율하며, 2시간 안에 몸값(ransom) 지불 여부를 go/no-go로 결정할 수 있는지 검증하는 것이다.”

또는:

“이 연습의 목적은, SRE·지원·커뮤니케이션 팀이 결제 API의 갑작스러운 레이턴시(latency) 급증을 어떻게 처리하고, 30분 내에 정확한 고객 공지를 제공할 수 있는지를 테스트하는 것이다.”

이 목적 문장을 바탕으로 플래닝 체크리스트를 만든다.

  • 어떤 시스템, 팀, 타임존이 참여해야 하는가?
  • 이 연습이 어떤 플레이북/런북을 건드려야 하는가?
  • 시나리오 안에서 반드시 내려져야 하는 핵심 결정은 무엇인가?
  • 참가자들에게 어떤 메트릭, 로그, 트레이스를 보여줘야 하는가?
  • 누가 관찰자이고, 누가 퍼실리테이터인가?
  • 결과와 후속 조치를 어떻게 수집하고 기록할 것인가?

시나리오는 겉으로 보이는 ‘이야기’이고, 목적과 체크리스트는 스위치보드 뒤에서 돌아가는 배선도다. 이것들이 있어야 대화가 “재미있는 소설”이 아니라, 실제로 테스트하고 싶은 것에 맞게 정렬된다.


종이 위 스토리 설계: 첫 알림부터 사후 분석까지

좋은 테이블탑 시나리오는 시간이 흐르면서 전개되는 전화 통화처럼, 계속 다른 데로 연결된다. 이를 **인젝트(inject)**의 연속으로 설계한다.

  1. 초기 신호(Initial Signal)

    • 예시: “EU 클러스터에서 체크아웃 레이턴시가 두 배로 늘었고, 에러율이 서서히 올라가고 있다.”
    • 프롬프트: 누가 가장 먼저 눈치채는가? 누가 온콜(ON-call) 책임자인가? 첫 움직임은 무엇인가?
  2. 증가하는 증상(Escalating Symptoms)

    • 예시: “지원 티켓이 급증한다. 소셜 미디어에서 결제 실패 제보가 올라온다.”
    • 프롬프트: 언제 인시던트를 공식 선언하는가? 누구를 페이징(paging) 하는가? 심각도는 어떻게 정하는가?
  3. 상충하는 데이터(Conflicting Data)

    • 예시: “APM은 CPU가 정상이라고 보고한다. 분산 트레이싱은 두 마이크로서비스 사이에서 타임아웃이 나는 걸 보여준다.”
    • 프롬프트: 이게 네트워크 문제인지, DB 문제인지, 코드 문제인지 어떻게 가설을 세우고 좁혀 가는가? 각 부분의 오너는 누구인가?
  4. 임원과 고객의 압박(Executive and Customer Pressure)

    • 예시: “세일즈가 대형 고객의 이탈 위협을 에스컬레이션한다. 한 VP가 인시던트 Slack 채널에 직접 들어온다.”
    • 프롬프트: 누가 리더십과 이야기하는가? 동시에 여러 사람이 결정권을 휘두르며 혼선을 만들지 않게 어떻게 막는가?
  5. 결정의 순간(Decision Point)

    • 예시: “롤백을 하면 다운타임이 30분 더 길어진다. 패치를 푸시하면 바로 해결될 수도 있지만 위험하다.”
    • 프롬프트: 누가 최종 결정을 내리는가? 어떤 정보와 어떤 SLO를 근거로 하는가?
  6. 안정화와 복구(Stabilization & Recovery)

    • 예시: “에러율은 기준선으로 돌아오지만, 일부 사용자의 데이터가 불일치할 가능성이 있다.”
    • 프롬프트: 복구가 진짜 완료됐는지 어떻게 검증하는가? 데이터 정합성 수정과 고객 공지는 어떻게 처리하는가?
  7. 사후 리뷰(Post-Incident Review) 준비

    • 프롬프트: 어떤 아티팩트(로그, 타임라인, 채팅 기록 등)를 보존해야 하는가? 누가 리뷰에 꼭 참석해야 하는가? 언제까지 리뷰를 열어야 하는가?

연습이 끝날 때쯤이면, 작은 징후에서 시작된 장애 스토리가 사후 회고(포스트모템, postmortem) 초대까지 이어지는 전체 라이프사이클을 한 번 따라가 본 셈이 되어야 한다.


백본: 살아있는 인시던트 대응 계획

테이블탑 연습의 품질은, 그 연습이 검증하려는 인시던트 대응 계획의 품질을 넘을 수 없다. 쓸만한 인시던트 대응 계획이라면 최소한 다음 세 가지 축을 포함해야 한다.

  1. 트리아지(Triage)

    • 심각도(SEV-1 vs SEV-3 등)를 어떻게 정의하는가
    • 인시던트를 어떻게, 누가 공식 선언할 수 있는가
    • 초기 격리(containment) 단계와 안전 점검 절차는 무엇인가
  2. 커뮤니케이션 프로토콜(Communication Protocols)

    • 내부: 어떤 채널을 쓰고, 누가 그 채널을 리드하며, 업데이트는 어떤 포맷으로 공유하는가
    • 외부: 상태 페이지, 고객 이메일, 공개 성명은 누가 언제 어떤 형태로 내는가
    • 임원 커뮤니케이션: 무엇을 어느 주기로 상신(escalate)하는가
  3. 에스컬레이션 경로(Escalation Paths)

    • 온콜 로테이션과 백업 롤
    • (특히 보안 인시던트에서) 법무, 컴플라이언스, PR 에스컬레이션
    • 클라우드, 결제 대행사 등 벤더·파트너 에스컬레이션

종이 스위치보드 연습은 이 경로들을 의도적으로 스트레스 테스트해야 한다. 소유자가 애매하거나, 연락처가 없거나, 서로 모순되는 지시가 나오는 순간이 바로 고쳐야 할 배선이다.

그리고 이 작업은 한 번으로 끝나지 않는다. 모든 연습과 실제 인시던트는 다시 계획으로 피드백되어야 한다.

  • 런북과 체크리스트를 업데이트하고
  • 시스템/결정의 소유자를 더 분명히 하고
  • 신규 대응자 온보딩용 교육과 문서를 개선한다.

신호를 잊지 말 것: 분산 트레이싱과 네 가지 골든 시그널

요즘 장애는 예전처럼 “서버 한 대 죽었다” 수준으로 단순하지 않다. 대부분은 복잡한 분산 시스템에서 발생하는 상호작용 실패다. 스위치보드 시나리오도 이 현실을 반영해야 한다.

여기서 핵심 도구는 두 가지다.

분산 트레이싱(Distributed Tracing)

분산 트레이싱은 하나의 요청이 여러 서비스를 거쳐 가는 여정을 추적하게 해준다. 시나리오 속에서 트레이스를 활용하면:

  • 레이턴시가 어디에서 발생하는지(예: 느린 다운스트림 의존성)를 보여줄 수 있고
  • 팬아웃과 재시도가 어떻게 부하를 증폭시키는지 드러낼 수 있고
  • 문제가 코드인지, 네트워크인지, 데이터 스토어인지 구분하는 데 도움을 준다.

네 가지 골든 시그널(Four Golden Signals)

인젝트와 대시보드는 아래 네 신호를 중심으로 설계하는 게 좋다.

  1. Latency(지연 시간) – 요청 처리에 얼마나 걸리는가
  2. Traffic(트래픽) – 얼마나 많은 요청/부하가 유입되는가
  3. Errors(에러) – 요청이 얼마나 자주 실패하는가
  4. Saturation(포화도) – CPU, 메모리, 커넥션 같은 리소스가 얼마나 꽉 차 있는가

운영형 테이블탑에서 참가자에게는 현실적이지만 완벽하진 않은 메트릭과 트레이스를 제공하라. 목표는 “깜깜이 맞추기”가 아니라, 압박 속에서 가설을 세우고 검증해 보는 연습을 시키는 것이다.


기술 문제보다 더 아픈 건 커뮤니케이션 실패다

역사를 보면, 커뮤니케이션이 나빠서 사태가 훨씬 악화된 위기가 수두룩하다.

  • 스리마일섬(Three Mile Island) – 혼란스러운 신호와 오해가 원전 사고의 심각성을 이해하는 데 큰 지연을 초래했다.
  • 딥워터 호라이즌(Deepwater Horizon) – 파편화된 책임 구조와 잘못 정렬된 리스크 커뮤니케이션이 치명적인 의사결정에 기여했다.
  • 유나이티드항공 승객 강제 하차 사건 – 허술한 내부·외부 메시지 관리가 나쁜 상황을 전 세계적인 PR 재앙으로 키웠다.
  • 드림월드(호주) – 치명적인 놀이기구 사고 이후 혼란스럽고 미흡한 커뮤니케이션이 공공 불신을 한층 키웠다.

당신 조직이 원자력 발전소나 테마파크를 운영하지 않더라도 교훈은 같다. 위기 커뮤니케이션은 기술적 대응만큼이나 중요하다.

종이 인시던트 스토리 스위치보드는 다음을 적극적으로 시험해야 한다.

  • 기술 대응자, 리더십, PR, 법무, 고객지원 사이에서 정보가 어떻게 흐르는지
  • 단순한 원인 분석이 아니라 “위험”을 얼마나 빠르고 명료하게 설명할 수 있는지
  • 내부에서 알고 있는 사실과 고객에게 말하는 내용 사이에 모순이 생기지 않게 어떻게 관리하는지

커뮤니케이션 팀이 테이블탑 연습에서 빠져 있다면, 실제론 전체 대응의 절반만 테스트하고 있는 셈이다.


연습 이후: 스토리를 조직적 변화로 바꾸기

연습은 사람들이 자리에서 일어나는 순간 끝나지만, 진짜 가치는 그 이후에 만들어진다.

  1. 구조화된 디브리핑(Debrief)

    • 무엇이 잘 작동했는가?
    • 어디에서 머뭇거리거나 막혔는가?
    • 어떤 결정이 애매했으며, 그 이유는 무엇인가?
  2. 구체적인 액션 아이템

    • 각 항목에 명확한 오너와 마감일을 지정하고
    • 안전, 고객 신뢰, 장애 시간 단축에 미치는 영향 기준으로 우선순위를 매긴다.
  3. 스토리를 조직 전체에 공유

    • 시나리오, 내려진 결정, 개선 사항을 요약하고
    • 신규 팀원 온보딩과 재훈련을 위한 교육 자료로 활용한다.

여기에서도 스위치보드 비유가 통한다. 배선을 리허설하고 정비할수록, 정말 중요한 순간에 신호가 엇갈릴 가능성은 줄어든다.


결론: 전화선이 빛나기 전에 연습하라

다음 장애나 보안 인시던트의 모양새를 정확히 예측할 수는 없다. 하지만 그때 필요한 근육—명확한 역할, 빠른 트리아지, 의미 있는 신호 해석, 훈련된 커뮤니케이션—은 미리 단련할 수 있다.

종이 인시던트 스토리 스위치보드를 구축해, 현실적이고 목적 중심적인 테이블탑 연습으로 기술 진단과 압박 속 커뮤니케이션을 함께 훈련하면, 위기가 오기 전에 핵심 연결들을 손으로 미리 배선해 두는 셈이 된다.

그러면 대시보드가 빨갛게 물들고, 전화가 울리고, Slack이 폭발하는 순간에도, 팀은 즉흥적으로 배선도를 그리느라 허둥대지 않을 것이다. 대신 이미 여러 번 리허설한 패턴을 따라 움직이면서, 정말 중요한 것—고객, 사람, 비즈니스를 지키는 일—에 더 많은 주의를 쏟을 수 있게 된다.

종이 인시던트 스토리 스위치보드: 신호가 꼬이기 전에 장애 대응 회선을 손으로 연결하기 | Rain Lag