Rain Lag

아날로그 인시던트 ‘골판지 관측 돔’: 대시보드가 모두 꺼졌을 때 종이만으로 만드는 상황실

대규모 장애 한가운데에서 모니터링 대시보드가 모두 꺼져버리면 어떻게 해야 할까? 이 글은 완전히 아날로그, 종이만으로 운영되는 인시던트 ‘워룸’을 어떻게 구축할 수 있는지, 왜 보안 면에서는 훨씬 안전하지만 속도는 크게 느려지는지, 그리고 SRE 팀이 오프라인 대응 연습에서 무엇을 배울 수 있는지를 다룬다.

아날로그 인시던트 ‘골판지 관측 돔’: 대시보드가 모두 꺼졌을 때 종이만으로 만드는 상황실

대형 장애가 터지면, 우리는 보통 벽 가득 뜬 대시보드, 고해상도 그래프, 실시간 로그 화면을 떠올립니다. 그런데 정작 가장 필요할 때 그 화면들이 전부 꺼져버리면 어떻게 될까요? 전원 장애, VPN 붕괴, 회사 SSO 장애, 아니면 노트북을 닫고 Wi-Fi도 모두 끄라고 요구되는 전면적인 보안 사고일 수도 있습니다.

그다음엔?

여기는 아날로그 인시던트 룸입니다. 화면 대신 벽에 종이 대시보드가 붙어 있고, 데이터가 “갱신”되는 유일한 순간은 누군가가 “새 로그 익스포트 왔습니다!”라고 소리칠 때뿐인, 종이만으로 운영되는 일종의 **‘골판지 관측 돔’**이죠.

우스갯소리처럼 들리지만, 실제로 디지털 도구를 쓸 수 없거나 믿을 수 없는 상황에 들어서면 얘기가 달라집니다. 이때부터는 회복탄력성의 문제입니다. 대시보드가 전부 꺼져도, 여전히 협업하고, 의사결정을 내리고, 복구를 진행할 수 있는가?

이 글에서 살펴볼 주제는 다음과 같습니다.

  • 완전 종이 기반 인시던트 룸이 구조적으로 더 안전한 이유
  • 아날로그 대응이 보통 20–45분의 추가 지연을 만들어내는 구조와, 그게 왜 치명적일 수 있는지
  • Google에서 큰 영향을 받은 SRE 워룸 관행이 구조와 역할 측면에서 주는 시사점
  • 노트북이 아니라 펜과 클립보드만 있어도 통하는 템플릿, 체크리스트, 사람 간 상호작용 설계 방법

왜 굳이 아날로그로 가야 할까?

완전 종이 기반 인시던트 룸은 마치 과거로 되돌아가는 느낌을 줍니다. 하지만 하나 강력한 특징이 있습니다. 바로 물리적으로 에어갭(air-gap)되어 있다는 것입니다.

Wi-Fi 없음. 블루투스 없음. 스크린샷을 떼서 랜덤한 슬랙 채널에 올리는 일도 없음. 깜짝 데이터 유출도 없음. 오직 화이트보드 마커, 포스트잇, 프린터용 종이뿐입니다.

보안 관점에서 보면, 특정 상황에서는 이게 거의 최선입니다.

  • 대규모 보안 사고: 노트북이나 아이덴티티 시스템이 실제로 침해되었을 가능성이 있는 상황.
  • 규제/통제 환경: 일부 규제·보안 구역은 네트워크 연결 장비를 원천 금지합니다.
  • 컨테인먼트 훈련: “네트워크는 이미 적에게 장악되었다. 아무것도 신뢰할 수 없다”는 가정으로 진행하는 블루팀 훈련.

이런 상황에서는 인시던트를 둘러싼 종이 기반의 ‘관측 돔’이 더 단순하고, 더 안전합니다.

  • 모든 정보 공유가 눈에 보이는 물리적 행위로 이뤄집니다.
  • 우발적인 데이터 유출이 훨씬 어렵습니다.
  • 누가 언제 어떤 문서를 봤는지에 대한 물리적 감사 흔적을 남기기 쉽습니다.

대신, 이 보안을 속도로 지불하게 됩니다.


비용: 20–45분 더 느려진다 (그리고 그게 왜 큰 문제인가)

디지털 대시보드에서 종이로 전환하는 일은 조금 불편한 수준이 아닙니다. 실제로는 측정 가능한 수준으로 느려집니다.

  • 실시간으로 로그를 쿼리할 수 없습니다. 누군가가 로그를 익스포트해서 프린트하거나, 오프라인으로 옮겨와야 합니다.
  • 공유 대시보드 대신, 손으로 주석을 적어 넣은 그래프 종이가 이리저리 돌아다닙니다.
  • 상태 업데이트는 물리적 이동이 필요합니다. 누군가가 보드 앞으로 가서 현재 상태를 직접 지우고 다시 써야 합니다.

아날로그 런북을 실제로 테스트해본 팀들은, 인시던트 대응 시간이 평균 20–45분 늘어나는 경우가 많다는 걸 발견합니다. 수치만 보면 별것 아닐 수도 있지만, 보통 이런 상황에서 걸려 있는 걸 떠올려 보면 이야기가 바뀝니다.

  • 홈페이지가 죽어 매출이 새고 있습니다.
  • **인증(로그인)**이 망가져서 사용자가 로그인조차 못 합니다.
  • API가 타임아웃 나면서, 고객 시스템들이 줄줄이 경보를 울립니다.

SRE 세계에서 몇 분은 돈입니다. 신뢰입니다. 그리고 사용자 분노이기도 합니다.

그래서 아날로그 셋업은 기본 모드가 아니라, 최후의 백업 모드로 봐야 합니다.

  • 훈련용으로는 좋습니다. 프로세스에서 어디가 취약한지 드러내 주니까요.
  • 보안이 실제로 침해된 시나리오에서는 거의 필수입니다.
  • 하지만 평시 프로덕션 장애 대응에서는, 20–45분의 추가 지연은 대부분 용납되기 어렵습니다.

그래서 핵심 설계 과제는 이렇게 바뀝니다. “어차피 디지털보다 느릴 수밖에 없다면, 아날로그를 얼마나 빠르고 일관되게 만들 수 있을까?”


SRE와 워룸: 도구보다 ‘방’이 더 중요하다

Site Reliability Engineering은 빠르고 조직화된 인시던트 대응으로 생사를 가릅니다. Google의 초기 SRE 팀이든, 그 플레이북을 차용한 어떤 조직이든, 반복해서 등장하는 개념이 하나 있습니다.

불이 났을 때는, 중요한 사람들을 전부 ‘워룸(war room)’에 모으고, 하나의 단일 진실 소스로부터 조율하라.

이 ‘워룸’은 여러 형태를 가질 수 있습니다.

  • 대형 모니터가 있는 실제 회의실
  • 공유 대시보드를 띄운 전용 Zoom/Meet 콜
  • 인시던트 커맨더가 관리하는 슬랙 채널이나 브리지 콜

이 개념은 Google SRE 관행에서 큰 영향을 받았습니다.

  • 명확한 역할: Incident Commander, Communication Lead, Operations Lead 등.
  • 단일 조정 지점: 한 사람이 노력을 지휘하고, 실행 순서를 정합니다.
  • 사후 회고(Postmortem)를 위한 명확한 인수인계와 기록.

워룸이 효과적인 이유는 다음과 같습니다.

  1. 의사결정권자를 한곳에 모읍니다.
  2. 커뮤니케이션 오버헤드를 줄입니다.
  3. 여러 팀이 빠르게 공동 작업을 할 수 있게 합니다.
  4. 인시던트에 대한 공유된, 계속 진화하는 정신적 모델을 유지하게 해 줍니다.

이 모든 것은 도구가 아니라 사회·조직적 속성입니다. 그래서 디지털 도구가 사라져도, 워룸 개념은 그대로 아날로그 환경에 적용됩니다.


‘골판지 관측 돔’ 설계하기

아날로그 인시던트 룸은 결국, 전자 장비를 걷어낸 워룸입니다. 이걸 제대로 동작시키려면 세 가지 레이어를 설계해야 합니다.

  1. 물리적 레이아웃 – 사람과 정보가 어디에 위치하는가
  2. 종이 산출물(아티팩트) – 무엇을 인쇄·기록·게시할 것인가
  3. 역할과 커뮤니케이션 패턴 – 사람들이 어떻게 상호작용하는가

1. 물리적 레이아웃: 모니터 대신 화이트보드

화면이 없더라도, 여전히 **물리적인 ‘싱글 페인 오브 글래스(single pane of glass)’**를 만들 수 있습니다.

  • 메인 상태 보드: 현재 영향도, 영향받는 컴포넌트, 심각도 레벨, 현재 가설.
  • 타임라인 벽: 인시던트 시작 시각, 핵심 결정들, 주요 조치, 그 결과.
  • 메트릭·증거 보드: 인쇄한 그래프, 로그 스니펫, 아키텍처 다이어그램.

방을 배치할 때는 다음을 고려합니다.

  • **Incident Commander(IC)**는 팀 개별 노트가 아니라, 이 보드를 바라보는 위치에 서야 합니다.
  • 참여자들은 언제든 메인 상태 보드를 볼 수 있는 자리(착석/기립)에 있어야 합니다.
  • 새 문서가 도착하는 명확한 장소(예: ‘Inbox’ 트레이나 벽의 특정 구역)를 정해 둡니다.

2. 종이 아티팩트: 템플릿, 폼, 체크리스트

신뢰할 수 있고 표준화된 문서화는 원래 SRE에서 중요하지만, 아날로그 셋업에서는 선택이 아니라 필수가 됩니다. 사전에 인쇄해 두고, 선반에서 바로 꺼내 쓸 수 있는 형태로 생각해야 합니다.

  • 인시던트 인테이크 폼(Incident Intake Form)

    • 인시던트 ID, 시작 시각
    • 최초 신고자, 최초 증상
    • 영향받는 시스템, 추정 블라스트 레디우스(blast radius)
  • 역할 및 인원표(Roles & Roster Sheet)

    • Incident Commander
    • 커뮤니케이션 리드(내부·외부)
    • 오퍼레이션/기술 리드들
    • 스크라이브 / 기록 담당
  • 타임라인 로그 시트(Timeline Log Sheet)

    • 타임스탬프
    • 수행한 액션
    • 수행자
    • 결과 / 관찰 내용
  • 가설 & 실험 폼(Hypothesis & Experiment Form)

    • 가설
    • 실험/테스트 내용
    • 예상 결과
    • 실제 결과
    • 다음 단계
  • 런북 & 체크리스트 인쇄본

    • 자주 발생하는 장애 유형별 표준 완화 조치
    • 심각도별 커뮤니케이션 체크리스트(누구에게 언제 알릴 것인지)
    • 페일오버 vs 롤백 vs 부분 셧다운 의사결정 트리

목표는 인시던트 중에 처음부터 새로 적는 걸 최소화하는 것입니다. 사람들은 빈칸을 채우기만 하면 되지, 포맷을 즉석에서 발명할 필요가 없어야 합니다.

인시던트가 끝난 후에는 이 아티팩트들이 그대로 **포스트 인시던트 리뷰(사후 분석)**에 들어갑니다. 기억을 더듬어서 무슨 일이 있었는지 재구성할 필요가 줄어듭니다.

3. 사회적 역학: 이 방의 ‘호스트’는 누구인가

도구가 조율을 해 주지는 않습니다. 결국 사람이 조율합니다. 아날로그 룸에서는 이 사회·조직적 역학이 오히려 더 두드러집니다.

핵심 요소는 다음과 같습니다.

  • Incident Commander(IC): 방의 중앙 ‘호스트’ 역할.

    • 주의를 모읍니다. “모두 메트릭 보드를 봐 주세요.”
    • 진행 속도를 조절합니다. “한 번에 한 가지 완화 조치만 진행하고, 각 단계는 로그에 남깁니다.”
    • 발언 순서를 관리합니다. “먼저 Ops Lead, 그다음 Database, 그다음 Network 순서로.”
  • 스크라이브 / 문서화 리드(Scribe / Documentation Lead)

    • 타임라인과 인시던트 로그 폼을 유지·관리합니다.
    • 결정과 결과가 발생하는 즉시 기록되도록 보장합니다.
  • 보드 스튜어드(Board Steward) (보통 스크라이브나 IC 보조)

    • 메인 상태 보드를 최신 상태로 유지합니다.
    • 새 증거를 벽의 적절한 섹션에 고정합니다.
    • 이미 폐기된 정보는 제거해, 항상 깔끔하고 up-to-date한 그림을 유지합니다.
  • 커뮤니케이션 리드(Communication Lead)

    • 내부 상태 업데이트를 주기적으로 준비합니다(예: 15–30분 간격).
    • 필요 시 고객지원, 법무, PR 등 이해관계자 팀과의 조율을 담당합니다.

명시적인 발언 순서 관리와 **콜아웃(call-out)**이 매우 중요합니다.

  • “Database Lead, 2분 브리핑 부탁드립니다.”
  • “방금 실행한 완화 조치 평가가 끝날 때까지 새로운 가설 제시는 잠시 멈추겠습니다.”
  • “이 라인 오브 인베스티게이션은 종료합니다. 누군가 가설 폼에 ‘폐기’로 표시해 주세요.”

이 패턴은 디지털 인시던트 운영에서도 이미 존재하지만, 아날로그 환경에서는 더 의도적이고 명시적으로 운영해야 합니다.


아날로그 연습: 노트북 없이 하는 테이블탑 드릴

아날로그 인시던트 룸을 처음으로 써 보는 순간이 실제 위기 상황이 되어서는 안 됩니다.

노트북 없이 진행하는 테이블탑(Tabletop) 연습을 해 보세요.

  • 참가자들은 실제 회의실에 모이되, 노트북은 모두 닫은 상태로 시작합니다.
  • 모든 정보는 인쇄된 문서나, 진행자가 직접 적어 건네는 종이로만 전달됩니다.
  • 다음과 같은 데 걸리는 시간을 측정합니다.
    • 영향도와 심각도 파악
    • 그럴듯한 가설 수립
    • 완화(미티게이션) 플랜 실행

그리고 늘어난 지연(대개 20–45분)을 놓고 분석합니다.

  • 어떤 지연은 ‘종이’라는 매체 특성상 어쩔 수 없었는가?
  • 어떤 지연은 템플릿이 부실했거나 역할이 불명확해서 생겼는가?
  • 어떤 지연은 사회적 요인(말 끊기, 우선순위 불명확 등)이었는가?

그다음 반복 개선합니다.

  • 폼과 체크리스트를 개선합니다.
  • 역할 정의와 발언 프로토콜을 더 명확히 합니다.
  • 방 레이아웃을 조정합니다.

목표는 아날로그를 디지털만큼 빠르게 만드는 게 아닙니다. 그건 불가능합니다. 목표는 **“디지털이 전부 날아갔을 때도 아날로그로 버틸 수 있게 만드는 것”**입니다.


결론: 필요해지기 전에 ‘돔’을 만들어라

종이만으로 운영되는 인시던트 룸, 즉 당신만의 ‘골판지 관측 돔’은 극단적인 상황을 위한 도구입니다. 이 도구는 다음과 같은 특성을 가집니다.

  • 설계상 보안성이 더 높습니다. 에어갭되어 있고, 디지털 유출 경로가 없습니다.
  • 상당히 느립니다. 평시 장애에서 치명적일 수 있는 20–45분의 추가 지연이 생깁니다.
  • 동시에, 팀의 진짜 SRE 성숙도—역할, 커뮤니케이션, 문서화, 의사결정 구조—를 아주 적나라하게 드러내 줍니다.

Google이 다듬고 SRE 실천을 통해 널리 퍼진 워룸 개념은, **인시던트 대응의 진짜 엔진은 “공유된 정신 모델을 가진 사람들이 함께 일하는 것”**이라는 사실을 상기시켜 줍니다. 대시보드는 그걸 돕는 도구일 뿐, 본질은 아닙니다.

지금 투자해야 할 것은 다음과 같습니다.

  • 잘 설계된 방 구성
  • 표준화된 종이 템플릿
  • 명확한 역할 정의와 커뮤니케이션 패턴

…이것들을 미리 준비해 두면, 언젠가 정말 최악의 날이 왔을 때—대시보드는 전부 꺼졌지만 인시던트는 계속 밀려오는 그날에—쓸 수 있는 아날로그 플레이북을 갖게 될 것입니다.

그리고 실제 프로덕션에서 그 ‘골판지 돔’을 쓸 일이 끝내 없더라도, 오프라인 연습에서 얻은 교훈은 온라인 워룸을 더 빠르고, 더 명료하고, 더 탄탄하게 만들어 줄 것입니다.

아날로그 인시던트 ‘골판지 관측 돔’: 대시보드가 모두 꺼졌을 때 종이만으로 만드는 상황실 | Rain Lag