Rain Lag

아날로그 위기 스토리 메이커 벤치: 큰 장애도 덜 두렵게 만드는 작은 종이 도구 만들기

단순하고 손에 잡히는 ‘종이 도구’와 테이블탑 연습이 어떻게 추상적인 장애 대응 계획을 실제적이고 저스트레스로 만들고, 대규모 장애를 맞는 엔지니어링 팀에 근육 기억(머슬 메모리)을 심어줄 수 있는지에 대해 이야기합니다.

아날로그 장애 스토리 메이커 벤치

큰 장애도 덜 무섭게 만드는 작은 종이 도구를 손으로 만드는 법

디지털 시스템은 아주 물리적인 방식으로 실패합니다. 휴대폰은 계속 울리고, 알림은 깜빡이며, 사람들은 복도를 서성입니다. 그런데 대부분의 장애 관리 도구는 화면 속에만 있습니다. 복잡한 대시보드, ITSM(IT Service Management) 워크플로우, 수십 개의 브라우저 탭 등등.

그 사이에 빠져 있는 한 층이 있습니다. 바로, 모든 것이 불타는 것처럼 느껴질 때 사람의 사고를 맑게 해주는 단순한 아날로그 도구입니다.

이걸 **장애 스토리 메이커의 작업대(Story Maker’s Bench)**라고 생각해 보세요. 팀이 손수 만드는 작은 종이 도구들—체크리스트, 프롬프트, 템플릿, 게임 카드—이 혼돈을, 실제로 따라가고 설명할 수 있는 하나의 이야기로 바꿔 줍니다. 이런 아날로그 아티팩트는 기존 플랫폼과 프로세스를 대체하지 않습니다. 스트레스가 최고조일 때 그걸 실제로 쓸 수 있게 만들어 줍니다.

이 글에서는 이런 로우테크 도구들을 어떻게 설계하고 활용해서 큰 장애가 덜 두렵게 느껴지게 만들 수 있는지 살펴봅니다. 이미 종이 위에서, 함께, 여러 번 리허설을 해 본 상태가 되도록 말이죠.


디지털 장애 관리 시대에도 아날로그 도구가 중요한 이유

요즘 장애 관리는 보통 이런 구조화된 시스템들을 중심으로 돌아갑니다.

  • ITSM 플랫폼 (ServiceNow, Jira Service Management 등)
  • 장애 봇이 붙어 있는 채팅 도구
  • 상태 페이지(Status page)와 다양한 대시보드
  • 런북과 지식 베이스

이 도구들은 강력하고 필수적입니다. 하지만 정작 장애 상황에서는, 이런 도구들이 다음과 같이 느껴질 수 있습니다.

  • 압도적임 – 정보도, 선택지도, 클릭할 곳도 너무 많습니다.
  • 취약함 – SSO, VPN, 혹은 그 플랫폼 자체가 장애에 휘말릴 수 있습니다.
  • 인지 부하가 큼 – 어디를 눌러야 하고, 무엇을 열어야 하고, 어떤 필드를 채워야 하는지를 계속 기억해야 합니다.

반대로, 아날로그 도구—체크리스트, 인쇄된 프롬프트, 인덱스 카드, 테이블탑 지도—는 정반대 방향으로 작동합니다.

  • 한눈에 직관적으로 보이고, 마찰이 거의 없습니다.
  • 네트워크가 죽어도 같이 죽지 않습니다.
  • 다음에 해야 할 한 가지에만 집중하게 해, 의사결정 부담을 줄여 줍니다.

모든 도구가 100% 오프라인으로 작동할 필요는 없습니다. 하지만 장애가 터졌을 때 **몸을 붙잡아 줄 몇 가지 물리적 기준점(physical anchor)**이 있느냐 없느냐는, “완전히 물에 빠진 느낌”과 “그래도 우린 할 수 있다”의 갈림길이 됩니다.


신뢰성을 위한 설계: 스트레스 상황에서도 작동하는 가이드 만들기

신뢰성은 단순히 이중화와 오토 스케일링 같은 기술 요소에만 있지 않습니다. 장애 시 사람이 지나가야 할 경로 자체를 실용적이고 저스트레스로 설계하는 일이기도 합니다.

여기엔 두 가지 핵심 설계 원칙이 도움이 됩니다.

1. 실용적이고 저스트레스인 가이드를 제공하라

길고 장황한 정책 문서와 텍스트 위주의 런북은 참고용으로는 좋지만, 비상 상황에서는 최악입니다. 실제 장애 상황에서 엔지니어가 필요한 것은 다음과 같습니다.

  • 짧고 명확한 체크리스트
    예: “장애 발생 후 첫 5분”, “커뮤니케이션 리드(Comms Lead) 치트 시트”, “심각도(Severity) 레벨 선언 방법”.
  • 단순한 의사결정 트리
    한 장짜리로 “이게 SEV-1인가 SEV-2인가?”, “누구를 페이징하고 누구에게 에스컬레이션할 것인가?”를 판단할 수 있게.
  • 역할 카드(Role Card)
    역할마다 카드 한 장(Incident Commander, Comms Lead, Scribe, Ops Lead 등), 5–7개 불릿: 당신이 책임지는 결정, 당신이 소통해야 할 채널, 당신이 절대로 하지 말아야 할 일(예: ‘IC는 프로덕션 디버깅을 직접 하지 않는다’).

이런 아티팩트는 깊은 문서를 대체하는 것이 아니라, 그 문서로 들어가는 진입로(on-ramp) 역할을 합니다.

2. 실제 입력(load) 조건으로 검증하라

이론상으로만 멋지게 동작하는 장애 워크플로우는 오히려 위험합니다. 실제 조건에서 어떻게 돌아가는지를 반드시 확인해야 합니다.

  • 인증(auth)이 불안정할 때도 장애 선언 플로우가 작동하는가?
  • 사람들이 30초 안에 필요한 런북을 찾을 수 있는가?
  • “싱글 소스 오브 트루스”(단일 진실의 원천)라고 부르는 시스템이, 실제로 쓸 만할 만큼 빠르게 업데이트되는가?

아날로그 도구는 이런 부분을 압박 테스트(pressure test)하는 데 아주 유용합니다. 모의 훈련에서 이렇게 물어볼 수 있습니다.

  • “이 단계에서 실제로 보고 있는 화면은 뭐죠?”
  • “이 메시지는 어떤 시스템으로 보내나요?”
  • “그 시스템도 같이 느려지거나 죽어 있다면 어떻게 하죠?”

이때마다 발견되는 마찰을 기준으로 디지털 워크플로우종이 프롬프트를 함께 업데이트할 수 있습니다. 시간이 지나면, 종이 도구는 전체 장애 프로세스를 위한 간결하고 검증된 인터페이스가 됩니다.


문서로 존재하는 계획에서 몸에 밴 근육 기억으로

많은 팀들이 이런 식의 장애 대응 계획을 갖고 있습니다.

  • 마지막 수정이 18개월 전인 Confluence 페이지
  • 이전 포스트모템에서 쓰인 슬라이드 몇 장
  • 아무도 읽지 않는 ‘비즈니스 연속성 계획(BCP)’ PDF

문제는 간단합니다. 장애를 ‘읽어본 것’과 ‘몸으로 해본 것’은 전혀 다르다는 점입니다. 스트레스가 높을수록 사람은 이론이 아니라, 몸에 밴 **근육 기억(머슬 메모리)**에 의존합니다.

이 근육 기억을 만들려면 다음이 필요합니다.

  • 직접 해 보며 토론하는 형태의 실습형 훈련
  • “DB가 다운되면 어떡하지?” 같은 추상적 가정이 아니라, 현실적인 장애 시나리오
  • 반복과 피드백

아날로그 도구는 이런 연습을 반복 가능하고 부담 없이 만들기에 딱 좋습니다.


테이블탑 연습(Tabletop Exercise): 장애를 위한 스토리 워크숍

**테이블탑 연습(TTX, Tabletop Exercise)**은 낮은 비용으로 큰 효과를 얻을 수 있는 장애 리허설 방식입니다. 카오스 몽키도, 별도의 테스트 환경도 필요 없습니다. 사람들만 모여 테이블을 둘러 앉아, 하나의 시나리오를 따라가면 됩니다.

  1. 퍼실리테이터가 장애 시나리오를 제시합니다.
  2. 팀은 실제로 무엇을 할지 한 단계씩 이야기합니다.
  3. 역할을 배정하고, 결정을 내리고, 커뮤니케이션 문구를 작성합니다.
  4. 퍼실리테이터는 현실감을 높이기 위해 중간중간 변수나 추가 사건(“inject”)을 던집니다.

이 과정은 사실상 스토리텔링을 이용한 신뢰성 엔지니어링입니다. 다만, 행동과 도구, 클릭과 메시지 같은 매우 구체적인 요소를 기반으로 합니다.

TTX가 특히 잘 통하는 이유

  • 안전한 환경 – 실제 고객 영향도 없고, 새벽 2시의 극한 스트레스도 없습니다.
  • 빠른 학습 루프 – 언제든 멈추고, 되돌리고, 다른 선택지를 논의할 수 있습니다.
  • 경로 찾기 연습 – 사람들은 어디를 클릭하고, 누구에게 전화하고, 무엇을 말해야 하는지 몸으로 익힙니다.

디지털 도구(예: 장애 대시보드 화면 공유)는 이런 연습을 지원합니다. 하지만 아날로그 도구는 이 과정을 훨씬 더 강화해 줍니다.


나만의 장애 스토리 메이커 벤치 만들기

실제로 장애 관련 아티팩트들이 놓여 있는 작업대나 선반을 떠올려 보세요. 여기에 무엇을 올려둘 수 있을까요?

1. 시나리오 카드

인덱스 카드나 작은 종이 한 장에 이런 내용을 넣습니다.

  • 트리거(Trigger):
    예: “결제 API 레이턴시가 트래픽의 30% 구간에서 5초 이상으로 치솟는다.”
  • 겉으로 보이는 증상:
    온콜 엔지니어가 가장 먼저 보는 것들—알림, 고객 문의 티켓, 대시보드 상의 이상 징후.
  • 숨겨진 사실(퍼실리테이터용):
    실제 근본 원인, 연쇄적인 영향.
  • 복잡 요소(Complications):
    예: “5분 뒤, 우리 상태 페이지 제공 업체도 장애를 겪는다.”

이 카드들만 있으면, 매번 긴 스크립트를 새로 쓰지 않고도 다양한 TTX 세션을 빠르게 돌릴 수 있습니다.

2. 역할 카드(Role Card)

주요 역할마다 카드 한 장씩 만듭니다.

  • 주요 책임
  • 당신이 최종 결정권을 갖는 영역
  • 지속적으로 업데이트해야 할 이해관계자/채널
  • 절대로 하면 안 되는 일
    예: “IC는 직접 프로덕션에 접속해 디버깅하지 않는다.”

연습 때 이 카드를 사람들에게 나눠주기만 해도 누가 무엇을 하는지가 바로 또렷해집니다. 조직도에서 흐릿하게 보이던 역할이, 아주 선명한 책임 스토리로 바뀝니다.

3. 타임라인 시트

아주 단순한 인쇄물 하나에 다음과 같은 컬럼을 둡니다.

  • 시간(Time)
  • 무슨 일이 일어났는지(What happened)
  • 누가 어떤 행동을 했는지(Who acted)
  • 무엇을 누구에게 커뮤니케이션했는지(What we communicated & to whom)

훈련 중에는 지정된 스크라이브(Scribe)가 이 타임라인을 손으로 적어 나갑니다. 이 연습은 실제 장애 상황에도 그대로 이어져, 시간축에 맞춘 기록이 다음에 큰 도움이 됩니다.

  • 상태 업데이트 작성
  • 교대/인수인계
  • 사후 리뷰(Post-Incident Review, Postmortem)

4. 의사결정 체크리스트

자주 반복되는 의사결정 유형에 대해, 짧고 집중된 체크리스트를 만듭니다. 예를 들면:

  • 장애 심각도 선언(Severity declaration)
  • 리더십(경영진) 에스컬레이션
  • 고객 공지 발송 여부/시점 결정

이 체크리스트는 반드시 실제 장애 사례에서 뽑아내야 합니다. 과거의 지저분한 슬랙 스레드를 펼쳐 보고, 정말로 중요했던 질문 6–8개만 추려내는 식입니다.

5. 중첩(스택) 비상 훈련

대부분의 팀은 **단일 장애(single-fault)**만 연습합니다. 한 가지 문제, 한 가지 대응. 하지만 현실은 훨씬 복잡합니다.

  • 데이터베이스 문제 + 관측성(Observability) 저하
  • 한 리전에서의 장애 + 무관해 보이는 기능 플래그 오설정
  • 이미 SEV-1이 진행 중인데, 다른 곳에서 SEV-2가 새로 발생

아날로그 툴킷을 활용해 이런 **복수 장애(스택드 이머전시, stacked emergencies)**를 연습할 수 있습니다.

  • 두 개의 시나리오 카드를 준비해, 시간차를 두고 뽑히게 합니다.
  • 현재 몇 개의 장애와 역할이 동시에 활성화되어 있는지 보여주는 “Incident Load Tracker” 시트를 둡니다.
  • 중간중간 멈추고 이렇게 물어봅니다.
    “지금 이 상황이 실제 프로덕션이었다면, 먼저 무너지는 건 시스템일까요, 사람일까요?”

이런 훈련은, 실제 장애가 터질 때까지 기다렸다가 깨닫게 될 인력, 프로세스, 툴링의 빈틈을 훨씬 더 일찍 드러내 줍니다.


연습을 자신감으로 바꾸기

여기서의 목표는 서류를 더 많이 만드는 게 아닙니다. 두려움을 **익숙함(familiarity)**으로 바꾸는 것입니다.

다음과 같은 팀을 상상해 보세요.

  • 현실적인 장애 시나리오를 정기적으로 함께 걸어가고,
  • 손에 잡히는 도구로 대화를 고정(anchor)시키며,
  • 역할 배정과 커뮤니케이션 패턴을 반복해서 리허설하고,
  • 여러 건의 장애가 동시에 일어나는 상황까지 실험해 본 팀.

이런 팀에게 큰 장애는 더 이상 공포 소설이 아니라, 이미 읽어본 책의 어려운 챕터처럼 느껴집니다. 힘들긴 하지만, 어떻게 읽어나가야 할지 아는 챕터 말이죠.

이 차이는 사람들의 표정에서 바로 드러납니다. “이제 어떻게 하지?” 대신 이런 말이 더 자주 나옵니다.

  • “TTX에서 비슷한 상황을 한 번 다뤄봤어요.”
  • “제가 IC 맡을게요. 당신은 Comms Lead 맡아 주세요.”
  • “일단 심각도 체크리스트부터 보고, 과잉 대응은 피하죠.”

시스템은 여전히 실패할 수 있습니다. 하지만 팀 전체가 무너질 필요는 없습니다.


시작하기: 최소한의 스타터 세트

거창한 프로그램 없이 이걸 시작해 보고 싶다면, 아주 작게 시작해도 됩니다.

  1. 최근에 특히 고통스러웠던 장애 한 건을 고릅니다.
  2. 거기서 다음을 뽑아냅니다.
    • 장애 시나리오 설명
    • 참여했던 역할들
    • 내려졌던 핵심 결정 5–10개
  3. 이 요소들을 다음처럼 바꿉니다.
    • 시나리오 카드 1장
    • 역할 카드 2–3장
    • 간단한 체크리스트 1개
      예: “SEV-1 선언 및 첫 15분 행동 계획”
  4. 실제 해당 팀과 함께 60분짜리 테이블탑 연습을 잡습니다.
  5. 실제 장애가 지금 일어나는 것처럼, 다음 두 가지만 사용해서 그대로 따라가 봅니다.
    • 준비한 아날로그 도구들
    • 실제 프로덕션에서 사용할 디지털 시스템들

끝나고 나서 이렇게 물어봅니다.

  • 어떤 부분이 헷갈리거나 느리게 느껴졌는가?
  • 그 순간에 어떤 종이 프롬프트가 있었다면 도움이 되었을까?
  • 어떤 디지털 워크플로우를 고치거나 단순화해야 할까?

이 답을 기준으로 개선합니다. 한 달에 한두 개씩 새 도구를 추가해 보세요. 시간이 지나면, 단출한 종이 아티팩트 작업대가 조용하지만 강력한 장애 대응 준비 시스템으로 자라납니다.


결론: 더 나은 장애 스토리를 함께 만들어 가기

대규모 장애는 언제나 스트레스를 부릅니다. 하지만 마비되거나, 이해할 수 없는 블랙박스일 필요는 없습니다. 대신 이렇게 할 수 있습니다.

  • 구조화된 ITSM 워크플로우에 단순한 아날로그 보조 도구를 더하고,
  • 실제 조건에서도 실용적이고 저스트레스인 가이드가 되도록 설계하고,
  • 현실적인 단계별 장애 시나리오—중첩된 비상 상황까지 포함해서—를 연습하고,
  • 테이블탑 연습을 통해 문서로만 존재하던 계획을 몸에 밴 근육 기억으로 바꾸면,

결국 팀에 줄 수 있는 것은 하나입니다. 정말 필요할 때 발휘되는 자신감입니다.

아날로그 장애 스토리 메이커 벤치는 종이에 대한 향수가 아닙니다. 그저, 압박 속에서도 사람이 잘 일할 수 있게 해 주는 가장 단순한 매체를 고르는 일입니다. 몇 장의 카드, 하나의 체크리스트, 한 번의 테이블탑으로 시작해 보세요. 계속 쌓아 가면, 연습이 거듭될수록 당신의 작은 종이 도구들은 큰 장애를 조금 덜 무섭게, 그리고 훨씬 더 다룰 만한 것으로 바꿔 줄 것입니다.

아날로그 위기 스토리 메이커 벤치: 큰 장애도 덜 두렵게 만드는 작은 종이 도구 만들기 | Rain Lag