Rain Lag

아날로그 인시던트 디오라마: 당신의 최악의 장애를 신발상자 크기로 재현하기

최악의 프로덕션 장애나 보안 사고를 신발상자 크기의 물리적 디오라마로 만들어, 팀이 실패를 더 잘 이해하고 인시던트 대응을 개선하며 더 탄탄한 시스템을 설계하도록 돕는 방법을 소개합니다.

소개: 포스트모템만으로는 부족할 때

대부분의 팀은 큰 장애나 보안 사고가 터지면 비슷한 패턴을 밟습니다. 급하게 인시던트 콜을 열고, 정신없는 Slack 채널에서 우왕좌왕한 다음, 회사 절반은 읽지도 않는 슬라이드 포스트모템으로 마무리하죠.

결과는 뻔합니다. 같은 실수를 반복합니다. 다이어그램은 여전히 추상적이고, 사람과 조직의 문제는 불릿 포인트 사이에 묻혀 버립니다. 새로 합류한 동료들은 “그때 그 큰 장애”가 실제로 얼마나 심각했는지, 비슷한 일이 다시 일어나면 어떻게 대응해야 하는지 몸으로 느끼지 못합니다.

여기서 등장하는 것이 바로 아날로그 인시던트 디오라마(Analog Incident Diorama) 입니다. 당신의 최악의 장애나 보안 사고를 신발상자 크기의 물리적 모형으로 재구성하는 것이죠. 이렇게 생각하면 됩니다.

  • 하이테크 실패를 위한 로우테크, 손으로 만질 수 있는 모델
  • 아날로그 호러와 TRPG(테이블탑 RPG)에서 영감을 받은 재난 스토리보드
  • 엔지니어, 보안, 지원, 리더십이 함께 쓰는 협업형 트레이닝 도구

이건 단순한 공예 시간이 아닙니다. 실패를 손에 잡히게 만들고, 결정 지점과 커뮤니케이션의 빈틈을 드러내며, 최악의 인시던트를 강력한 학습 아티팩트로 바꾸는 방법입니다.


왜 아날로그 인시던트 디오라마를 만들까?

물리적인 모델은 Confluence 문서나 시퀀스 다이어그램과는 다른 사고를 강요합니다. 디오라마는 다음을 가능하게 합니다.

  • 무슨 일이 일어났는지 충분히 곱씹을 만큼 속도를 늦추고
  • 여러 감각을 동시에 자극해, 인시던트를 더 오래 기억에 남게 만들며
  • 비기술자도 참여할 수 있는 장을 열고
  • 단순한 기술적 원인분석이 아니라 이야기 자체에 초점을 맞추게 합니다.

“데이터베이스가 장애 났다” 대신, 이렇게 말하게 되죠.

09:42, 온콜 SRE는 애매한 알림을 봤다. 09:47, 고객지원은 티켓 폭주에 휩싸였다. 09:53, 잘못 보낸 Slack 멘션 때문에 DB 팀은 훨씬 뒤에야 인시던트를 인지했다.

디오라마는 이런 순간들이 절대 무시될 수 없게 만드는 3D 스토리보드가 됩니다.


1단계: 인시던트(그리고 범위) 고르기

먼저 하나의 의미 있는 장애나 보안 사고를 고릅니다. 특히 다음과 같은 특징이 있으면 좋습니다.

  • 여러 팀이 얽혀 있었고
  • 사람·조직·커뮤니케이션 이슈가 복잡하게 섞여 있었으며
  • 그 당시에는 혼란스럽고 카오틱하게 느껴졌던 사건

그 다음, 범위를 정의합니다.

  • 시간 범위: 예) 첫 알림 발생 시점부터 완전 복구까지
  • 핵심 행위자: 주요 시스템, 팀, 외부 의존성
  • 핵심 결정 지점: 선택이나 오해로 인해 진행 경로가 바뀐 순간들

회사의 모든 걸 모델링하려는 게 아닙니다. 이야기 중심의, 포커스가 맞춰진 현실의 한 조각을 만드는 게 목표입니다.


2단계: 원자료 모으기 (디지털에서 물리로)

실제 인시던트에서 나온 아티팩트를 최대한 모읍니다.

  • 알림 타임라인과 대시보드 스냅샷
  • 채팅 로그(Slack 등)와 이메일 스레드
  • 콜 녹음, 인시던트 브리지 회의 기록
  • 티켓 타임라인(지원, 운영, 보안 등)
  • 포스트 인시던트 리포트나 Root Cause Analysis 문서

이 자료들에서 다음을 식별합니다.

  • 주요 이벤트: 시스템 상태가 실제로 변한 시점
  • 관찰 내용: 누가 언제 무엇을 봤는지
  • 결정: 누가 어떤 가정을 바탕으로 무엇을 선택했는지
  • 오커뮤니케이션: 놓친 멘션, 무시된 채널, 애매한 책임 소재

이 요소들이 나중에 디오라마 안의 장면과 소품이 됩니다.


3단계: 신발상자 크기의 세계 만들기

미술 실력이 필요하지는 않습니다. 중요한 건 상징성과 명료함입니다.

기본 준비물:

  • 신발상자나 아무 상자(혹은 시스템 도메인별로 여러 개)
  • 실, 포스트잇, 인덱스 카드
  • LEGO/피규어, 종이 인형, 단순한 블록(서비스와 사람 표현용)
  • 마커, 테이프, 컬러 스티커, 색실(실)

상자 안을 세 개의 핵심 레이어로 구성해 봅니다.

1. 시스템 토폴로지 레이어

상자 바닥을 미니 아키텍처 다이어그램으로 활용합니다.

  • 블록으로 서비스 표현 (API, DB, 캐시, 인증 서비스 등)
  • 선으로 연결과 의존성을 그립니다.
  • 외부 서비스(클라우드, 결제 게이트웨이, IdP 등)는 다른 색이나 모양으로 표시합니다.

여기에 간단한 신뢰성 모델링 요소를 더합니다.

  • 중복 구성 요소: 같은 라벨을 공유하는 쌍 블록으로 표현
  • 단일 장애점(SPOF): 빨간색으로 강조 표시
  • 폴백 경로: 백업이나 강등 모드로 가는 경로를 점선으로 표시

2. 사람 & 조직 레이어

상자 벽이나 2층 구조를 활용해 사람과 팀을 표현합니다.

  • 온콜 엔지니어, 인시던트 커맨더, 고객지원, 보안, 프로덕트, 리더십 등을 작은 피규어나 카드로 표시
  • 사람과 사람, 팀과 팀 사이에 실을 연결해 커뮤니케이션 경로(Slack, PagerDuty, 이메일, 전화)를 나타냅니다.
  • 지연되거나 끊어진 커뮤니케이션은 별도 색이나 표시로 강조합니다.

3. 타임라인 & 스토리보드 레이어

상자 윗부분이나 테두리를 따라 종이 띠 또는 카드를 배치합니다.

  • 카드 한 장 = 하나의 타임스탬프 이벤트
    • 예) 09:41: 첫 알림, 09:47: 고객지원 폭주, 10:05: 잘못된 롤백 실행
  • 각 이벤트 카드에서 상자 안으로 실을 내려 연결합니다.
    • 어떤 시스템이 바뀌었는지, 누가 어떤 행동을 했는지 보여주는 거죠.

이제 당신에게는 단순한 시스템 다이어그램이 아닌, 실제로 무슨 일이 벌어졌는지 보여주는 3D 스토리보드가 생깁니다.


4단계: 살짝 아날로그 호러 감성 입히기

점프 스케어나 공포 연출까지는 필요 없습니다. 하지만 아날로그 호러(Analog Horror) 특유의 느리게 다가오는 불길함과 피할 수 없는 느낌은 유용합니다.

예를 들어 이렇게 해볼 수 있습니다.

  • 조명 연출: 손전등이나 휴대폰 플래시로 타임라인을 따라가며 장면을 하나씩 비추기
  • 복선 시각화: 사소해 보이는 경고 알림에서 시작해, 나중의 대형 장애로 이어지는 빨간 실을 이어두기
  • 전파되는 실패 표현: 서비스 블록의 색을 초록에서 빨강으로 바꾸며 장애가 어떻게 퍼지는지 보여주기

이런 연출은 팀이 이런 내러티브 긴장감을 느끼게 만듭니다.

"우리에겐 이걸 눈치채고 바로잡을 기회가 여러 번 있었는데, 결국 그러지 못했다."

이 감각이야말로 준비성을 높이는 강력한 동기가 됩니다.


5단계: 테이블탑 엑서사이즈 기법 접목하기

이제 물리 모델이 생겼으니, 이를 Tabletop Exercise(테이블탑 모의훈련) 보드처럼 활용합니다.

  1. 타임라인 따라가기

    • 포인터를 타임라인 카드 위에서 천천히 움직입니다.
    • 각 시점마다, 각 행위자가 무엇을 보고 무엇을 믿고 있었는지 설명합니다.
    • 실제로 그 자리에 있었던 사람에게 당시의 생각과 판단 과정을 직접 이야기하게 합니다.
  2. 결정 지점에서 멈추기

    • 어디에서 누가 A 대신 B를 선택했는지 짚습니다.
    • 그때 어떤 정보가 있었고, 무엇이 빠져 있었는지 살펴봅니다.
  3. "만약에?" 질문 던지기

    • "이 알림이 처음부터 맞는 팀에 갔다면?"
    • "이 페일오버가 제대로 작동했다면?"
    • "고객지원에 더 나은 런북이 있었다면?"
  4. 대체 미래 시뮬레이션하기

    • 피규어를 다른 경로로 움직여 봅니다.
    • 의존선 하나를 바꾸어 봅니다. (예: 캐시 추가, 서킷 브레이커 도입 등)
    • 어떤 부분은 여전히 빨간색(장애)으로 끝나는지 확인합니다.

이렇게 하면 디오라마가 탐지, 커뮤니케이션, 복구 워크플로를 안전하게 실험해 볼 수 있는 샌드박스가 됩니다.


6단계: 기술만이 아니라, 결정과 커뮤니케이션에 초점 맞추기

대부분의 포스트모템은 기술적인 Root Cause에 과도하게 집중합니다. 디오라마에서는 의도적으로 사람과 조직의 요소에 스포트라이트를 비춥니다.

다음 항목들을 명시적으로 표시해 보세요.

  • 불명확한 오너십 ("이 알림은 원래 누가 처리해야 하지?")
  • 역할 혼선 (인시던트 커맨더가 둘이거나, 아무도 없거나)
  • 채널 난립 (Slack 채널이 다섯 개인데, 단 하나의 단일 진실 소스가 없음)
  • 에스컬레이션 지연 (핵심 팀이 30분 이상 지나서야 참여)
  • 인지 과부하 (한 명이 로그 분석, 커뮤니케이션, 고객 응대를 모두 떠맡는 상황)

이제 모델을 따라가며 질문합니다.

  • 중요한 정보는 어느 순간 누구 머릿속에만 있었는지, 혹은 특정 채널에만 갇혀 있었는지?
  • 우리는 어디에서 속도 vs. 명확성 사이의 균형을 잘못 잡았는지?
  • 간단한 의식(ritual)—예를 들어 10분마다 상태 브리핑, 커뮤니케이션 전담 서기 지정—만으로도 개선될 수 있었던 지점은 어디인지?

이 인사이트들을 포스트잇에 적어, 디오라마의 해당 부분에 직접 붙여두세요.


7단계: 신뢰성(Reliability) 모델링 개념 통합하기

디오라마를 활용해 신뢰성 사고방식을 구체적으로 가르치고 점검할 수 있습니다.

모델에 다음과 같은 주석을 달아 봅니다.

  • 중복성(Redundancy): 실제로는 독립적인 페일오버를 가진 서비스 vs. 겉으로만 중복처럼 보이고 사실은 숨겨진 SPOF(같은 리전, 같은 Credential Store, 같은 Message Queue 등)를 공유하는 서비스 구분 표시
  • 블라스트 레디우스(Blast Radius): 서비스별 영향 범위를 색으로 구분 — 조용히 실패하는 것 vs. 시끄럽게 터지는 것, 고객 전체 다운 vs. UX 강등 정도로만 끝나는 것
  • 실패 모드(Failure Modes): 용량 부족, 설정 오류, 의존성 장애, 보안 침해, 데이터 손상 등 다양한 실패 유형을 구분해 표시
  • 탐지 vs. 영향(Detection vs. Impact): 어떤 실패는 빠르게 탐지되고, 어떤 실패는 오래도록 눈에 띄지 않는지 시각적으로 보여주기

그리고 미니 시나리오를 돌려 봅니다.

  • "이 리전이 통째로 날아가면, 어떤 연쇄 반응이 일어나는지 따라가 봅시다."
  • "이 Credential이 유출되면, 공격자는 실제로 어디까지 접근할 수 있을까요?"
  • "이 캐시가 오래된 데이터를 계속 내보내면, 누가 어떻게 눈치채게 될까요?"

이 과정을 통해 PDF 문서보다 훨씬 오래 남는 공유된 신뢰성 멘탈 모델을 쌓게 됩니다.


8단계: 크로스 펑셔널 의식으로 만들기

진짜 힘은 디오라마가 한 번 하고 치우는 이벤트가 아니라, 협업 도구가 될 때 나옵니다.

다양한 조직 구성원을 초대하세요.

  • 엔지니어링 (개발, SRE, 플랫폼)
  • 보안 팀
  • 고객지원 / Customer Success
  • 프로덕트·프로그램 매니저
  • 인시던트 매니저나 리더십

세션에서는 이렇게 활용합니다.

  • 각 관점에서 "무엇이 잘못되었는가?"를 이야기하게 하고
  • "다음에는 무엇을 다르게 할 것인가?"를 구체적인 변경 사항으로 정리하며
  • 온콜 준비도, 툴 숙련도 등 교육·훈련의 빈틈을 파악하고
  • 도출된 인사이트를 티켓, 런북, 플레이북 업데이트로 연결합니다.

디오라마는 전쟁실(war room)이나 팀 공간의 눈에 띄는 곳에 두거나, 사진과 문서로 남겨 살아 있는 학습 아티팩트로 유지합니다.


9단계: 새로운 시나리오로 반복하기

한 번으로 끝내지 마세요.

아날로그 인시던트 디오라마를 주기적인 연습으로 만듭니다.

  • 큰 아키텍처나 프로세스 변화가 있었다면, 같은 인시던트를 새 상태에 맞게 다시 모델링해 보기
  • 완전히 가상의 시나리오를 모델링해 보기:
    • 주요 클라우드 제공업체 전체 장애
    • 랜섬웨어 공격
    • CI/CD 파이프라인 탈취
    • 리전 단위 네트워크 단절
  • "예전 세계 vs. 새로운 세계" 디오라마를 비교해, 변경 사항이 실제로 리스크를 줄였는지 확인하기

시간이 지날수록, 당신은 아찔한 사고와 아슬아슬한 회피 사례의 물리적 라이브러리를 쌓게 되고, 그것들을 부끄러운 흑역사가 아니라 개선을 위한 원재료로 바라보는 문화를 만들 수 있습니다.


결론: 고통을 실천으로 바꾸기

실과 종이로 채운 신발상자가 당신의 시스템을 직접 고쳐주진 않습니다. 하지만 이런 효과는 분명히 있습니다.

  • 깔끔한 Root Cause 한 줄로는 절대 담기지 않는, 실제 장애 전개 과정을 드러내고
  • 눈에 보이지 않던 의존성과 단일 장애점을 무시할 수 없게 만들며
  • 중요한 결정 지점, 커뮤니케이션 경로, 인간적인 한계를 조명하고
  • 복잡하고 지저분한 실패 상황에 대한 대응을 안전하게 연습할 수 있는 장을 제공합니다.

디지털 도구는 실시간 대응에 최적화되어 있습니다. 하지만 되돌아보고, 가르치고, 공통된 이해를 쌓는 데에는 아날로그 방식이 놀랄 만큼 강력할 수 있습니다.

당신의 최악의 장애는 이미 과거입니다. 이제 그 사건을 신발상자 크기의 복제본으로 만들어, 다음 인시던트가 더 짧고, 더 명확하며, 시스템·팀·고객 모두에게 훨씬 덜 고통스럽도록 만드는 데 활용해 보세요.

아날로그 인시던트 디오라마: 당신의 최악의 장애를 신발상자 크기로 재현하기 | Rain Lag