Rain Lag

종이 incident 이야기 전동차 박물관: 가장 큰 장애에서 건져 올리는 작은 아날로그 유물들

가장 끔찍했던 장애들을 ‘괴짜 박물관 전시’처럼 다루면, 고통스러운 사건들이 신뢰성, 투명성, DFIR 실무를 강화하는 사람 중심의 학습 시스템으로 바뀔 수 있다.

종이 Incident 이야기 전동차 박물관: 가장 큰 장애에서 건져 올리는 작은 아날로그 유물들

당신이 겪었던 가장 고통스러운 장애가, 아무도 두 번 읽지 않는 딱딱한 PDF 보고서로 끝나는 대신, 조직 누구나 찾아가 보고 싶어 하는 ‘박물관’ 속 기묘하고 기억에 남는 전시품이 된다면 어떨까?

이게 바로 **종이 Incident 이야기 전동차 박물관(Paper Incident Story Trolley Museum)**의 아이디어다. 큰 장애에서 나온 작은 아날로그 산출물을 수집하고 큐레이션해서, Slack 워 룸이 닫히는 순간 조직의 기억이 증발해 버리는 일을 막는 서사적 프레임워크다.

당신의 장애 히스토리를 따라 움직이는 전동차를 떠올려 보자. 이 전동차는 곳곳에 멈춰서, 포스트잇, 손으로 그린 다이어그램, 타임스탬프가 찍힌 티켓, 휘갈겨 쓴 타임라인들로 채워진 전시를 보여준다. 각 유물은 “무슨 일이 있었는지, 어떻게 대응했는지, 무엇을 배웠는지”를 사람의 이야기로 명확하게 전달하도록 큐레이션된다.

이 글에서는 종이 Incident 이야기 전동차 박물관이 무엇인지, 그것이 사이트 신뢰성(SRE), DFIR 원칙, 안전한 배포 관행과 어떻게 맞닿아 있는지, 그리고 당신 조직에서도 이걸 어떻게 만들어 볼 수 있는지 살펴본다.


왜 장애 이야기는 ‘박물관’이 필요할까

대부분의 incident 프로세스는 이미 엄청난 양의 데이터를 쏟아낸다.

  • 티켓 업데이트와 상태 페이지
  • 채팅 로그와 콜 노트
  • 모니터링 알림과 대시보드
  • 변경 로그와 배포 히스토리
  • 사후 보고서와 root cause 분석서(RCA)

문제는 정보가 부족한 게 아니라, 이야기가 부족한 과잉 정보라는 점이다.

전통적인 포스트모템은 대개 이렇게 된다.

  • 지나치게 밀도 높고 기술적이다.
  • 몇 주만 지나도 다시 꺼내 보기 어렵다.
  • incident 동안 사람들에게 실제로 어떤 일이 있었는지와 동떨어져 있다.
  • 비전문가나 새로 합류한 사람에겐 거의 닿지 않는다.

그 결과, 가장 값진 신뢰성 교훈들은 데이터 더미 속에 묻혀 버린다.

종이 Incident 이야기 전동차 박물관은 이 전체 과정을 재구성한다. 포스트모템을 단순히 처리하고 보관해야 할 서류로 보는 대신, 각 incident를 큐레이션된 전시로 다룬다.

“이 날은 데이터베이스가 사이트를 끌고 내려가려 했던 날입니다. 여기엔 그 시작을 알린 티켓, 원인을 파헤치는 데 결정적인 역할을 한 화이트보드 스케치, 그리고 우리가 어디서 회복했고 어디서 헛걸음을 했는지를 보여주는 타임라인이 있습니다.”

이렇게 되면 장애는 빨리 잊고 싶은 문제가 아니라, 직접 걸어 다니며 다시 보고, 계속해서 배울 수 있는 이야기가 된다.


종이 Incident 이야기 전동차 박물관이란 무엇인가

핵심적으로 이 박물관은 서사적 프레임워크와 물리적(또는 디지털-아날로그) 공간의 결합이다. 여기서 당신은 다음을 수행한다.

  1. 주요 incident에서 나온 작은 아날로그 유물들을 모은다: 인덱스 카드, 포스트잇, 손으로 쓴 타임라인, 주석이 달린 그래프 출력물, 온콜 노트 등.
  2. 그것들을 하나의 일관된 이야기로 큐레이션한다: 무엇이 일어났는지, 어떻게 감지했는지, 어떤 결정을 내렸는지, 어떻게 복구했는지.
  3. 그 이야기를 내부 팀에게, 필요 시 고객에게도 노출해 장애를 어떻게 최소화하는지 보여준다.

여기서 ‘아날로그’라는 말은 디지털 텔레메트리를 무시한다는 뜻이 아니다. 오히려 물리적이거나 종이 같은 아티팩트가 복잡한 incident를 다음과 같이 만들어 주기 때문이다.

  • 한눈에 훑어보기 쉽고
  • 기억에 잘 남고 (사람들은 빨간 펜으로 그린 그림을 오래 기억한다)
  • 비전문가에게도 위압적이지 않다

말하자면, 장애 고고학을 실제로 눈앞에 펼쳐 보이는 것과 같다.


박물관이 신뢰성과 투명성에 기여하는 방식

1. “말”이 아니라 “그림”으로, 신뢰성을 보여준다

고객은 종종 이렇게 묻는다. “이런 일이 다시 안 생기게 어떻게 보장하나요?”

박물관은 여기에 대해 구체적이고 시각적인 답을 제공한다.

  • 안전한 배포 관행: 주석이 달린 배포 로그, 기능 플래그 결정, 롤백 흐름을 보여준다.
  • 지속적인 모니터링: 처음 문제를 감지한 알림과, 임계값이 어떻게 도움이 됐는지(혹은 실패했는지)를 전시한다.
  • 신속한 incident 대응: incident 커맨더의 타임라인과 에스컬레이션 트리를 포함한다.

“우리는 모범 사례를 따릅니다” 같은 추상적인 말 대신, 실제 프로세스가 어떻게 작동했는지 보여주는 전시를 가리킬 수 있다.

내부적으로도 이런 투명성은 팀 간 신뢰를 쌓는다.

  • 프로덕트 팀은 SRE와 운영팀이 압박 속에서 어떻게 일하는지 본다.
  • 엔지니어링 팀은 “작은 변경 하나”가 어떤 연쇄 효과를 내는지 눈으로 확인한다.
  • 리더십은 시스템의 취약성과 회복력을 구체적인 모습으로 바라볼 수 있다.

2. 미래의 엔지니어를 위한 조직 기억 보존

큰 장애가 일어날 때마다 실제론 다음과 같은 것들이 함께 일어난다.

  • 소수만 기억하는 문맥(context)
  • 압박 속에서 이뤄진 다양한 트레이드오프
  • 몇 시간 만에 다시 찾아낸 “이상한 엣지 케이스”들

큐레이션을 별도로 하지 않으면, 그 지식은 incident 커맨더나 스태프 엔지니어가 회사를 떠나는 순간 함께 사라진다.

각 장애를 박물관 전시로 만들면 다음을 할 수 있다.

  • 단순한 사실 나열이 아니라, 왜 그런 결정을 했는지 “이유”까지 담아낸다.
  • “스파이크 직전에 cache hit rate가 미묘하게 떨어졌었다”처럼, 형식적인 보고서 안에 잘 안 들어가는 독특한 관찰도 살려 둔다.
  • 새로 합류한 사람들이 실제 시스템이 어떻게 실패하고 반응하는지를 스토리 기반으로 이해할 수 있게 만든다.

새로운 SRE에게 방침 문서 뭉치를 건네는 대신 이렇게 말할 수 있다.

“지난해 가장 큰 incident 세 개를 전동차 타고 쭉 돌아봐요. 우리 아키텍처, 주요 실패 양상, 그리고 우리가 어떻게 대응하는 문화를 갖고 있는지 한눈에 이해하게 될 겁니다.”


DFIR와의 정렬: 체계적, 다원적, 이야기 우선

이 박물관은 **Digital Forensics and Incident Response(DFIR)**를 대체하는 것이 아니다. 오히려 DFIR의 엄밀함을 활용하고 드러내는 친화적인 프런트엔드다.

박물관이 기반하고 있는 핵심 DFIR 원칙은 다음과 같다.

  1. 여러 소스로부터의 체계적인 증거 수집

    • 로그, 트레이스, 메트릭
    • 설정과 배포 히스토리
    • 티켓, 채팅 기록, 콜 노트
    • 비즈니스 임팩트 데이터(지원 문의량, 에러율, 매출 영향 등)
  2. 조사 워크플로의 일부 자동화

    • 알림과 티켓 타임스탬프에서 자동으로 타임라인 초안을 만드는 것
    • 관련 로그, 대시보드, 커밋을 자동으로 엮는 것
    • 주석이 달린 핵심 그래프를 인쇄용 아티팩트로 생성하는 것
  3. 필요 시 증거 보존(chain of custody)과 무결성 유지

    • 규제가 있는 환경에선 원본 데이터는 보안 시스템 안에 그대로 보관한다.
    • 박물관에는 적절히 큐레이션되고, 편집·마스킹·요약된 아티팩트만 사용한다.

즉, 박물관은 DFIR 스택을 대체하는 것이 아니라, 그 위에 올라서 서사적이고 접근 가능한 레이어를 제공한다. 특히 SIEM이나 incident 관리 툴에 직접 접속하지 않을 사람들에게 그러하다.


기술적인 incident를 더 많은 뇌에 ‘닿게’ 만드는 법

많은 사람들은 다음과 같은 것에 어려움을 느낀다.

  • 빽빽한 root cause 텍스트
  • 지나치게 추상적인 아키텍처 다이어그램
  • 수십 개의 메트릭이 한 화면에 넘쳐나는 대시보드

박물관의 목표는 **인지적 포용성(cognitive inclusivity)**이다.

  • 단순한 시각 자료: 핵심 데이터 플로우만 보여 주는 손그림 박스와 화살표
  • 물리적인 타임라인: 끈, 포스트잇, 인쇄된 카드에 시간과 짧은 문장을 적어 순서대로 붙이기
  • 스토리 우선 구성: 각 전시는 다음 세 가지 질문에 평이한 언어로 답해야 한다.
    1. 무엇이 고장 났는가?
    2. 우리는 어떻게 알았는가?
    3. 우리는 무엇을 했고, 다음엔 무엇을 다르게 할 것인가?

이야기 속에 기술적인 디테일을 묶어 넣으면 더 많은 사람이

  • 흐름을 따라갈 수 있고,
  • 제대로 된 질문을 던질 수 있고,
  • 배운 내용을 오래 기억할 수 있다.

이건 엔지니어뿐 아니라 다음과 같은 사람들에게도 중요하다.

  • 고객 성공(Customer Success)과 지원(지원센터) 팀
  • 프로덕트 매니저와 디자이너
  • 리더십과 비기술 직군 이해관계자들

모두가 이 이야기를 이해할 수 있을 때, 조직 전체가 incident를 예측하고, 소통하고, 완화하는 능력이 향상된다.


나만의 종이 Incident 이야기 전동차 박물관 만들기

실제 전동차를 만들 필요는 없다(물론 있으면 재미있겠지만). 필요한 건 반복 가능한 패턴이다.

1. 어떤 incident가 ‘큐레이션 대상’인지 정의하기

예를 들어, 다음 중 하나에 해당하면 전시 대상으로 삼을 수 있다.

  • 고객이 체감할 수 있는 다운타임이 있었던 incident
  • Sev-1, Sev-2급 incident
  • 여러 팀이 동시에 대응한 이벤트(예: 보안, 인프라, 프로덕트가 모두 참여)

모든 작은 glitch를 전시로 만들 필요는 없다. 의미 있는 무언가를 가르쳐 줄 장애를 고르는 것이 중요하다.

2. incident 도중에 아날로그 아티팩트 수집하기

대응자들에게 다음을 장려하자.

  • 핵심 관찰을 인덱스 카드나 포스트잇에 적어 두기
  • 종이/화이트보드에 다이어그램을 그려 두고 사진 찍어 두기
  • 중요한 시각들을 간단한 손그림 타임라인에 표시하기

incident 이후에는 다음을 출력하고 주석을 추가한다.

  • 의미 있는 알림 그래프
  • 티켓 상태 변화
  • 상태 페이지 업데이트 내용

이것들이 전시의 원재료가 된다.

3. 데이터 더미가 아니라 ‘이야기’를 큐레이션하기

**큐레이터(보통 incident 리드)**를 지정해 1~2쪽짜리 이야기를 만든다.

  • 짧고 평이한 서술형 내러티브
  • 핵심 전환점을 한눈에 볼 수 있는 1페이지짜리 타임라인
  • 의사결정이나 의외의 발견을 밝혀 주는 3~5개의 아티팩트

이것들을 실제 공간(벽, 보드, 포스터 등)에 배치하거나, 카드와 이미지를 자유롭게 배열할 수 있는 디지털 공간에 구성한다.

그리고 스스로에게 묻는다. “우리 스택에 대해 아무것도 모르는 사람이 봐도 흐름을 따라갈 수 있을까?”

4. 기존 사후 incident 프로세스와 연결시키기

박물관은 기존 프로세스를 대체하는 것이 아니라 끼워 넣는 것이다.

  • 포스트모템 문서 → 해당 incident 전시로 링크
  • RCA와 액션 아이템 → 이야기 안에서 요약
  • DFIR 데이터 → 아티팩트 뒤에 있는 “소스 레이어”로 참고 링크 제공

시간이 지날수록 전동차는 전시로 가득 찬 타임라인이 된다. 시스템과 운영 관행이 어떻게 진화해 왔는지 한눈에 볼 수 있는, 살아 있는 히스토리다.

5. 적절할 때 고객과도 공유하기

고객에게 투명성을 제공하고 싶다면:

  • 민감한 정보는 마스킹/삭제한다.
  • 다음을 강조한다.
    • 얼마나 빨리 문제를 감지했는지
    • 어떤 세이프가드가 영향 범위를 줄이는 데 기여했는지
    • 장기적으로 어떤 변화를 추진하고 있는지

이렇게 하면 “우리는 신뢰성을 중요하게 생각합니다”라고 말만 하는 것이 아니라, 그 말 뒤에 있는 기계 장치와 이야기를 직접 보여 주는 셈이다.


마른 보고서에서 사람 중심 신뢰성으로

종이 Incident 이야기 전동차 박물관은 종이에 대한 향수가 아니다. 이건 실패를 인간적인 방식으로 다루는 법에 대한 이야기다. 그 방식은 다음을 동시에 만족시킨다.

  • 현대 시스템의 복잡성을 존중하고,
  • 엄격한 DFIR·SRE 관행과 정렬되며,
  • 가장 힘들었던 날들을 최고의 학습 자산으로 바꾸어 준다.

티켓, 노트, 다이어그램, 타임라인 같은 작은 아날로그 유물들을 큐레이션함으로써, 당신은 다음을 얻게 된다.

  • 압박 속에서 조직이 어떻게 반응하는지에 대한 공유된 서사
  • 배포, 모니터링, incident 대응 방식에 대한 투명한 창
  • 고통스러운 모든 장애가, 잊혀 가는 공포가 아니라 배울 거리가 가득한 전시가 되는 살아 있는 라이브러리

incident를 시체안치소가 아니라 박물관처럼 다루자. 실패를 전동차에 실어 라벨을 붙이고, 모두가 그 사이를 걸어 다니게 하자. 그 결과는 단순한 문서화 개선에 그치지 않는다. 조직은 더 탄탄해지고, 더 솔직해지며, 학습 중심으로 진화한다.

종이 incident 이야기 전동차 박물관: 가장 큰 장애에서 건져 올리는 작은 아날로그 유물들 | Rain Lag