Rain Lag

아날로그 인시던트 열차 박물관: 어제의 장애를 걸어서 배우는 전시로 바꾸기

“아날로그 인시던트 열차 박물관”이라는 아이디어를 탐구합니다. 과거 장애를 종이 기반의 걸어다니며 볼 수 있는 전시로 만들어 상황 인식을 높이고, 협업을 개선하며, 인시던트 대응을 ‘불끄기’에서 ‘학습하는 문화’로 전환하는 방법을 소개합니다.

아날로그 인시던트 열차 박물관: 어제의 장애를 걸어서 배우는 종이 전시로 큐레이션하기

디지털 시스템은 놀랍도록 아날로그한 방식으로 실패합니다.

설정 파일의 오타, 잊혀진 feature flag, 책상 밑에서 발에 차여 빠진 케이블 — 이런 작은 사건들이 큰 장애로 이어집니다. 장애가 터지면 우리는 허겁지겁 대응합니다. 티켓이 쏟아지고, 대시보드는 붉게 물들고, 채팅방은 순식간에 폭주하죠. 그리고 나중에 누군가는 성실하게 포스트모템을 작성해 위키에 올리지만… 대부분 다시는 아무도 읽지 않습니다.

이걸 다르게 다룬다면 어떨까요? 과거 장애들을 마치 역사 유물을 전시하듯이—걸어다니며 직접 보고 탐색할 수 있는, 물리적인 형태로 큐레이션한다면요?

여기 아날로그 인시던트 열차 박물관(Analog Incident Train Museum) 이라는 아이디어가 있습니다. 과거 인시던트를 실제 종이 기반의 구조화된 전시로 만들어, 사람들이 그 사이를 직접 걸어 다닐 수 있는 작은 박물관 같은 물리적 공간입니다. 빠르고 혼란스러운 디지털 위기 상황에 대한, 의도적으로 느리고 아날로그적인 대응 방식인 셈이죠.

이건 향수 때문이 아니라, 전략입니다.


“뭔가 고장 났다”에서 구조화된 내러티브로

인시던트 보고(Incident reporting) 는 매우 넓은 스펙트럼을 가집니다.

  • 사용자가 피싱 메일을 보안팀에 포워드한다.
  • 고객지원 담당자가 “여러 고객에게서 로그인 불가”라는 티켓을 올린다.
  • 온콜 엔지니어가 다중 리전 장애에 대한 상세한 Root Cause Analysis(RCA)를 남긴다.

이 모든 것이 다 “인시던트 리포트”지만, 구조·명확성·유용성 측면에서 편차가 굉장히 큽니다.

실제 장애 상황에서 사람들은 영화처럼 깔끔한 시작·중간·끝을 경험하지 않습니다. 대신 이런 것들을 겪죠.

  • 제멋대로 튀어나오는 알람들
  • 여러 팀에서 동시에 쏟아지는 Slack·이메일
  • 결국 틀린 것으로 판명나는 가설들
  • 서로 다른 대시보드와 반쪽짜리 데이터

이 혼돈을 명확하고 구조화된 이야기로 바꾸는 일은, 조직의 회복탄력성을 높이는 데 가장 강력한 수단 중 하나입니다.

좋은 인시던트 내러티브는 다음을 답해 줍니다.

  • 무슨 일이 있었나? (이벤트의 타임라인)
  • 누가 언제 무엇을 왜 했나? (의사결정과 행동)
  • 각 시점에 무엇이 누구에게 보였나? (situational awareness, 상황 인식)
  • 무엇이 결과를 바꾸었나? (핵심 결정과 전환점)

이걸 단순한 로그가 아니라 타임라인이자 이야기로 담아내면, 다음이 훨씬 쉬워집니다.

  • 리더십이 영향도와 리스크를 이해하는 것
  • 엔지니어가 기술적 디테일을 파악하는 것
  • 고객·현업 대응팀이 명확하게 소통하는 것
  • 미래의 대응자가 패턴을 알아보고 더 빨리 대응하는 것

내러티브는 과거를 기록하는 데서 끝나지 않고, 다음 위기에서 우리가 어떻게 행동할지를 형성합니다.


한가운데에 있을 때, 왜 타임라인이 중요한가

인시던트 한복판에서, 라이브로 공유되는 인시던트 타임라인은 단순한 기록이 아니라 조정 도구입니다.

잘 설계된 타임라인은 다음을 개선합니다.

  1. 상황 인식(Situational awareness)
    알람, 결정, 완화 조치, 상태 변화가 시간 순으로 한눈에 보입니다. 더 이상 “잠깐, 누가 뭐를 재시작한 거죠?” 같은 혼란이 줄어듭니다.

  2. 크로스팀 협업(Cross-team coordination)
    SRE, 개발, 네트워크/인프라, 보안, 고객지원이 제각각 머릿속 모델이 아니라, 공유된 사건의 순서를 기준으로 움직일 수 있습니다.

  3. 더 빠른 복구, 더 적은 다운타임
    이미 시도한 것, 대기 중인 것, 검증된 것들이 보이면, 같은 일을 중복으로 하거나 막다른 골목을 또 따라가는 낭비가 줄어듭니다.

  4. 위·외부 커뮤니케이션 개선
    경영진 브리핑, 고객 공지(Status Page), 내부 방송이 모두 같은 타임라인을 근거로 만들어지므로, 더 일관되고 정확해집니다.

하지만 인시던트가 끝나고 나면, 이 타임라인은 종종 탐구를 유도하지 않는 정적인 기록으로 굳어버립니다. 여기서 “박물관”이라는 발상이 등장합니다.


포스트모템 문서에서 걸어서 보는 전시로

당신의 조직에서 가장 중요한 장애만을 모아 둔 방을 떠올려 보세요. 벽을 따라, 혹은 안내 동선을 따라 걸어가다 보면 이런 것들을 마주하게 됩니다.

  • 수 미터에 걸쳐 인쇄·부착된 주석 달린 타임라인
  • 핵심 순간의 대시보드 스크린샷, 옆에는 상황 설명 메모
  • 채팅 로그 발췌본 — 어디서 결정이 내려졌고, 어디서 오해가 생겼는지 드러나는 대목들
  • 당시 기준의 시스템 아키텍처 다이어그램
  • 사용자가 실제로 겪은 일을 설명하는 고객 영향도 패널
  • 인시던트 이후 무엇이 바뀌었는지 정리한 리플렉션 카드(Reflection cards)

당신은 말 그대로 그 장애를 시간 순서대로 걸어가며 체험합니다.

이런 물리적·아날로그 프레젠테이션은 화면이 잘 해내지 못하는 것을 해냅니다.

  • 사람을 느리게 만듭니다. 걸어가며 읽고, 시간의 흐름을 따라 몸을 움직이게 되면, 자연스럽게 집중과 성찰이 일어납니다.
  • 맥락과 관계를 드러냅니다. 아키텍처 다이어그램 옆에 의사결정 로그가 함께 있으면, 인과관계가 더 선명해집니다.
  • 대화를 불러옵니다. 사람들은 타임라인의 특정 지점을 가리키며 말합니다. “여기서 우리가 알람을 잘못 읽었어요.” “여기서 배포 프로세스가 우리를 살렸죠.”
  • 학습을 정상화합니다. 장애를 숨기거나 지우려 할 것이 아니라, 박물관의 전시품처럼 다루며 “이건 우리가 연구해야 할 아티팩트”라는 메시지를 줍니다.

비난을 위한 자리가 아니라, 공유된 경험의 갤러리가 됩니다.


비난에서 큐레이션된 학습으로

많은 조직에서 포스트 인시던트 리뷰는 조용한 ‘수습 작업’ 정도에 그칩니다. 이야기는 축소·정제되고, 문서로 정리된 뒤, 어딘가에 보관됩니다. 실제 학습은 거의 일어나지 않습니다.

장애를 전시품으로 큐레이션하면 관점이 바뀝니다.

  • “악당”은 특정 개인이 아니라, 패턴입니다. 취약한 의존성, 불투명한 시스템, 빠진 가드레일 같은 것들 말이죠.
  • “영웅”은 우연히 나타난 구원자가 아니라, 실천과 관행입니다. 잘 정리된 런북, 괜찮은 observability, 공유된 컨텍스트 등.

박물관 같은 접근은 이런 문화를 드러냅니다.

  • 은폐보다 투명성을,
  • 빨리 덮어두기보다 탐구를,
  • 개인 탓보다 시스템적 개선을 중시하는 문화.

인시던트가 없었던 일인 척하지 않습니다. 오히려 벽에 걸고, 거기서 배웁니다.


실제 현장을 그냥 걸어 다니면 안 될까?

많은 도메인—제조 플랜트, 데이터센터, 철도 야드, 발전소—에서는 인시던트 이후나 설계 단계에서 Site Walkdown(현장 순시/워크다운) 이라는 전통이 있습니다.

  • 팀이 실제 현장을 함께 돌아다니며
  • 장비, 배선, 표지, 레이아웃을 살펴보고
  • 무슨 일이 일어났는지 재구성하거나, 앞으로 일어날 수 있는 일을 상상해 봅니다.

이런 현장 워크다운은 꽤 유용하지만, 동시에 이런 특징을 갖습니다.

  • 비용이 크다: 이동, 현장 체류 시간, 운영 중단 등 비용이 쌓입니다.
  • 위험할 수 있다: 위험한 환경, 보호장비 필요, 진행 중인 작업에 노출되는 리스크가 있습니다.
  • 초기 설계·분석에는 비효율적이다: 시스템이 아직 도면 단계이거나 일부만 구축된 상태라면, 현장 방문이 줄 수 있는 인사이트가 제한적입니다.

디지털 인프라의 경우, “현장”은 훨씬 더 추상적입니다. 하이브리드 클라우드 아키텍처, 메시지 버스, 리전을 가로지르는 마이크로서비스 묶음 같은 것들이죠. 이럴 땐 실제 “장소”를 걷는다는 개념이 잘 맞지 않습니다.

그래서 가상 워크다운(Virtual Walkdown) 이 필요해집니다.


가상 워크다운과 디지털 트윈(Digital Twin)

가상 워크다운(Virtual Walkdown) 은 3D 모델, 다이어그램, 디지털 트윈(Digital Twin)을 사용해, 팀이 어디서나 인프라와 인시던트를 함께 탐색할 수 있게 해 줍니다.

물리적 시스템이라면, 예를 들어 다음과 같을 수 있습니다.

  • 브라우저에서 돌아다닐 수 있는 시설의 3D 스캔
  • 센서가 울리거나 장비가 고장 난 지점을 표시한 오버레이

소프트웨어 시스템이라면, 예를 들어 이런 식입니다.

  • 실시간 의존성을 보여주는 인터랙티브 서비스 맵
  • 인시던트를 재생(replay) 할 수 있는 뷰 — 타임라인을 스크럽해 가며, 어느 시점에 어떤 서비스가 과부하였는지/실패했는지를 볼 수 있는 화면

가상 워크다운이 주는 이점은 다음과 같습니다.

  • 안전성: 위험한 환경에 사람을 보낼 필요가 없습니다.
  • 확장성: 훨씬 더 많은 사람이 “인시던트 현장”을 방문할 수 있습니다.
  • 정밀성: 디지털 트윈은 특정 타임스탬프의 정확한 상태와 관계를 재현할 수 있습니다.
  • 재현·반복 가능성: 같은 시나리오를 여러 번, 서로 다른 관점으로 다시 살펴볼 수 있습니다.

여기에 아날로그 인시던트 열차 박물관을 결합하면, 매우 강력한 조합이 됩니다.

  • 물리적·아날로그 공간은 성찰과 스토리텔링을 위해,
  • 가상 환경은 깊은 기술적 탐구와 시뮬레이션을 위해.

서로가 서로를 보완합니다.


디지털 시대에 왜 굳이 아날로그인가?

“위키도 있고, 동영상도 있고, 대시보드도 있는데, 왜 굳이 종이와 벽인가?”라는 질문이 떠오를 수 있습니다.

매체는 집중 방식을 바꿉니다.

디지털 인시던트를 박물관형 아날로그 전시로 보여주면:

  • 알림과 멀티태스킹의 소음을 잠시 끊어 줍니다.
  • 또 하나의 브라우저 탭이 아니라, 학습을 위한 전용 환경을 만듭니다.
  • 몸을 움직이며 배우는 체화된 인지(embodied cognition) 를 유도해, 이야기를 더 오래 기억하게 합니다.
  • 여러 인시던트를 나란히 전시하면, 반복되는 패턴이 훨씬 잘 보입니다.

예를 들어 이렇게 구성할 수 있습니다.

  • 한 벽은 “Alerting & Observability 관련 인시던트”
  • 다른 벽은 “Deployment & Release 관련 인시던트”
  • 또 다른 벽은 “Third-Party Dependency(외부 서드파티 의존성) 관련 인시던트”

이렇게 되면 박물관 전체가 곧 조직의 리스크 지도(Risk Landscape) 로 보이기 시작합니다.


나만의 아날로그 인시던트 열차 박물관을 시작하는 방법

거창한 예산이나 멋진 공간이 없어도 됩니다. 작게 시작하세요.

  1. 의미 있었던 인시던트 하나를 고른다
    아팠지만 배울 점이 많았던 장애를 선택하세요.

  2. 타임라인을 출력한다
    인시던트 로그를 내보내 여러 장의 종이로 이어 붙입니다. 타임스탬프, 담당자, 짧은 설명을 함께 넣으세요.

  3. 아티팩트를 덧붙인다

    • 핵심 메트릭 스냅샷
    • 당시 기준의 아키텍처 다이어그램
    • 중요한 의사결정과 오해가 드러나는 채팅 발췌
    • 고객지원·고객 관점의 영향 요약
  4. 학습 포인트를 주석으로 남긴다
    포스트잇·콜아웃 박스를 붙입니다.
    예: “여기서 알람을 잘못 해석함”, “이 완화 조치가 효과적이었던 이유 → …”

  5. 워크스루 세션을 연다
    다양한 팀이 섞인 그룹을 모아, 실제로 타임라인을 따라 걸어가며 함께 봅니다. 다음과 같은 질문을 던져 보세요.

    • 무엇이 가장 놀라웠나요?
    • 당시에는 무엇이 헷갈렸나요?
    • 이 ‘스타일’의 인시던트를 줄이려면, 어떤 시스템적 변화가 필요할까요?
  6. 반복하고 확장한다
    시간이 흐르면서 새로운 전시를 추가합니다. 학습이 충분히 조직에 스며들고, 개선이 완료된 인시던트는 전시에서 내려도 됩니다.

얼마 지나지 않아 문화적 신호가 바뀌는 걸 보게 될 것입니다. 신입들은 “여기서는 실제로 어떤 식으로 문제가 터지는지”를 이해하려고 박물관부터 찾습니다. 리더들은 투자 결정을 내릴 때 전시를 참조합니다. 인시던트는 고립된 사건이 아니라, 계속 이어지는 이야기의 한 챕터가 됩니다.


결론: 어제를 걸어서 지나가며 내일을 지키기

인시던트는 앞으로도 계속 일어날 것입니다. 시스템은 실패합니다. 완벽한 가용성은 신화에 가깝습니다.

하지만 그 실패를 어떻게 큐레이션할지는 전적으로 우리의 선택입니다.

인시던트 타임라인을 명확하고 구조화된 내러티브로 만들고, 이를 걸어 다닐 수 있는 아날로그 전시로 제공하면 다음을 얻습니다.

  • 더 나은 상황 인식
  • 위기 시 더 강한 협업과 조정
  • 더 잘 공유된 이해를 통한 다운타임 감소
  • 장애를 숨기지 않고 학습의 자산으로 삼는 문화

여기에 가상 워크다운과 디지털 트윈을 결합하면, 어디서든 복잡한 인시던트를 안전하고 협업적이며 반복 가능하게 탐색할 수 있습니다.

아날로그 인시던트 열차 박물관은 과거를 미화하기 위한 것이 아닙니다. 과거를 읽을 수 있게(legible) 만들어, 조직이 더 높은 회복탄력성과 명료함, 더 적은 놀람 속에서 미래로 나아가도록 돕는 일입니다.

오늘 작성하는 모든 인시던트 티켓은 내일의 전시물이 됩니다. 잘 큐레이션하세요.

아날로그 인시던트 열차 박물관: 어제의 장애를 걸어서 배우는 전시로 바꾸기 | Rain Lag