Rain Lag

아날로그 인시던트 기차역 스토리 시계: 혼란을 명확한 타임라인으로 바꾸기

종이부터 시작하는 ‘기차역 스타일 스토리 시계’가 어떻게 복잡한 장애를 풀어내고, 포스트모템을 단순화하며, 아날로그 업무 방식과 연결된 데이터 기반 인시던트 도구 사이의 간극을 메워 주는지 살펴봅니다.

소개

허겁지겁 기억해 낸 Slack 대화 몇 줄, 여기저기 흩어진 스크린샷, 그리고 누군가의 구겨진 노트 한 장을 모아서 프로덕션 장애 상황을 복원해 본 적이 있다면, 인시던트 “스토리”를 만드는 일이 얼마나 고통스러운지 잘 알고 있을 겁니다.

우리는 종종 타임라인을 사후 처리용 부록 정도로 취급합니다. 장애가 끝난 뒤 며칠 지나, 포스트모템을 쓰기 직전에 겨우겨우 짜 맞추는 식이죠. 그때쯤 되면 이미 컨텍스트는 사라지고, 빈틈마다 추측이 끼어들며, 실제로 무슨 일이 있었는지에 대한 서사는 흐릿해집니다.

여기 더 나은 방식이 있습니다. 바로 종이부터 시작하는 내러티브 타임라인과, 제가 **“아날로그 인시던트 기차역 스토리 시계(Analog Incident Train Station Story Clock)”**라고 부르는 사고 모델입니다. 이것은 복잡하고 병렬적으로 진행되는 장애를, 사람 눈으로 읽기 좋은 하나의 분명한 이야기로 시각화하게 도와주는 간단한 “기차역 스타일” 메타포입니다. 그리고 이렇게 만든 아날로그의 선명함을, 실시간 추적과 원클릭 포스트모템을 위한 현대적인 데이터 기반 인시던트 도구에 연결해 줍니다.


왜 복잡한 장애에는 데이터보다 ‘이야기’가 필요한가

장애가 터지면, 여러분은 데이터에 둘러싸입니다.

  • 로그, 대시보드, 알림(Alert)
  • Slack 채널과 Zoom 콜
  • Pager 알림과 티켓 업데이트

하지만 그 가운데 가장 자주 빠져 있는 것은 바로 일관된 이야기입니다.

  • 무엇이 가장 먼저 일어났는가?
  • 누가, 언제, 무엇을 했는가?
  • 당시 우리는 무엇을 사실이라고 믿었고, 언제 그게 틀렸다는 걸 알게 되었는가?

여기서 **내러티브 타임라인(narrative timeline)**이 등장합니다. 인시던트를 그냥 기술적 산출물 더미로 보지 않고, 다음과 같은 요소를 가진 “이야기”로 바라보는 겁니다.

  • 등장인물: 대응자, 팀, 시스템
  • 사건: 페이지, 액션, 발견, 의사결정
  • 반전: 잘못된 가설, 새로운 증상, 바뀐 가정

목표는 단순한 포렌식(사후 분석)의 정확성이 아닙니다. 목표는 **공유된 이해(Shared Understanding)**입니다.

  • 인시던트 대응자들이, 그 순간에
  • 상황을 파악하려는 리더십이
  • 이후 이 인시던트로부터 학습하려는 사람들까지

내러티브 타임라인은 “그냥 여러 가지 일이 우르르 일어났다”를 “우리가 함께 학습할 수 있는 하나의 이야기”로 바꿔 줍니다.


종이부터 시작하는 내러티브 타임라인: 아날로그로 시작해 사람 중심으로 유지하기

어떤 자동화를 도입하기 전에, 의도적으로 로우 텍(low-tech) 으로 시작하는 것이 도움이 됩니다.

당신이 **인시던트 서기(incident scribe)**라고 상상해 보세요. 당신의 역할은 장애를 해결하는 것이 아니라, 장애가 진행되는 동안 그 이야기를 기록하는 것입니다.

종이(또는 화이트보드, 아주 단순한 문서) 위에 다음을 적습니다.

  • 시간(Time) – 간단한 시각: 10:03, 10:07, 10:12
  • 이벤트(Event) – 무슨 일이 있었는지: “API 레이턴시로 Pager 알림 발생”
  • 행위자(Actor) – 누가 했거나 관찰했는지: “SRE 온콜”, “Payments 스쿼드”, “Status 페이지 봇”
  • 컨텍스트(Context) – 왜 중요한지: “첫 외부 고객 영향 발생”

모든 것을 빠짐없이 기록하려고 애쓸 필요는 없습니다. 핵심은 **이야기의 형태(shape of the story)**를 보존하는 것입니다.

09:58 – 에러율 상승 첫 Alert 발생

10:03 – 온콜이 Acknowledge; 09:45 배포를 의심하기 시작

10:10 – 대시보드에서 EU 리전에서만 스파이크 보임

10:15 – Status 페이지 업데이트; 인시던트 SEV-1 선언

10:24 – EU 리전에서 잘못 설정된 Feature Flag 롤아웃 발견

이처럼 종이부터 시작하는 방식에는 세 가지 큰 장점이 있습니다.

  1. 빠르고 유연합니다. 낙서하고, 동그라미 치고, 화살표로 연결하고, 옆에 메모를 덧붙일 수 있습니다.
  2. 사람 중심으로 유지됩니다. 단순 지표만이 아니라, 의도, 혼란, 의사결정 같은 인간적인 요소가 자연스럽게 담깁니다.
  3. 인시던트가 끝나기도 전에 훌륭한 포스트모템의 기초가 쌓입니다.

하지만 종이만으로는 확장성이 없습니다. 여기서 기차역 스토리 시계와 더 나은 도구들이 필요해집니다.


기차역 스토리 시계: 다중 트랙 인시던트를 시각화하기

복잡한 기차역의 출발 안내판을 떠올려 보세요.

  • 각 **선로(Track)**에는 다른 기차가 들어옵니다.
  • 각 **기차(Train)**는 노선, 정차역, 지연 정보를 갖고 있습니다.
  • 그 큰 안내판은 실시간으로 업데이트되어 모두가 상황을 한눈에 볼 수 있게 해 줍니다.

이제, 여러분의 인시던트를 그 기차역에 빗대어 보겠습니다.

선로(Track) = 작업 스레드(Thread of Work)

인시던트는 거의 선형적으로 흐르지 않습니다. 대신 이런 식의 병렬 트랙이 생깁니다.

  • 트랙 1: 감지 & 트리아지(Detection & Triage) – 알림, 심각도, 고객 영향
  • 트랙 2: 가설 A(Hypothesis A) – “DB 문제다”를 검증하기 위한 진단 작업
  • 트랙 3: 가설 B(Hypothesis B) – “새 배포 문제다”를 전제로 한 롤백/Feature Flag 조정
  • 트랙 4: 커뮤니케이션(Communication) – Status 페이지, 리더십 업데이트, 고객 커뮤니케이션

각 트랙은 시간에 따라 흘러가는 이벤트의 스트림입니다. 우리의 목표는 기차역 안내판처럼 모든 트랙을 한 번에 보는 것입니다.

가운데 있는 스토리 시계

그리고 그 중앙에 커다란 아날로그 시계를 둡니다. 바로 **인시던트 시간(Incident Time)**입니다.

예를 들어 10:05 시점에, 스토리 시계를 둘러보며 다음을 동시에 볼 수 있습니다.

  • 트랙 1에서는 무슨 일이? (Alert Acknowledge, 심각도 설정)
  • 트랙 2에서는? (DB 팀이 Read 레이턴시 조사 중)
  • 트랙 3에서는? (Rollback 진행 중)
  • 트랙 4에서는? (첫 내부 공지 게시)

종이 위에서는 이것이 원형 스케치처럼 보일 수 있습니다.

  • 시계판처럼 가장자리에 시간 눈금
  • 각 트랙마다 방사형 “살(Spoke)”
  • 시간과 트랙이 만나는 지점에 이벤트를 배치

이 “기차역 스토리 시계”는 복잡성을 눈에 보이게 만들어 줍니다.

  • 어떤 일이 동시에(concurrently) 일어났는지 드러납니다.
  • **인계 지점(handoff)**이 강조됩니다. (예: “10:12에 DB 팀에서 네트워크 팀으로 인계”)
  • 잘못된 가설이 사라지고 모두가 초점을 옮기는 **발산·수렴 사고(divergent & convergent thinking)**의 순간이 포착됩니다.

사건이 끝난 뒤 인시던트를 설명하는 일도, 이 시계를 가리키며 이렇게 말할 수 있으면 훨씬 쉬워집니다.

“10:10에 우리는 여전히 DB를 쫓고 있었지만, 다른 트랙에서 Feature Flag 담당자가 이미 근본 원인을 발견했어요.”


아날로그에서 디지털로: 생각이 아니라, 기계적인 부분을 자동화하기

종이와 화이트보드는 이해를 돕는 데는 탁월하지만, 다음과 같은 점에서는 형편없습니다.

  • 검색
  • 공유
  • 로그, 알림, 변경(Change)와의 상관 분석

그래서 성숙한 인시던트 대응 팀은 이런 아날로그 사고방식을 연결된(connected) 데이터 기반 도구와 짝지어 사용합니다. 이런 도구는 다음을 해 줍니다.

  1. 인시던트의 기계적인 부분을 자동화

    • 인시던트가 열리면 Slack/Teams/Zoom 채널을 자동 생성
    • 심각도와 서비스 소유자에 따라 적절한 사람에게 Pager 전송
    • Status 페이지와 내부 공지 자동 업데이트
    • 백그라운드에서 구조화된 이벤트 타임라인 캡처 시작
  2. 진행 중인 이야기를 함께 기록

    • 의미 있는 액션(페이지, 채널 입·퇴장, 명령 수행, 변경, 업데이트)을 자동으로 타임라인 엔트리로 남김
    • 서기나 대응자가 자유 텍스트로 내러티브 엔트리를 추가 (의사결정, 가설, 발견 등)
    • 각 엔트리에 triage, db, network, customer comms 같은 트랙 라벨을 태깅
  3. 기차역 뷰를 디지털로 재현

    • 타임라인을 트랙 기준으로 필터링
    • 팀 간 병렬 활동을 한눈에 보기
    • 내러티브 엔트리를 실제 타임스탬프와 시스템 이벤트에 정밀하게 앵커링

핵심은 도구가 이야기를 대신하는 것이 아니라, 이야기를 지원해야 한다는 점입니다. 자동화는 지루하고 반복적인 기계 작업을 맡고, 사람은 진단, 커뮤니케이션, 의사결정 같은 고차원적인 부분에 집중할 수 있게 해야 합니다.


원클릭 포스트모템: 학습 루프를 단축하기

인시던트가 진행되는 동안 풍부하고 구조화된 “스토리”를 잘 캡처해 두면, 포스트모템은 거의 저절로 써집니다.

인시던트가 종료되는 순간, 다음과 같은 일이 가능하다고 상상해 보세요.

  • “타임라인으로부터 포스트모템 초안 생성” 버튼을 누릅니다.
  • 그러면 자동으로 다음이 생성됩니다.
    • 핵심 이벤트에 대한 시간 순 내러티브
    • 스토리 시계/트랙을 시각화한 다이어그램
    • 반복적으로 드러난 패턴 목록 (예: 잘못된 트리아지가 반복됨, 커뮤니케이션 지연, 소유권 인계 지연 등)
    • 무슨 일이 있었나(What Happened), 영향(Impact), 탐지 & 대응(Detection & Response), 교훈(Lessons Learned) 같은 섹션이 미리 채워진 템플릿

이제 여러분은 몇 시간을 들여 무슨 일이 있었는지를 복원(reconstruct) 하는 대신, **무슨 일이 있었는지를 해석(interpret)**하는 데 시간을 씁니다.

  • 왜 우리는 잘못된 가설을 그렇게 오래 붙들고 있었는가?
  • 인계가 느렸던 구간은 어디인가?
  • 어떤 의사결정 포인트가 가장 중요했는가?
  • 다음에는 탐지, 플레이북, 커뮤니케이션을 어떻게 개선할 수 있는가?

이렇게 하면 피드백 루프가 크게 단축됩니다.

  • 더 빠른 포스트모템 작성
  • 더 또렷한 기억과 통찰이 살아 있을 때 분석
  • 신뢰성 개선 조치의 더 빠른 실행

인시던트 한가운데서 기록한 이야기가, 이후 **조직 학습(organizational learning)**을 이끄는 강력한 도구가 됩니다.


즉흥적인 종이 메모에서 연결된 데이터 기반 워크플로로

의도는 종이를 버리는 것이 아니라, 즉흥적인 종이 메모 수준을 넘어서는 것입니다.

즉흥적이고 순수 아날로그에만 의존하는 워크플로는 대개 이런 특징을 가집니다.

  • 누군가의 노트 속에만 존재
  • 인시던트 사이사이마다 사라짐
  • 특정 “히어로 서기” 한 명에게 의존
  • 알림, 티켓, 변경 기록과 자연스럽게 연결되지 않음

반면, 연결된 데이터 기반 인시던트 도구를 사용하면 다음이 가능합니다.

  • 종이가 주는 내러티브의 선명함을 유지하면서
  • 데이터를 시스템 전반에서 실시간으로 보존하고
  • 팀 간에 일관된 인시던트 핸들링 패턴을 제공하며
  • 인시던트 타임라인과 스토리 시계를 검색 가능하고, 공유 가능하며, 재사용 가능한 자산으로 만들 수 있습니다.

즉, 두 가지 세계의 장점을 모두 얻는 셈입니다.

  • 인간 이해를 위한 아날로그적 사고
  • 신뢰성, 협업, 분석을 위한 디지털 인프라

나만의 인시던트 스토리 시계 시작하는 법

새로운 플랫폼이 꼭 필요하지는 않습니다. 오늘 당장 시작할 수 있습니다.

  1. 중요한 인시던트마다 서기를 지정하세요.

    • 그들의 역할: 문제를 고치는 것이 아니라, 이야기를 기록하는 것.
  2. 기차역 메ンタ 모델을 사용하세요.

    • 핵심 트랙 몇 개를 정의합니다: 트리아지, 커뮤니케이션, 가설 A/B, 완화 조치 등.
    • 간단한 시계를 그려 놓고 각 트랙을 따라 이벤트를 표시합니다.
  3. 단순한 사실 나열이 아니라, 내러티브를 쓰세요.

    • 가설, 의사결정, “우리가 X가 틀렸음을 Y 시점에 깨달았다” 같은 내용을 넣습니다.
  4. 기계적인 부분을 자동화하는 도구를 도입하거나 확장하세요.

    • 채널 자동 생성, 대응자 페이지, 타임라인 자동 시작 등.
    • 대응자들이 그 안에서 바로 내러티브 컨텍스트를 덧붙일 수 있게 하세요.
  5. 타임라인에서 직접 포스트모템 초안을 만들어 보세요.

    • 초기에는 수동이라도 좋습니다. 구조화된 엔트리를 포스트모템 템플릿으로 복사해 보세요.
    • 시간이 지날수록 이 과정을 조금씩 자동화합니다.

인시던트가 반복될수록, 여러분의 스토리 시계는 점점 더 선명해지고, 타임라인은 더 풍부해지며, 포스트모템은 더 빠르고 통찰력 있게 완성될 것입니다.


결론

난해한 장애는 단지 기술적인 문제만이 아니라, 스토리텔링의 문제이기도 합니다.

종이부터 시작하는 내러티브 타임라인과, 이를 중심에 둔 아날로그 인시던트 기차역 스토리 시계는 복잡하고 다중 트랙으로 얽힌 인시던트를, 누구에게나 설명 가능한 명확한 이야기로 바꾸는 방법을 제공합니다.

여기에 채널 생성, 페이지, Status 업데이트, 구조화된 타임라인 캡처 같은 기능을 가진 자동화된 인시던트 도구를 연결하면, 다음을 얻을 수 있습니다.

  • 더 빠르고 정확한 포스트모템
  • 짧아진 학습 루프
  • 인시던트 진행 중 더 나은 협업
  • 조직 전체에 걸친 더 일관되고 신뢰도 높은 인시던트 핸들링

펜과 종이, 그리고 시계부터 시작하세요. 트랙을 추가하고, 이야기를 기록하세요.

그리고 그 아날로그 이야기가 인시던트가 끝난 후에도 오랫동안 신뢰성을 높여 주는 디지털 자산으로 변환되도록, 도구들이 그 다음 단계를 맡게 하십시오.

아날로그 인시던트 기차역 스토리 시계: 혼란을 명확한 타임라인으로 바꾸기 | Rain Lag