Rain Lag

아날로그 사고 대응 스토리 티켓 프린터: 라이브 장애를 한 줄씩 뽑히는 종이 스크립트로 바꾸기

단순한 ‘트램 티켓(영수증)’ 스타일 프린터와 꾸준한 로그만으로, 실시간 장애를 팀이 다시 재현·리허설·학습할 수 있는 손에 잡히는 스크립트로 바꾸는 방법을, 비싼 도구 없이 구현하는 법을 다룹니다.

아날로그 사고 대응 스토리 트램 티켓 프린터: 라이브 장애를 한 줄씩 뽑히는 종이 스크립트로 바꾸기

지금의 사고 대응은 디지털 대시보드, 실시간 알림, 거대한 옵저버빌리티(관측) 스택이 주도합니다. 그런데 막상 상황이 끝난 뒤에는, 무슨 일이 실제로 어떻게 벌어졌는지 팀이 한 목소리로 설명하는 데 늘 애를 먹습니다.

가장 복잡한 장애를 이해하는 데 필요한 게 또 하나의 대시보드가 아니라, 작고 아날로그인 트램 티켓 프린터가 틱틱 소리를 내며 장애를 한 줄씩 출력하는 종이 스크립트라면 어떨까요?

이 글에서는 사고를 **“인쇄 가능한 이야기”**로, 말 그대로 종이 위에 올려놓는 접근이 어떻게 팀의 학습을 날카롭게 하고, 인지 부담을 줄이고, 사고 대응을 개선할 수 있는지 살펴봅니다. 그것도 도구 비용을 최소화한 채로요.


혼돈의 스트림에서 한 줄씩 읽는 스크립트로

대형 장애가 터지면, 모든 일이 한꺼번에 벌어집니다.

  • 여러 시스템에서 알림이 쏟아지고
  • 사람들이 Slack 채널로 몰려들고
  • 대시보드에는 빨간색과 주황색이 번쩍이며
  • 의사결정은 반쯤 나온 문장 속에서 이뤄집니다.

그리고 나중에 타임라인을 복원하려 하면, 괴로운 작업이 시작됩니다.

사고 스토리 트램 티켓 프린터(Incident Story Tram Ticket Printer) 는 하나의 비유이자(또는 실제로 구현할 수도 있는) 시스템입니다.

  • 핵심 사고 이벤트(알림, 결정, 커맨드 실행, 페이지 발송, 상태 업데이트 등)를 단순한 한 줄 로그 형태로 모읍니다.
  • 이 로그를 열감지(thermal) 영수증/티켓 프린터로 흘려보냅니다.
  • 그러면 끊기지 않는 종이 스트립이 나옵니다. 그 안에 시간순으로 무엇이 일어났는지가 쭉 적힌 스크립트가 찍혀 나오는 거죠.

이제 사고는 링크와 스크린샷이 뒤엉킨 안개가 아닙니다. 팀이 손에 쥐고 읽고 리허설할 수 있는 스크립트가 됩니다.


왜 아날로그인가? 이해를 위해 일부러 속도를 늦추기

화면은 속도와 밀도에 최적화돼 있습니다. 실제로 불 끄는 중에는 굉장히 유용하지만, 다음과 같은 일을 하려 할 때는 오히려 방해가 됩니다.

  • 일관된 스토리로 정리해서 설명하기
  • 다른 사람에게 대응 과정을 가르치기
  • 그때 내린 결정의 질을 분석하기

단순한 프린터는 완전히 다른 사고 모드를 강제합니다.

1. 한 번에 한 이벤트만 보기

종이 위에서는 한 번에 그래프 20개를 동시에 볼 방법이 없습니다. 대신 이렇게 읽습니다.

10:02:31 – PagerDuty: checkout API 지연 시간 증가

10:03:05 – 온콜(알렉스): 알림 확인(Ack)

10:04:10 – 실행 커맨드: v4.7.2로 롤백 수행

당신은 각 줄을 차분히 처리하게 됩니다. 줄 사이의 시간 간격을 느끼고, 의사결정의 순서를 눈으로 따라갑니다. 이 형식은 뇌를 살짝 느리게 만들어, 평소 놓치던 것들을 보게 합니다.

  • "알림 확인까지 3분이나 걸렸네. 왜 그랬지?"
  • "영향 범위를 확실히 확인하기도 전에 롤백했네. 이게 최선이었을까?"

2. 인지 과부하 줄이기

대시보드는 컨텍스트 스위칭을 부추깁니다. 여기서는 CPU 그래프, 저기서는 로그, 또 저기서는 채팅. 반면, 인쇄된 종이 스트립은 선형이고 폭이 좁습니다. 이 제약이 곧 장점입니다.

  • 탭 전환 없음
  • 도구 간 왔다 갔다 없음
  • 오직 이야기만 존재

그래서 여러 사람이 한 방에서 같이 내용을 따라가기가 쉬워집니다. 모두가 말 그대로 같은 종이(또는 같은 티켓 스트립) 를 보고 있기 때문입니다.

3. 손에 잡히는 물성이 기억력을 높인다

연구와 실무 경험을 보면, 물리적인 아티팩트—종이, 포스트잇, 다이어그램—가 추상적인 사건을 더 현실적으로 느끼게 만들어 줍니다.

  • 사람들은 순서를 더 잘 기억하고
  • 손가락으로 짚고, 동그라미 치고, 메모를 남길 수 있고
  • 사건은 “어딘가에 있는 로그들”이 아니라, 우리가 함께 걸어가 볼 수 있는 하나의 장면(scene) 이 됩니다.

사고를 지표가 아닌 ‘포렌식 현장’으로 보기

각 사고를 하나의 포렌식(Forensic) 현장으로 다루어 보세요. 트램 티켓 프린터는 저비용 증거 수집 장치가 됩니다.

비싼 타임라인 도구가 꼭 필요하지는 않습니다. 필요한 건:

  • 규율 있는 로그 작성 (핵심 이벤트를 빠짐없이 남기기)
  • 일관된 포맷
  • 저렴한 열감지 프린터 하나 (선택 사항이지만, 있으면 강력합니다)

목표는 다음을 모두 포함하는 정확한 시간순 기록입니다.

  • 어떤 알림이 떴는지
  • 누구에게 페이지가 갔고, 누가 응답했는지
  • 어떤 커맨드가 실행됐는지(가능한 범위에서 파라미터 포함)
  • 시스템 신호들(에러율, 지연 시간 스파이크 등)
  • 인간의 결정들(“리전 B로 페일오버하기로 결정” 등)

이 기록이 바로 포렌식 타임라인입니다. 다음 질문에 답해줍니다.

  • 실제로 무슨 일이, 어떤 순서로 벌어졌는가?
  • 누가, 어떤 신호를 근거로 어떤 행동을 했는가?
  • 언제 진짜 근본 원인을 인지했는가?

이 타임라인은 기존 도구들(채팅, 인시던트 봇, CI/CD, 옵저버빌리티 플랫폼 등)에서 그냥 뽑아와서 프린터로 스트리밍하면 됩니다.


디지털 시스템과 아날로그 아티팩트의 결합

아날로그와 디지털 중 하나만 선택할 필요는 없습니다. 가장 좋은 구성은 하이브리드입니다.

디지털 시스템

이미 이런 도구들을 쓰고 있을 가능성이 큽니다.

  • 티켓과 워크플로를 위한 Jira Service Management 같은 ITSM 도구
  • DevOps 툴체인(GitHub/GitLab, CI/CD 파이프라인)
  • 사고 대응 도구(PagerDuty, Opsgenie, Statuspage)
  • 옵저버빌리티 플랫폼(Datadog, Prometheus, New Relic)

이 도구들은 여전히 여러분의 소스 오브 트루스, 자동화 계층, 장기 시스템 오브 레코드로 남습니다.

아날로그 출력물

이 디지털 도구들에서, 사고와 관련된 서사형 이벤트(narrative events) 만 선별해 내보냅니다.

  • 봇이 간단한 타임라인을 큐에 올립니다. 형식은 timestamp – actor – action – outcome 같은 한 줄
  • 이 큐를 작은 스크립트가 읽어, 각 줄을 열감지 프린터로 흘려보냅니다.

결과적으로 다음을 얻게 됩니다.

  • 디지털: 감사·트렌드 분석을 위한 풍부하고 쿼리 가능한 데이터
  • 아날로그: 테이블 위에 펼쳐놓고, 형광펜 치고, 논쟁할 수 있는 압축된 인간 친화적 스토리

인쇄된 로그와 티켓은 사고 후 회고(Post-Incident Review)에서 시각적 기준점(Anchor) 으로 활용하세요. 벽에 붙여 놓고, 마구 메모를 남긴 뒤, 중요한 인사이트를 다시 Jira나 사고 지식 베이스에 정리해 옮깁니다.


연극처럼 사고를 리허설하기

한 번 스크립트가 물리적인 형태로 손에 들어오면, 연극 대본 리딩(Read-through) 하듯 사고 리허설을 진행할 수 있습니다.

사고 스크립트 리허설 진행 방법

  1. 사고 스크립트를 인쇄합니다
    타임라인을 내보내, 끊기지 않는 종이 스트립이나 여러 장의 페이지로 출력합니다.

  2. 역할을 나눕니다

    • 인시던트 커맨더(Incident Commander)
    • 커뮤니케이션 리드(대내·대외 공지 담당)
    • 1차 대응자(Primary Responder)
    • 2차 대응자 / SRE
    • 옵저버 / 기록 담당
  3. 스크립트를 소리 내어 읽습니다
    각자 자신의 역할에 해당하는 대사를 읽습니다. 시스템 이벤트는 내레이터(사회자)가 읽도록 합니다.

  4. 자주 멈추고 논의합니다.
    예를 들어:

    • 이 순간에 우리가 선택할 수 있었던 옵션은 뭐였지?
    • 당시엔 어떤 정보가 없었나?
    • 어디에서 "측정" 대신 "추측"을 택했나?
    • 이 지점에서 어떻게 했으면 TTM(Time To Mitigation)을 더 줄일 수 있었을까?
  5. 대안 경로를 탐색합니다
    스크립트 일부를 다시 써봅니다.

    • "바로 롤백하기보다, 먼저 트래픽 10%만 다른 버전으로 보내봤다면 어땠을까?"
    • "여기서는 미리 준비된 런북이 있었다면 시간을 아낄 수 있지 않았을까?"
  6. 개선 사항을 정리합니다
    이 논의를 다음과 같은 형태로 구체화합니다.

    • 런북 업데이트
    • 새로운 알림이나 대시보드 추가
    • 자주 발생하는 장애 패턴에 대한 플레이북 작성

이 리허설 방식은 비기술 직군에게도 부담이 적습니다. 스크립트 덕분에 사고가 누구에게나 읽히는 이야기가 됩니다.


스크립트를 교육 자료로 바꾸기

로그가 잘 남은 사고 하나는 곧 현실적인 교육 시나리오입니다. 약간의 추가 작업만 더하면, 출력된 스크립트로 DevOps·사고 대응 교육 커리큘럼을 만들 수 있습니다.

교육 활용 사례

  • 신입 엔지니어 온보딩
    인쇄된 스크립트를 건네주고 함께 따라가며 설명합니다.

    • 시스템이 어떻게 실패했는지
    • 대응자가 어떻게 진단하고 완화(mitigation)했는지
    • 어떤 신호가 진짜로 중요했는지
  • 사고 대응 훈련(Incident Drill)
    과거 사고를 가져와 일부 데이터를 익명 처리한 뒤, 다시 재연합니다.

    • 각 주요 의사결정 포인트 직전에 멈추고
    • 교육 대상자에게 “지금이라면 무엇을 하겠는지” 물어봅니다.
  • 역할별 실습

    • 누군가에게 인시던트 커맨더 역할을 맡겨, 조정·커뮤니케이션 능력을 길러봅니다.
    • 커뮤니케이션 리드가 이 스크립트를 뼈대로 삼아 상태 업데이트를 연습하도록 합니다.

이야기(서사) 기반·스크립트 기반의 훈련은 추상적인 이론보다 훨씬 오래 기억에 남습니다. 사람들은 그냥 “정답 절차”를 외우는 게 아니라, 실제 장애가 어떤 모양으로 다가오는지 몸으로 익히게 됩니다.


정밀도 vs. 비용: 단순한 도구의 아름다움

수개월을 들여, 로그를 시간순으로 애니메이션처럼 재생하고, 메트릭을 오버레이하며, 채팅 스레드를 입체적으로 보여주는 3D 사고 시각화 대시보드를 만들 수도 있습니다.

혹은 3만 원대 열감지 프린터 하나를 사고, 규율 있는 로그 작성을 도입해 이렇게 할 수도 있습니다.

  • 높은 시간순 정밀도(chronological precision)
  • 낮은 인지 부담
  • 여러 사람이 함께 보기 좋은 그룹 퍼실리테이션 도구
  • 쉽게 복제·휴대 가능한 교육 자료

핵심은 프린터 자체가 아니라 서사형 로그를 남기는 습관과 규율입니다.

  • 이벤트 포맷을 표준화합니다: timestamp – source – action – result
  • 주요 액션과 결정을 반드시 남기도록 합니다.
  • 이 로그를 쉽게 내보내고, 인쇄할 수 있게 만들어 둡니다.

이 정도만 되어도, 복잡한 시각화 도구에 비해 비용과 복잡성은 훨씬 낮으면서 **인사이트의 90%**는 얻을 수 있습니다.


팀에서 바로 시작해 보는 방법

이 아이디어는 일주일이면 실험해 볼 수 있습니다.

  1. ‘서사 이벤트’로 취급할 범위를 정의합니다
    알림, Acknowledgement, 커맨드 실행, 배포, 중요한 의사결정, 상태 업데이트 등을 포함할지 정합니다.

  2. 단순한 타임라인 익스포터를 만듭니다

    • 채팅(예: 사고 대응용 채널)에서 메시지를 끌어오고
    • 사고 대응 도구 API에서 이벤트를 가져와
    • 하나의 파일 또는 스트림으로 정규화합니다.
  3. 열감지/영수증 프린터를 구매하거나 가져다 씁니다

    • USB나 Wi‑Fi로 연결하고
    • 도착하는 각 줄을 그대로, 또는 저장된 파일에서 한 줄씩 인쇄하는 작은 스크립트를 작성합니다.
  4. 한 번은 ‘종이만 가지고’ 사고 후 회고를 해봅니다
    대시보드도, 화면 공유도 없이—오직 출력된 타임라인과 펜만 사용합니다.

  5. 계속 다듬습니다

    • 로그 포맷을 개선하고
    • 어떤 이벤트는 유용하고 어떤 이벤트는 시끄러운지만 골라내고
    • 역할 정의와 리허설 방식도 조금씩 정제합니다.

이 실험은 상부의 거창한 승인을 받지 않아도 됩니다. 작은 팀 하나에서 파일럿으로 시작해보고, 결과를 공유해도 충분합니다.


결론: 사고를 ‘스토리의 형태’로 만들기

사고는 어차피 계속 발생합니다. 중요한 건, 여러분이 그 사고의 이야기를 수확하고 있는지, 아니면 로그 파일과 조각난 대시보드 속으로 흩어지게 내버려 두는지입니다.

라이브 장애 데이터를 한 줄씩 인쇄 가능한 스크립트로 바꾸면, 다음을 얻을 수 있습니다.

  • 인지 과부하 감소
  • 명확하고 공유 가능한 내러티브 복원
  • 강력하면서도 저비용인 리허설·교육 환경
  • 무거운 도구 없이도 얻는 포렌식 수준의 인사이트

아날로그 사고 스토리 트램 티켓 프린터는 단순한 괴짜 같은 비유가 아닙니다. 때로는, 복잡한 디지털 시스템을 개선하는 가장 효과적인 방법이 단순하고 손에 잡히는 아날로그 도구에서 시작된다는 사실을 상기시켜 줍니다. 그리고 그 시작은 언제나 같습니다. 이야기를 한 줄씩, 차근차근 적어 나가는 것에서부터요.