Rain Lag

종이 사건 스토리 기차역 시네마: 손그림 영화처럼 장애를 스토리보드로 기록하기

장애와 보안 사고를 영화의 스토리보드처럼 문서화해, 복잡한 장애를 엔지니어링·법무·커뮤니케이션 팀 모두가 활용할 수 있는 명확하고 방어 가능한 이야기로 만드는 방법.

종이 사건 스토리 기차역 시네마: 손그림 영화처럼 장애를 스토리보드로 기록하기

프로덕션에서 무언가가 고장 났을 때, 그 순간은 대개 영화처럼 멋져 보이지 않습니다.

시끄러운 대시보드, 어렴풋이 기억나는 로그, 서로 다른 내용을 담은 Slack 스레드, 그리고 어디선가 들려오는 “누가 뭐 바꿨어요?”라는 외침이 뒤섞인 시간일 뿐입니다. 그런데 모든 소동이 끝나고 나면, 결국 반드시 필요한 한 가지가 남습니다. 바로, **무슨 일이 어떻게 일어났는지에 대한 명확하고 일관된 ‘스토리’**입니다.

이 스토리는 엔지니어만을 위한 것이 아닙니다. 법무, 커뮤니케이션, 경영진, 규제기관, 그리고 상황이 정말 좋지 않을 경우에는 법원까지도 이 이야기를 보게 됩니다.

여기서 **“종이 사건 스토리 기차역 시네마(Paper Incident Story Trainyard Cinema)”**라는 개념이 등장합니다. 모든 장애나 사이버 이벤트를 종이에 프레임을 하나씩 그려 넣는 손그림 애니메이션처럼 다룬다고 생각해보십시오. 각 컷(패널)은 하나의 순간을 담습니다. 그때 무엇을 알고 있었는지, 무엇을 했는지, 무엇이 어떻게 바뀌었는지, 그리고 그렇게 했는지를요.

이 글에서는 사건을 얼마나 철저하고 사려 깊게 기록해야, 나중에 전체 스토리를 다시 재구성하고, 그때의 의사결정을 방어하며, 어떤 이해관계자에게든 명확하게 설명할 수 있는지를 살펴봅니다.


왜 사건은 ‘이야기’로 들려줘야 하는가

사건(incident) 자체가 본질적으로 하나의 내러티브이기 때문입니다.

  • 원래는 잘 돌아가던 시스템이 있었고,
  • 어딘가에서 무언가가 바뀌었고,
  • 그 결과 시스템이 깨졌고,
  • 사람들이 그것을 알아차리고 반응했고,
  • 팀이 조사하고, 판단하고, 조치하고, 배우는 과정이 이어집니다.

이 이야기를 충분한 디테일과 구조로 기록해두지 않으면, 결국 남는 것은 다음과 같습니다.

  • 여기저기 흩어진 로그와 채팅 기록
  • “아마 3시쯤이었던 것 같은데…” 수준의 불확실한 기억
  • 사건의 흐름이 아니라 항목 나열식으로 적힌, 설득력 떨어지는 포스트모템

스토리보드 방식으로 사건을 정리하면, 이런 내러티브를 만들 수 있습니다.

  • 엔지니어들이 근본 원인과 시스템적인 문제를 다시 추적할 수 있고
  • 법무팀이 잠재적 분쟁에 대비할 수 있는 탄탄한 사실 기록을 확보하고
  • 커뮤니케이션팀이 정확하고 일관된 메시지를 만들 수 있으며
  • 리더십이 당시의 리스크와 트레이드오프를 이해할 수 있습니다.

각 사건을, 6개월 또는 12개월 뒤에 매우 회의적인 청중 앞에서 다시 상영해야 할지도 모르는 영화라고 생각해보십시오. 지금 남겨두는 메모만으로, 미래의 여러분이 그때의 상황을 제대로 이해할 수 있을까요?


사건 전체를 다시 조립할 수 있을 정도로 기록하라

좋은 사건 문서화의 최소 기준은 단순히 “근본 원인은 알았다”가 아닙니다. 기준은 이렇습니다. “처음부터 끝까지, 그 당시에 몰랐던 것까지 포함해, 무슨 일이 어떻게 벌어졌는지 다시 또렷하게 이야기할 수 있다.”

이를 위해 다음 내용을 재구성할 수 있을 만큼 충분히 기록하는 것을 목표로 하세요.

  1. 초기 상태(Initial state)

    • 정상 상태는 어떤 모습이었는가?
    • 어떤 시스템, 데이터, 고객이 이 컨텍스트에 포함되어 있었는가?
  2. 트리거와 탐지(Trigger and detection)

    • 사건이 실제로 시작된 시점은 언제인가? (처음 ‘인지’한 시점이 아니라)
    • 어떻게 탐지되었는가? (알람, 고객 제보, 내부 모니터링 도구 등)
  3. 행동과 관찰의 타임라인(Timeline of actions and observations)
    주요 순간마다 다음을 기록합니다.

    • 타임스탬프(시간대 포함, 예: UTC)
    • 무엇이 관찰되었는지(메트릭, 로그, 외형적 동작)
    • 누가 무엇을 했는지(명령 실행, 설정 변경, 에스컬레이션 등)
    • 그 시점에 무엇을 믿고 있었는지(가설, 전제, 추정)
  4. 영향(Impact)

    • 어떤 서비스, 리전, 고객, 데이터가 영향을 받았는가?
    • 영향의 기간, 심각도, 범위는 어느 정도였는가?
  5. 해결과 복구(Resolution and recovery)

    • 어떤 조치가 사건을 실제로 끝냈는가?
    • 시스템이 정말로 정상으로 돌아왔다는 것을 어떻게 검증했는가?
  6. 불확실성과 정보 공백(Uncertainties and gaps)

    • 여전히 확실하지 않은 부분은 무엇인가?
    • 확보하지 못한 로그나 트레이스는 무엇이었는가?

이 사건을 마치 영화를 재생하듯—대화, 타임스탬프, 장면 전환까지—되감아 볼 수 있다면, 제대로 기록한 것입니다.


처음부터 ‘분쟁 대비용’ 문서라는 마음으로 기록하라

사건 노트를 “엔지니어들끼리 보는 것” 정도로만 생각하기 쉽습니다. 하지만 오늘날의 사이버 사고와 장애는 점점 더 법적·규제 측면의 파급효과를 동반합니다.

  • 침해사고 통지 의무
  • 계약 상의 SLA 및 위약금
  • 규제기관의 조사나 감사
  • 잠재적인 소송

즉, 여러분이 남긴 사건 기록은 언젠가 다음과 같은 사람들에게까지 읽힐 수 있다고 가정해야 합니다.

  • 외부 규제기관 담당자
  • 소송 과정에서 상대방 측 변호인
  • 판사나 중재인
  • 고객사의 보안·구매팀

그렇다고 글을 법률 문서처럼 써야 한다는 뜻은 아닙니다. 다만 다음 원칙을 지키라는 의미입니다.

  • 사실과 의견을 명확히 분리하라.

    • 사실: “14:32 UTC에 checkout API에서 500 에러가 5배 증가한 것을 관찰했다.”
    • 의견: “이 증가는 신규 배포로 인한 것일 가능성이 높다고 판단했다.”
  • 비난조·감정적인 표현을 피하라.
    “X가 또 프로덕션을 깨뜨렸다” 같은 말은 Slack에서 한탄할 때는 속이 시원할지 모르지만, 공식 문서에는 위험하고 도움이 되지 않습니다.

  • 불확실성에 대해 정확하게 표현하라.
    “당시에는 ~라고 믿었다”, “이후에 ~라는 사실을 알게 되었다” 같은 표현으로, 이해가 어떻게 진화했는지 보여주세요.

  • 과거의 맥락을 지우지 말고, 보존하라.
    그때의 결정을 더 좋아 보이게 만들기 위해 타임라인을 뒤에서 조작하지 마십시오. 대신, 정정 사항은 ‘추가(Append)’로 남기세요.

사건의 규모가 충분히 크다면, 법무팀이 일부 문서를 법률 자문 특권(legal privilege)의 보호 하에 관리하거나, 공유 방식을 가이드할 수 있습니다. 이런 법무 프로세스가 신뢰성 있게 작동하려면, 평소부터 규율 있는 문서화 습관이 자리 잡아 있어야 합니다.


사건 대응 계획에는 반드시 법무와 커뮤니케이션이 포함돼야 한다

탄탄한 **사건 대응 계획(Incident Response Plan)**은 엔지니어를 위한 런북(runbook)에 그치지 않습니다. 여러 조직이 함께 움직이는 ‘합주’에 가깝습니다. 문서에는 다음이 명시되어 있어야 합니다.

  • 법무팀이 언제 개입하는지

    • 심각도(severity) 기준
    • 데이터 유출·노출 징후
    • 규제나 계약 상의 의무가 걸려 있는 경우
  • 커뮤니케이션팀이 언제 개입하는지

    • 고객 영향 가능성이 있는 경우
    • 예상되는 다운타임 또는 성능 저하
    • 언론·소셜미디어 노출이 예상되는 상황
  • 어떤 방식으로 문서화 내용이 이 팀들로 전달되는지

    • 누가 ‘마스터 타임라인’을 소유하고 관리하는지
    • 이 타임라인이 어디에 저장되는지(공식 시스템 of record)
    • 누가 편집할 수 있고, 누가 코멘트만 할 수 있는지
  • 각 팀이 필요로 하는 정보는 무엇인지

    • 법무: 선의의 주의(diligence)의 증거, 타임라인, 영향받은 데이터 범위, 주요 의사결정 및 승인 내역
    • 커뮤니케이션: 명확한 영향 설명, 현재 상태, 예상 복구 시간, 고객이 취해야 할 조치

이 모든 것을 ‘추가 사항’이 아니라, 애초 계획에 구워 넣으십시오.

  • 전담 역할 정의: Incident Commander, Scribe, Legal Liaison, Comms Liaison
  • 명시적인 체크리스트: “데이터 노출이 의심되면 → 법무에 즉시 통보; 문서화 모드를 ‘강화 모드’로 전환.”

영화 촬영이 시작되고(incident가 터지고) 기차가 이미 출발한 뒤에, 누가 대본을 쓸지 그때 가서 정하고 싶지는 않을 것입니다.


포스트모템 템플릿을 ‘반복 가능한 스토리보드’로 써라

자유 형식(free-form) 문서는 항상 일관성 문제를 낳습니다. 어떤 사건은 소설처럼 길게 쓰이고, 어떤 사건은 글머리 기호 세 개로 끝나 버립니다.

대신, 구조화된 포스트모템(postmortem) 템플릿을 스토리보드처럼 재사용하세요. 좋은 템플릿에는 보통 다음 항목이 포함됩니다.

  1. 요약(Executive summary)

    • 1~3개 단락으로, 무슨 일이 있었는지, 영향과 기간, 현재 상태를 정리합니다.
  2. 범위 및 영향(Scope & impact)

    • 영향을 받은 서비스, 고객, 지역(geography)
    • 비즈니스 및 기술적 영향
    • 데이터 노출이나 보안 관련 우려 사항
  3. 타임라인(Timeline)

    • 시간 순으로 정렬된 테이블: 타임스탬프, 이벤트, 행위자(actor), 관련 시스템, 비고를 포함합니다.
  4. 근본 원인 및 기여 요인(Root cause & contributing factors)

    • 기술적인 근본 원인
    • 프로세스, 조직, 문화적인 기여 요인
  5. 탐지 및 대응(Detection & response)

    • 어떻게 탐지되었는지
    • 무엇이 잘 작동했고, 무엇이 잘 작동하지 않았는지
    • 각 단계에 얼마나 시간이 걸렸는지
  6. 재발 방지 및 후속 조치(Remediations & follow‑ups)

    • 단기적인 해결책
    • 장기적인 투자 과제와 책임자
    • 마감 기한과 추적 방식
  7. 부록(Appendices)

    • 아키텍처 다이어그램, 티켓 ID, 로그 발췌, 대시보드 링크
    • 필요하다면 법무/커뮤니케이션 검토 메모

이렇게 표준 템플릿을 사용하면 다음과 같은 이점이 있습니다.

  • 여러 사건을 가로질러 분석할 수 있습니다(탐지까지 평균 얼마나 걸리는지, 반복되는 실패 패턴은 무엇인지 등).
  • 법무와 커뮤니케이션이 필요로 하는 정보를 예측 가능한 위치에서 찾을 수 있습니다.
  • 팀이 사건을 단순한 “버그 하나”가 아니라, 수명주기 전체의 관점에서 바라보도록 훈련됩니다.

템플릿은 곧, 각 사건이 하나씩 채워 나가야 하는 스토리보드가 됩니다. 패널 하나하나를 메워 가는 셈입니다.


내러티브 모드: 어떻게 ‘이야기하느냐’가 해석을 바꾼다

사실만 나열하는 것으로는 충분하지 않습니다. **어떤 방식으로 이야기를 풀어 가는지(내러티브 모드)**가 다른 사람들의 해석을 크게 좌우합니다.

다음 요소를 의식적으로 선택해보세요.

  1. 시점(Perspective)
    시스템의 시점(메트릭과 로그), 팀의 시점(시간에 따른 의사결정), 고객의 시점(그들에게 미친 영향) 가운데 어느 시점에서 이야기를 하고 있는지요? 실제로는 이 세 가지가 모두 필요할 때가 많습니다.

  2. 드러낼 정보 vs 감출 정보(Revealed vs. concealed information)
    내부 문서에는 세부적인 보안 시그널, 치열했던 내부 논의, 다소 과감한 가설도 포함될 수 있습니다.
    반면, 외부로 나가는 커뮤니케이션에서는:

    • 새로운 리스크를 만들 수 있는 민감한 세부 정보를 생략해야 할 수 있고
    • 검증된 사실과 고객 행동 가이드에 집중해야 하며
    • 법무와 보안팀의 검토를 거친 표현을 사용해야 합니다.
  3. 언어 선택(Language choice)
    개인 비난 대신 시스템 관점으로 서술합니다.

    • 이렇게 쓰는 대신: “Alice가 방화벽을 잘못 설정했다.”
    • 이렇게 표현합니다: “방화벽 규칙 변경이 피어 리뷰를 거치지 않고 적용될 수 있도록 허용한 프로세스 때문에, 결과적으로 ~가 발생했다.”
  4. 톤(Tone)

    • 내부 포스트모템: 분석적이고, 호기심 많으며, 비처벌적(non‑punitive)이어야 합니다.
    • 외부 공지: 공감이 느껴지고, 명확하며, 책임감을 보여주고, 다음 조치에 대해 구체적이어야 합니다.

이렇게 ‘내러티브 모드’를 의식하면 다음과 같은 함정에 빠지지 않는 데 도움이 됩니다.

  • “그냥 나쁜 배포 하나 때문이었다” 같은 과도하게 단순화된 악당 스토리
  • “서드파티 프로바이더에 이슈가 있었다” 식의 흐릿한 표현
  • 내부에서 알고 있는 내용과 외부에 전달되는 메시지 사이의 기대 불일치

매체의 힘: 문서, 다이어그램, 타임라인, 스토리보드

어떤 매체로 표현하느냐 역시 스토리텔링의 일부입니다.

  • 서면 문서는 맥락, 의사결정, 그 이유까지 섬세하게 담을 수 있습니다.
  • 타임라인은 사건의 순서, 동시성, 지연 지점을 한눈에 보여줍니다.
  • 아키텍처 다이어그램은 시스템 어디에서 실패가 발생했고, 어떻게 전파되었는지를 시각화합니다.
  • 스토리보드(심지어 진짜 손으로 그린 박스라도)는 장애 동안 사용자가 무엇을 보고, 클릭하고, 잃었는지를 보여줄 수 있습니다.

이들을 층(layer)처럼 조합해 보세요.

  1. 한 장짜리 스토리보드(Single‑page storyboard)

    • 6–12개의 박스로 주요 “장면(scene)”을 담습니다: 탐지, 에스컬레이션, 여러 조사 경로, 완화(mitigation), 복구.
    • 임원 브리핑이나 신규 엔지니어 온보딩 시, “우리 조직에서 사건이 어떻게 느껴지는지”를 보여주기에 좋습니다.
  2. 상세 타임라인(Detailed timeline)

    • 타임스탬프, 액션, 관찰 내용이 모두 정리된 단일 진실 공급원(source of truth)입니다.
    • 법무, 커뮤니케이션, 엔지니어링이 공통으로 참조합니다.
  3. 보조 다이어그램(Supporting diagram)

    • 사건 전후의 아키텍처나 데이터 흐름도
    • 취약점/버그가 어디에 있었고, 어떻게 악용되거나 트리거되었는지

여러 매체를 섞어 쓰면, 서로 다른 인지 스타일과 역할을 가진 사람들도 같은 핵심 스토리에 정렬되도록 도울 수 있습니다.


결론: 여러분만의 ‘사건 시네마’를 구축하라

모든 장애와 사이버 사건은 로그, 메트릭, 채팅, 인간의 기억이라는 거친 ‘원본 촬영본(raw footage)’을 남깁니다. 문서화는 이 혼돈을 하나의 일관된 영화로 편집하는 작업입니다.

여러분의 사건 대응 프로세스를 **“종이 사건 스토리 기차역 시네마(Paper Incident Story Trainyard Cinema)”**로 만들기 위해서는 다음을 기억하세요.

  • 미래의 여러분이 전체 이야기를 정확하게 재생할 수 있을 정도로 충분한 디테일을 문서화하라.
  • 모든 사건 기록은 언젠가 법적 쟁점이 될 수 있다고 가정하고, 사실에 기반한 절제된 언어를 사용하라.
  • 법무와 커뮤니케이션 팀을 사건 대응 계획과 문서 흐름에 처음부터 명시적으로 포함하라.
  • 구조화된 포스트모템 템플릿을 재사용 가능한 스토리보드로 활용하라.
  • 청중에 따라 내러티브 모드와 프레이밍, 언어를 의식적으로 선택하라.
  • 문서·다이어그램·타임라인·스토리보드 등 다양한 매체를 조합해 스토리를 명확하고 공유 가능하게 만들어라.

이 작업을 잘 해내면, 사건 시네마는 단지 “무엇이 고장 났는지”만 설명하는 데 그치지 않습니다. 조직 전체를 학습시키고, 신뢰성을 높이고, 보안 태세를 강화하며, 위기 상황에서도 모두가 같은 방향을 바라보게 만드는 연속적인 학습 엔진이 됩니다.

그리고 다음번에 프로덕션 열차가 선로를 이탈하더라도, 여러분은 이미 알고 있을 것입니다. 이 사건을 어떻게 한 프레임씩 스토리보드로 남겨야 할지 말입니다.

종이 사건 스토리 기차역 시네마: 손그림 영화처럼 장애를 스토리보드로 기록하기 | Rain Lag