Rain Lag

아날로그 인시던트 스토리 과수원: 가장 뼈아픈 배움이 열매가 되는 종이 나무 벽 만들기

인시던트 포스트모템을 ‘아날로그 스토리 과수원’으로 바꾸는 방법—팀이 가장 뼈아픈 배움으로부터 회복탄력성을 키우고, 같은 실수를 반복하지 않도록 돕는 눈에 보이는 공유 학습 시스템을 만드는 법.

아날로그 인시던트 스토리 과수원: 가장 뼈아픈 배움이 열매가 되는 종이 나무 벽 만들기

엔지니어링 팀 공간에 들어갔을 때, 한쪽 벽 전체가 종이로 만든 나무들로 가득한 모습을 떠올려 보세요. 각 나무에는 잎들이 달려 있습니다. 그 잎에는 손글씨로 적힌 인시던트, 실수, 장애, 잘못된 배포, 아찔했던 온콜 밤 이야기들이 담겨 있습니다.

이건 ‘망신주기 벽’이 아닙니다.

이건 배움의 과수원입니다. 고통스러웠던 사건들을 눈에 보이는 살아 있는 시스템으로 바꿔, 팀 전체의 지혜로 전환하는 공간입니다. 종이 잎 하나하나에는 무엇이 일어났는지, 왜 일어났는지, 무엇을 잃었는지, 그리고 다시는 같은 방식으로 아프지 않기 위해 무엇을 바꿨는지가 담겨 있습니다.

이것이 바로 **아날로그 인시던트 스토리 과수원(Analog Incident Story Orchard)**의 아이디어입니다.

대시보드와 디지털 도구가 넘쳐나는 세상에서, 우리는 종종 인시던트 포스트모템을 ‘어딘가에 보관하는 문서’ 정도로만 취급합니다. 미래의 회복탄력성을 키우는 씨앗이 아니라는 뜻입니다. 과수원은 이 관점을 뒤집습니다. 모든 인시던트를 심는 것으로 바라보고, 시간이 지나도 계속 찾아와 다시 배우며, 그 가치가 축적되도록 만드는 것입니다.

이 글은 그런 실천을 어떻게 만들 수 있는지 단계별로 안내합니다. 인시던트 포스트모템을 구조화된 학습 도구로 쓰는 법, 비난 없는 심리적 안전 문화를 만드는 법, 그리고 배움을 충분히 눈에 띄게 만들어서 시스템을 설계·구현·운영하는 방식에 실제로 영향을 주도록 만드는 법을 다룹니다.


기록에서 학습 도구로: 포스트모템의 역할 전환

대부분의 팀은 큰 인시던트가 터진 뒤에 이미 “포스트모템”을 하고 있습니다. 문제는 그 문서를 작성한 다음에 벌어지는 일입니다.

  • Confluence나 Notion 같은 곳의 ‘문서 묘지’에 영원히 묻혀 버립니다.
  • 인시던트 커맨더와 몇몇 대응자만 읽어 보고 끝납니다.
  • 액션 아이템이 끝까지 추적되지 않아, 비슷한 장애가 그대로 반복됩니다.

아날로그 스토리 과수원에서 포스트모템은 아카이브용 산물이 아니라, 명확한 역할을 가진 학습 도구입니다.

혼란스럽고 스트레스 가득한 사건을, 장기적인 시스템 개선을 위한 구조화된 입력값으로 전환하는 것.

이 관점의 전환은 구체적인 실천으로 이어집니다.

  • 포스트모템은 당시엔 없었던 미래의 독자들을 위해 씁니다.
  • 무엇이 깨졌는지뿐 아니라, 어떻게 발견했는지, 어떻게 추론했는지, 시스템이나 조직이 어떻게 그런 실패를 부추겼는지를 함께 담습니다.
  • 모든 포스트모템을 계속 이어지는 학습 프로그램 속 **교재(curriculum)**로 다룹니다.

물리적인 과수원 메타포로 옮기면, 이런 모습입니다.

  • 인시던트마다 나무 한 그루(벽에 붙인 큰 종이나 카드)를 만듭니다.
  • 핵심 정보는 시간이 지나며 계속 추가할 수 있는 으로 붙입니다.
  • 누구나 그 벽 앞에 서서 이야기를 훑어보고, 몇 분 안에 과거로부터 배울 수 있습니다.

기본 전제는 ‘블레임리스’: 통찰보다 먼저 안전

사람들이 비난을 두려워하면, 과수원에는 통찰이 아니라 ‘각색된 이야기’만 자라게 됩니다.

블레임리스(Blameless) 포스트모템 문화란 이런 전제를 깔고 움직이는 문화입니다.

  • 모두가 그 순간 가지고 있던 정보·제약·인센티브 안에서 최선을 다했다고 가정합니다.
  • “누가 잘못했나?”를 묻지 않고, “우리 시스템이 어떻게 이런 행동을 합리적인 선택처럼 보이게 만들었나?”를 묻습니다.
  • 개인의 행동은 시스템 요인이 표면에 드러난 결과라는 인식을 갖습니다.

이를 실천으로 옮기면 다음과 같습니다.

  • 이름 걸고 비난하지 않기: “Bob이 설정을 잘못해서…” 같은 표현으로 개인을 루트 원인으로 지목하지 않습니다. 대신 “X를 검증하는 단계가 없어서, 누구라도 쉽게 잘못 설정할 수 있었다”처럼 조건과 구조에 초점을 둡니다.
  • 오류를 ‘정상’으로 만들기: 리더십이 먼저 자신의 실수와 그로부터 얻은 배움을 공개적으로 공유하고, 본인의 나무도 과수원에 추가합니다.
  • 취약성을 보호하기: 포스트모템에서 솔직하게 참여한 내용이 성과 평가나 징계에 이용되지 않는다는 점을 명확히 약속합니다.

심리적 안전은 ‘있으면 좋은 것’이 아닙니다. 시스템이 실제로 어떻게 동작하는지—기술적으로도, 사회적으로도—정확한 데이터를 모으기 위한 필수 조건입니다.


공통 템플릿: 모든 나무의 ‘기둥’ 만들기

포스트모템 템플릿은 각 나무의 **기둥(trunk)**입니다. 안정적인 구조를 제공해, 그 위에 세부적인 배움을 얹을 수 있게 합니다.

서로 다른 인시던트를 비교하고 나중에 다시 탐색하기 쉽게 하려면, 형식이 명확하고 일관돼야 합니다. 좋은 템플릿에는 최소한 다음 항목이 들어갑니다.

  1. 요약(Summary)

    • 한두 단락으로: 무엇이, 언제, 어떻게 일어났고, 왜 중요한지 정리합니다.
  2. 영향(Impact)

    • 누구/무엇이 영향을 받았는가?
    • 기간과 심각도(예: 에러율, 레이턴시, 매출 영향, 고객 신뢰도 등).
  3. 타임라인(Timeline)

    • 시간 순서대로 정리한 주요 사건: 트리거, 알림, 탐지, 조사 과정, 시도했던 완화 조치, 복구 과정 등.
  4. 무엇이 일어났는가 (기술적 요인)

    • 실패 모드, 관련 버그, 설정 오류, 누락된 체크, 성능 저하된 서비스 등.
  5. 왜 일어났는가 (루트 원인)

    • 근본적인 시스템 차원의 원인: 프로세스의 빈틈, 책임 불명확, 없는/부실한 런북, 부족한 툴링, 엇나간 인센티브, 커뮤니케이션 문제 등.
  6. 탐지 및 대응 분석(Detection & Response Analysis)

    • 어떻게 발견되었는가?
    • 대응 과정에서 잘 된 점은 무엇이었고, 무엇이 어려움을 키웠는가?
  7. 배운 점(Lessons Learned)

    • 앞으로의 팀이 꼭 기억했으면 하는 핵심 인사이트.
  8. 후속 조치(Follow‑Up Actions)

    • 구체적이고 검증 가능한 태스크, 명시된 오너와 목표 완료일.
    • 백로그, 로드맵, 트래킹 시스템과 명확히 연결.

물리적인 과수원에서는 이를 다음처럼 요약해 나무에 표현할 수 있습니다.

  • 맨 위에 제목과 날짜(나무의 라벨).
  • 큰 잎에는 영향과 루트 원인을 적습니다.
  • 작은 잎, 색깔을 구분한 잎에는 배운 점과 액션 아이템을 적습니다.

세부적인 내용은 디지털 지식 베이스에 남겨 두고, 벽의 과수원은 신호 대비 잡음 비가 높은 요약 뷰 역할을 하게 합니다.


인시던트 리뷰를 ‘재판’이 아닌 학습 랩으로

리뷰 미팅은 나무를 실제로 심는 자리입니다.

인시던트 리뷰는 **학습 실험실(learning lab)**처럼 운영해야 합니다.

  • 크로스펑셔널 참여: 엔지니어링, SRE/운영, 프로덕트, 고객지원, 필요하다면 보안·비즈니스 담당자까지 함께합니다.
  • 중립적인 퍼실리테이션: 진행자는 대화를 비난 없이 유지하고, 이해에 초점을 맞추도록 돕습니다.
  • 확신보다 호기심: “그때 왜 그 선택이 맞다고 느껴졌나요?”, “어떤 신호가 없어서 더 어려웠나요?” 같은 질문을 장려합니다.

구체적인 패턴은 이렇습니다.

  • 먼저 스토리텔링 라운드: 인시던트 커맨더나 주요 대응자가 방해 없이 타임라인을 처음부터 끝까지 이야기합니다.
  • 다음은 질문 라운드: 나머지 참여자들이 이해를 돕기 위해 질문을 던지고, 숨겨진 가정이나 환경적 요인을 파고듭니다.
  • 마지막으로 정리와 합의: 핵심 배움과 가장 레버리지가 큰 액션 아이템에 대해 합의합니다.

대화 중에 “이건 오래 가는 교훈이다” 싶은 문장이나 표현이 나오면 바로 적어둡니다. 이 문장들이 나중에 벽에 붙는 이 됩니다.


루트 원인 파기: 눈에 보이는 트리거에서 더 깊이

루트 원인이 항상 한 줄로 끝난다면, 아직 충분히 깊이 파지 않은 것입니다.

예를 들어 여기서 멈추지 마세요.

  • “배포 스크립트에 버그가 있었다.”

대신 이렇게 계속 물어야 합니다.

  • 왜 이 버그가 더 일찍 발견되지 않았는가?
  • 왜 이 스크립트가 프로덕션에 이런 영향을 미칠 수 있었는가?
  • 우리의 프로세스나 인센티브 중 무엇이 이런 경로를 더 가능하게 만들었는가?

특히 다음 영역을 집중적으로 살펴보세요.

  • 조직적 요인(Organizational factors)

    • 컴포넌트나 서비스의 오너십이 모호함
    • 속도를 안전보다 우선시하게 만드는 인센티브 구조
    • 중요한 정보 흐름을 가로막는 팀 간 사일로
  • 프로세스 요인(Process factors)

    • 없거나 오래된 런북(runbook)
    • 불완전한 테스트·리뷰 관행
    • 드문 인시던트 드릴이나 게임데이(훈련)
  • 정보·툴링 격차(Information & tooling gaps)

    • 부재한 대시보드나 알림
    • 있긴 하지만 너무 시끄러워서 신뢰할 수 없는 모니터링
    • 실시간으로 질의하기 어려운 로그 환경

이 각각은 인시던트 나무에 붙는 루트 원인 잎이 됩니다. 시스템을 어디서 보강해야 하는지 잊지 않게 해 주는 시각적 리마인더입니다.


결과를 보이게 만들고, 행동으로 연결하기

과수원은 실제로 거닐 때 의미가 생깁니다.

배움을 살아 있게 유지하려면, 가시성실행력이 모두 필요합니다.

1. 물리적(또는 가상) 과수원 만들기

  • 인시던트 나무들을 위한 전용 벽(혹은 공유 가상 보드)을 하나 정합니다.
  • 인시던트 하나마다 다음을 포함한 나무 하나를 만듭니다.
    • 제목, 날짜, 짧은 요약
    • 영향(누가/무엇이/얼마 동안)
    • 핵심 배움 3–5개
    • 최우선 후속 조치 3–5개

몇 가지 섬세한 연출로 효과를 높일 수 있습니다.

  • 인시던트 유형별 색상 코드: 가용성, 보안, 데이터, 성능, 프로세스 등으로 색을 달리합니다.
  • 시스템이나 팀 단위로 나무를 클러스터링해 패턴이 눈에 띄게 만듭니다.
  • 새로운 인시던트가 추가될 때 눈에 띄도록 “🪴 New Tree” 같은 표시나 태그를 붙입니다.

2. 배움을 실제 일에 다시 녹여 넣기

포스트모템 결과가 실제 의사결정과 우선순위에 영향을 주도록 만들어야 합니다.

  • 런북·플레이북(runbooks & playbooks)

    • 온콜 문서에 새로 배운 진단 절차나 완화 전략을 반영합니다.
  • 레질리언스·신뢰성 작업

    • 구조적 개선 사항을 로드맵 아이템, SLO 개선, ‘신뢰성 에픽’으로 전환합니다.
  • 엔지니어링 우선순위

    • 여러 인시던트에서 반복해서 나타나는 테마를 근거로, Observability, 테스트, 아키텍처 개선 등에 대한 투자를 정당화합니다.
  • 온보딩·교육

    • 신규 입사자와 함께 과수원을 걸어 다니며, 우리가 무엇을 운영하는지만이 아니라 어떻게 배우는 팀인지를 설명합니다.

이렇게 과수원은 단순한 ‘고통의 묘지’가 아니라, 지혜의 백로그가 됩니다.


계속 진화하는 실천 만들기

진짜 과수원처럼, 인시던트 학습 시스템도 계속 손질이 필요합니다.

시간이 갈수록 다음과 같은 방식으로 개선해 나가 보세요.

  • 정기적인 메타 리뷰

    • 분기마다 최근 N개의 포스트모템을 다시 살펴봅니다.
    • “우리는 여전히 블레임리스한가?”, “시스템적 원인을 찾고 있는가, 아니면 여전히 ‘휴먼 에러’ 정도에서 멈추고 있는가?”를 점검합니다.
  • 템플릿 진화

    • 시간이 지날수록, 실제로 가장 유용한 내용이 무엇인지에 맞춰 템플릿을 조정합니다.
    • 반복해서 등장하는 주제가 있다면, 예를 들어 심리적 부담, 조정(코디네이션) 어려움, 고객 커뮤니케이션 등을 위한 별도 섹션을 추가합니다.
  • 측정할 수 있는 것은 측정하기

    • 유사한 유형의 인시던트가 줄어드는지 추적합니다.
    • 후속 조치 완료율을 모니터링합니다.
    • 탐지 시간(Time to Detect)과 복구 시간(Time to Recover)이 개선되는지 관찰합니다.
  • 규범 재강화

    • 잘 진행된 포스트모템과 의미 있는 후속 조치를 공개적으로 칭찬합니다.
    • 시스템의 불편한 진실을 드러낸 사람들을 인정하고 보상합니다.

이런 지속적인 손질 끝에, 투명성과 심리적 안전, 지속적 개선이 예외적인 행동이 아니라 당연한 기본값인 문화를 만들 수 있습니다.


결론: 상처를 남기지 말고 나무를 키우자

인시던트는 앞으로도 계속 일어납니다. 우리가 선택할 수 있는 건, 그 사건이 상처를 남기게 할지, 아니면 나무를 남기게 할지입니다.

상처는 이렇게 말합니다. “아팠으니, 다시는 이야기하지 말자.”
나무는 이렇게 말합니다. “아팠으니, 그 고통이 더 강한 무언가를 키우게 하자.”

포스트모템을 구조화된 학습 도구로 다루고, 블레임리스 분석을 실천하며, 스토리를 표준화된 형식으로 기록하고, 결과를 눈에 보이고 행동 가능하게 만들면, 여러분만의 아날로그 인시던트 스토리 과수원을 키울 수 있습니다.

  • 팀 전체가 매일 마주치는 종이 나무 벽은 이렇게 말해 줄 것입니다. 우리는 인시던트를 그냥 버티기만 하지 않는다. 의도적으로 배우며 지나간다.

지금 팀이 포스트모템을 작성만 해 두고 곧장 잊어버린다면, 아주 작게 시작해 보세요.

  • 가장 최근의 큰 인시던트 하나를 고릅니다.
  • 한 장짜리로 요약합니다: 영향, 원인, 핵심 배움 3개, 핵심 액션 3개.
  • 그 종이를 벽에 붙입니다.

그걸로 첫 번째 나무를 심었습니다. 이제, 나머지 과수원이 여러분을 기다리고 있습니다.

아날로그 인시던트 스토리 과수원: 가장 뼈아픈 배움이 열매가 되는 종이 나무 벽 만들기 | Rain Lag