Rain Lag

아날로그 incident 퍼즐 월: 프로덕션 장애를 팀이 함께 푸는 직소 맵으로 만들기

incident 포스트모텀을 물리적인 “퍼즐 월(puzzle wall)”로 바꿔, 장애를 더 쉽게 시각화·공유·학습하고 히어로 문화를 줄이면서 안정성을 높이는 방법을 소개합니다.

아날로그 Incident 퍼즐 월: 프로덕션 장애를 팀이 함께 푸는 직소 맵으로 만들기

incident 포스트모텀이 슬라이드 덱과 문서 속에만 머물러 있다면, 팀이 장애를 눈으로 보고 손으로 함께 풀어볼 수 있는 강력한 기회를 놓치고 있을 가능성이 큽니다.

여기서 등장하는 것이 바로 아날로그 Incident 퍼즐 월(Analog Incident Puzzle Wall) 입니다. 복잡한 장애를 눈에 보이는 직소(jigsaw) 스타일의 벽 지도(wall map)로 만들어, 실패를 가시화하고, 협업적으로 다루며, 생각보다 재미있게 배울 수 있게 해 줍니다.

이제 한 사람이 앞에 나와 “무슨 일이 있었는지”를 발표하고 나머지는 반쯤만 듣는 대신, 팀 전체가 함께 맞춰야 하는 하나의 공용 퍼즐을 가지게 됩니다. 시스템, 이벤트, 타임라인, 의사결정이 서로 맞물린 조각으로 펼쳐지죠. 그 결과, 더 잘 기억되고, 심리적으로 안전하며, 시스템 관점이 살아 있는 학습 방식이 됩니다.


왜 incident를 물리적인 퍼즐로 만들어야 할까?

대부분의 팀은 이미 어떤 형태로든 포스트모텀을 합니다. 하지만 현실은 보통 이렇습니다.

  • 한 사람(온콜 히어로)이 긴 문서를 쭉 설명한다
  • 로그, 메트릭, 타임라인이 가득한 슬라이드를 넘긴다
  • 말하는 사람은 몇 명뿐이고, 나머지는 고개만 끄덕인다
  • 모두가 부분적인 이해만 가진 채, 오래 남지 않는 인사이트만 얻고 끝난다

퍼즐 월(puzzle wall) 은 이런 흐름을 여러 면에서 바꿉니다.

  1. 복잡한 장애가 눈에 보입니다. 추상적인 설명 대신, 시스템·의존성·이벤트 체인이 하나의 물리적인 지도 위에 나타납니다.
  2. 컴포넌트 간 관계가 더 명확해집니다. 직소 퍼즐처럼 배치하면 서비스, 이벤트, 의사결정이 어떻게 맞물리는지 직관적으로 보입니다.
  3. 포스트모텀이 ‘쇼’가 아니라 공동 작업이 됩니다. 모두가 한 벽 앞에 모여 함께 문제를 풀게 됩니다.
  4. 물리적인 아티팩트는 기억에 오래 남습니다. 또 하나의 Confluence 페이지보다, 벽에 붙어 있던 큰 맵이 훨씬 더 잘 떠오릅니다.
  5. 패턴과 시스템 취약점이 두드러집니다. 시각적인 군집(클러스터링)을 통해 반복되는 실패 양상이 눈에 띄게 됩니다.

퍼즐 월이 기존의 텍스트 포스트모텀을 대체하는 것은 아닙니다. 오히려 증폭합니다. 타임라인, 영향, 후속 액션은 여전히 문서로 남기되, 그 내용을 함께 탐색할 수 있는 촉각적이고 시각적인 도구가 하나 더 생기는 것입니다.


아날로그 Incident 퍼즐 월이란 무엇인가?

아날로그 Incident 퍼즐 월의 핵심 구성은 다음과 같습니다.

  • 시스템과 incident 타임라인을 표현하는 큰 물리적 표면 (화이트보드, 코르크보드, 실제 벽 등)
  • 다음을 나타내는 직소 퍼즐 같은 조각들:
    • 서비스와 컴포넌트
    • 외부 의존성(API, 벤더, 네트워크 등)
    • 주요 이벤트(알림, 배포, 롤백, 설정 변경 등)
    • 기여 요인(피로, 부족한 observability, 불명확한 오너십 등)
    • 영향(사용자-facing 장애, 기능 저하, 데이터 손실 등)
  • 관계를 드러내는 커넥터:
    • 인과 관계를 나타내는 화살표
    • 의존성을 나타내는 선
    • “같은 기여 요인에서 비롯된 것들”을 묶는 클러스터

이 조각들을 조합해 다음을 만들어 냅니다.

  • 시스템 맵: 어떤 것이 무엇과 통신하는지
  • 타임라인: 언제 무엇이 일어났는지
  • 인과 사슬(causal chain): 어떤 요인들이 장애에 어떻게 기여했는지

그리고 이것을 팀과 함께 만듭니다. 강의가 아니라, 다 같이 푸는 퍼즐처럼요.


첫 번째 퍼즐 월, 이렇게 시작해 보세요

복잡한 장비는 필요 없습니다. 작게, 대충 시작해도 됩니다.

1. 적절한 incident를 고르기

다음 조건에 맞는 장애를 하나 고릅니다.

  • 여러 시스템이나 팀이 얽혀 있었던 경우
  • 루트 원인이 바로 보이지 않았던 경우
  • 여러 가지 기여 요인(기술적·휴먼 팩터 모두)이 섞여 있던 경우
  • “이 incident는 더 많은 사람이 제대로 이해했으면 좋겠다” 싶은 경우

5분 만에 지나간 사소한 glitch보다는, 시각화할수록 도움이 되는 사건을 선택하세요.

2. 퍼즐 조각의 종류를 정하기

간단한 범례(legend)를 만들고 끝까지 지켜 주세요. 예를 들어:

  • 파란 카드 – 서비스 / 컴포넌트 (API, DB, 큐, 결제 프로세서 등)
  • 초록 카드 – 이벤트 (배포, 설정 변경, failover, alert 등)
  • 주황 카드 – 기여 요인 (누락된 alert, 불명확한 runbook, 온콜 피로 등)
  • 빨간 카드 – 영향 (사용자-facing 장애, 데이터 불일치, SLO 위반 등)
  • 보라 카드 – 완화 조치 및 후속 액션

인덱스 카드, 포스트잇, 출력한 카드 아무거나 사용해도 됩니다. 선택 사항으로, 퍼즐처럼 모양을 잘라서 맞물리게 하거나, 화이트보드 위에 자석을 써서 실제로 “끼워 맞추는” 느낌을 줄 수도 있습니다.

3. 시스템과 타임라인을 벽에 그리기

벽에서 다음 순서로 진행합니다.

  1. 핵심 서비스들을 배치합니다. 평소 데이터 플로우 순서대로(왼쪽→오른쪽 또는 위→아래) 놓습니다.
  2. 의존성 추가: 데이터베이스, 서드파티 API, 메시지 큐 등을 옆에 붙입니다.
  3. 타임라인을 수평 축으로 놓기: x축에 시간을, y축에 컴포넌트나 레이어를 두고 전개합니다.
  4. 이벤트 카드를 실제 발생 시점에 놓기: 예) “v742 배포”, “캠페인으로 인한 트래픽 증가” 등

완벽함은 목표가 아닙니다. 목표는 “이야기를 이해할 만큼은 충분한 정확도” 입니다.

4. 포스트모텀을 ‘퍼즐 푸는 세션’으로 바꾸기

incident를 발표하는 대신, 팀이 직접 퍼즐을 맞추도록 안내합니다.

  • 이미 알고 있는 것부터 시작합니다. “09:12쯤 사용자들이 500 에러를 보기 시작했습니다. 이 영향(impact) 카드를 먼저 벽에 붙여 봅시다.”
  • 사람들이 조각을 추가하게 합니다. “이 직전에 무슨 일이 있었죠? 이 서비스는 어떤 것에 의존하나요?”
  • 움직임을 장려합니다. 사람들에게 직접 앞으로 나와 카드를 붙이고, 옮기고, 화살표를 그리거나 새 조각을 제안하게 하세요.
  • 불확실성은 눈에 보이게 만듭니다. 인과 관계가 확실하지 않다면 점선 화살표를 쓰거나, 물음표 카드로 표시합니다.

이렇게 하면 포스트모텀이 공동 디버깅 세션이 되지, 회고를 듣기만 하는 일방적 시간으로 끝나지 않습니다.


퍼즐 월이 팀 문화를 어떻게 바꾸는가

1. 히어로 문화와 사일로 지식을 줄인다

incident를 항상 “그때 상황을 수습한 사람”이 설명하게 되면, 자연스럽게 히어로 문화가 강화됩니다.

  • 늘 같은 몇 명의 전문가만 위기 때 호출된다
  • 그들의 머릿속에만 제대로 된 mental model이 남아 있다
  • 다른 사람들은 깊은 이해를 쌓기 어렵다

퍼즐 월은 이 흐름을 뒤집습니다.

  • 지식이 벽 위로 외재화됩니다. 누구나 전체 그림을 볼 수 있습니다.
  • 비전문가도 슬라이드 흐름을 끊지 않고 자유롭게 질문할 수 있습니다.
  • SRE, 개발자, 고객지원, 프로덕트 등 여러 역할의 관점이 눈에 보이는 형태로 드러납니다.

디버깅이 개인의 능력이 아니라 팀 스포츠가 됩니다.

2. 심리적 안전감을 키운다

물리적인 아티팩트는 대화를 개인 공격이 아니라 시스템 논의로 만들어 줍니다.

  • 사람을 가리키는 대신 카드를 가리키게 됩니다.
  • “이 alert가 안 떴다”가 “이 카드가 벽에 빠져 있네요 — 그게 어떻게 영향을 줬을까요?”라는 식으로 바뀝니다.
  • 휴먼 팩터(피로, 불명확한 오너십 등)도 시스템의 하나의 카드로 다뤄지며, 비난 포인트가 아니라 분석 요소로 취급됩니다.

이렇게 모든 것을 실제로 눈앞에 펼쳐 놓으면, 방어적 태도보다는 호기심이 자라기 쉽습니다.

3. 학습 효과가 오래 간다

사람들은 시각·공간·물리적 경험을, 화면 속 불릿 포인트보다 훨씬 더 잘 기억합니다.

퍼즐 월 세션이 잘 끝나면, 동료들은 이런 것들을 기억해 냅니다.

  • 병목이 벽에서 어느 위치에 있었는지
  • 어떤 서비스 카드 주변에 빨간 영향 카드가 잔뜩 몰려 있었는지
  • 한 결정 주변에 주황색 기여 요인이 어떻게 뭉쳐 있었는지

이렇게 생생한 그림이 머릿속에 남으면, 비슷한 패턴이 다시 나타났을 때 더 빠르게 눈치챌 수 있습니다.


시각적으로 보는 패턴과 시스템 취약점

여러 incident를 꾸준히 퍼즐 월로 만들어 가면, 텍스트 포스트모텀만으로는 잘 보이지 않던 패턴이 떠오릅니다.

  • 특정 서비스가 계속해서 장애의 중심에 자리 잡고 있다
  • 수동 설정 변경과 같은 특정 이벤트 유형이 incident 타임라인 초반에 자주 등장한다
  • alert가 사용자 영향 이후에 몰려서 발생한다
  • 인수인계, 불명확한 오너십, 근무 시간 외 변경 등 휴먼 팩터가 주황 카드로 계속 등장한다

벽의 한 구역이나 별도의 보드를 만들어, 반복해서 등장하는 퍼즐 조각을 모을 수 있습니다.

  • “자주 기여하는 요인들” (예: 취약한 의존성, 빠져 있는 circuit breaker 등)
  • “공통 휴먼 팩터” (예: 애매한 runbook, 단일 인물에게만 의존하는 지식)
  • “incident 간 공통 패턴” (예: 여러 서비스에 걸친 동일한 threshold 오설정)

이렇게 하면 안정성(reliability) 개선이 개별 incident를 수습하는 일에 그치지 않고, 팀 전체의 지속적인 학습 활동이 됩니다.


안정성 문화의 일부로 만드는 방법

지속적인 가치를 얻으려면, 퍼즐 월을 한 번 하고 마는 이벤트가 아니라 반복 가능한 의식(ritual) 으로 만드는 것이 좋습니다.

  • 가벼운 표준 키트를 준비합니다: 미리 인쇄된 카드, 색깔별 포스트잇, 펜, 테이프 등.
  • 특정 심각도(severity) 이상의 incident에는 퍼즐 세션을 정례화합니다.
  • 매번 완성된 벽을 사진으로 찍어 incident 관리 시스템에 아카이브합니다.
  • 작성된 포스트모텀 문서에 벽 사진 링크를 함께 첨부해 맥락을 살립니다.
  • 안정성 로드맵을 만들 때 예전 퍼즐 월을 다시 꺼내 보며, 어떤 패턴이 여전히 남아 있는지 살펴봅니다.

모든 incident에 퍼즐 월을 쓸 필요는 없습니다. 특히 팀 간 이해·시스템 수준 통찰이 중요한 incident에 집중해서 활용하면 됩니다.


실전 팁과 주의할 점

도움이 되는 것들:

  • 세션 시간에 제한을 두세요. 45–60분 정도로 맞추면 집중력이 유지됩니다.
  • 퍼실리테이터를 지정하세요. 벽의 흐름을 정리하고, 질문을 던지고, 혼선이 생기지 않도록 돕는 역할입니다.
  • “루트 원인 맞히기 게임”을 피하세요. 누가 잘못했는지 겨루기보다, 무슨 일이 있었는지 맵으로 드러내는 것에 집중합니다.
  • 비엔지니어링 역할도 초대하세요. 고객지원, 운영, 프로덕트는 종종 핵심 퍼즐 조각을 가지고 있습니다.
  • 마찰을 최소화하세요. 카드나 다이어그램을 지나치게 예쁘게 만들려 하지 말고, 대충 그려도 되게 만드세요.

주의해야 할 점:

  • 과한 예술적 욕심으로 속도가 느려지는 것
  • 한 사람이 벽을 독점하고 나머지는 구경만 하게 되는 것
  • 물리적인 맵을 정식 문서를 대체하는 것으로 착각하는 것

퍼즐 월은 렌즈일 뿐, 시스템 오브 레코드(system of record)는 아닙니다.


짜증 나는 장애를 ‘함께 푸는 퍼즐’로 바꾸기

프로덕션 incident가 즐거워질 일은 없겠지만, 그로부터 배우는 방식은 분명 바꿀 수 있습니다.

아날로그 Incident 퍼즐 월을 도입하면:

  • 복잡한 실패를 더 잘 보고 이해할 수 있고
  • 히어로 중심 구출극 대신 협업 디버깅을 장려하며
  • 한 번의 미팅으로 끝나지 않는 기억에 남는 아티팩트를 만들고
  • 텍스트 요약만으로는 보이지 않던 패턴과 시스템 취약점을 드러내며
  • 실패를 둘러싼 공동 책임감과 심리적 안전 문화를 키울 수 있습니다.

다음에 큰 incident를 마무리할 때, 슬라이드 덱만 준비하는 방식에서 한 발 벗어나 보세요. 카드 몇 장을 집어 들고, 벽 하나를 확보한 뒤, 팀을 초대하세요. 그리고 무슨 일이 정말로 벌어졌는지, 그 퍼즐을 모두 함께 맞춰 보세요.

아날로그 incident 퍼즐 월: 프로덕션 장애를 팀이 함께 푸는 직소 맵으로 만들기 | Rain Lag