아날로그 인시던트 스토리 미로 서랍: 반복 장애로부터 손으로 그리는 종이 탈출 경로
반복되는 장애를 비난 없는 포스트모템, 테이블탑 연습, Fault Tree Analysis(FTA)를 활용해 ‘종이 탈출 경로’로 바꾸는 방법 — 지금 당신의 시스템에 꼭 필요한 ‘아날로그 인시던트 스토리 미로 서랍’을 만드는 법.
아날로그 인시던트 스토리 미로 서랍: 반복 장애로부터 손으로 그리는 종이 탈출 경로
반복되는 장애는 이미 한 번 풀어본 미로에 다시 갇힌 느낌과 비슷합니다. 복도도 익숙하고, 막다른 길도 익숙하고, Slack 속 공황 상태와 밤 늦게까지 바라보던 대시보드도 다 기억납니다. 그런데도 이상하게, 또다시 그곳에 와 있습니다.
여기서 등장하는 개념이 바로 아날로그 인시던트 스토리 미로 서랍(Analog Incident Story Maze Drawer) 입니다. 이는 의도적으로 로우테크(저기술)인 종이 기반 방식으로, 반복되는 장애라는 미로를 기록하고, 분석하고, 탈출 연습까지 해보는 방법입니다. 굳이 문구류에 대한 향수를 자극하려는 게 아닙니다. 핵심은 실패를 정말로 이해할 만큼 속도를 늦추고, 그로부터 빠져나오는 방법을 물리적인 아카이브로 쌓아 가는 것입니다.
이 글에서는 아래 세 가지 도구를 활용해 이 서랍을 어떻게 만들 수 있는지 살펴봅니다.
- 비난 없는 포스트모템(Blameless Postmortem) – 과거로부터 배우기 위해
- 테이블탑 연습(Tabletop Exercise) – 미래를 미리 리허설하기 위해
- Fault Tree Analysis(FTA) – 전체 미로를 한눈에 보기 위해
이 세 가지를 함께 쓰면, 인시던트를 수수께끼가 아닌 지도로 바꾸는 실용적이고 반복 가능한 방법이 됩니다.
반복 장애는 ‘우연’이 아니라 ‘증상’이다
프로덕션이 비슷한 방식으로 계속 깨진다면, 그건 운이 나빠서도, 누군가 한 사람의 실수 때문도 아닌 경우가 대부분입니다. 그건 이런 신호입니다.
- 시스템 설계에 약한 지점이 있다
- 프로세스가 취약하거나 불완전하다
- 문화가 학습보다 속도에 최적화되어 있다
당장의 증상만 패치하는 것—서비스 재시작, 배포 롤백, 빠른 가드레일 추가—은 가용성을 일시적으로 회복시켜 줍니다. 하지만 같은 유형의 장애가 반복된다면, 당신은 인시던트를 이해해야 할 이야기가 아니라 꺼야 할 불 정도로만 다루고 있는 셈입니다.
반복되는 인시던트는 우주가 이렇게 말하는 방식입니다:
“이건 한 번 터지고 끝날 문제가 아니다. 시스템적인 문제다.”
아날로그 스토리 미로 서랍은 바로 그 시스템적인 패턴을 시간에 걸쳐 포착하고 분석하는 도구입니다.
비난 없는 포스트모템: 장애를 재판이 아닌 이야기로 바꾸기
서랍 속에 들어갈 첫 번째 도구는 비난 없는 포스트모템(blameless postmortem) 입니다.
비난 없는 포스트모템은 다음과 같은 방식으로 인시던트를 리뷰합니다.
- 누가 잘못했는지가 아니라 무슨 일이 있었는지에 집중한다
- 사람을 비난의 대상이 아니라 인사이트의 원천으로 본다
- 공포 기반 통제가 아니라 시스템 회복탄력성(resilience) 을 높이는 것이 목적이다
왜 ‘비난 없음(Blameless)’이 중요한가
엔지니어가 징계나 평판 하락을 두려워한다면:
- 세부 사항이 대충 넘어간다
- 위험하지만 중요한 맥락은 숨겨진다
- 사람들은 조직 학습이 아니라 자기 보호를 최적화한다
심리적 안전이 없다면 포스트모템은 겉치레가 됩니다. 타임라인은 생기겠지만, 얕은 “루트 원인(root cause)” 몇 개와, 시간이 지나면 조용히 사라지는 액션 아이템 목록만 남습니다.
반대로, 비난 없음이 중심에 자리 잡으면 포스트모템은 이렇게 변합니다.
- 툴, 문서, 프로세스가 의사결정을 어떻게 만들었는지 드러낸다
- 충돌하는 인센티브(예: 더 빨리 배포 vs. 더 잘 테스트)를 표면 위로 끌어낸다
- 관측성(observability), 런북, 오너십의 빈틈을 밝혀낸다
종이에 무엇을 기록할 것인가
아날로그 서랍을 위해, 인시던트마다 구조화된 포스트모템 내러티브를 인쇄하거나 손으로 정리합니다.
- 스토리 제목 – 사람이 읽기 쉬운 이름 (예: 캐시 스탬피드가 몰려온 금요일 밤 대소동)
- 컨텍스트 – 당시 비즈니스와 시스템에서 무슨 일이 진행 중이었는지
- 타임라인 – 이벤트, 시그널, 의사결정, 커뮤니케이션 흐름
- 기여 요인(Contributing Factors) – 하나의 ‘루트 원인’ 희생양이 아닌, 서로 맞물린 여러 요인
- 임팩트 – 사용자, SLO, 매출, 팀에 미친 영향
- 배운 점(Learnings) – 무엇이 의외였는가? 무엇이 설계대로 동작하지 않았는가?
- 후속 조치(Follow-ups) – 구체적이고 담당자가 지정된 개선 사항
그 다음, 라벨을 붙이고 서랍에 파일링합니다. 각각의 포스트모템은 미로 지도 아틀라스의 한 챕터가 됩니다.
테이블탑 연습: 다시 갇히기 전에 탈출 연습하기
포스트모템이 이미 지나간 미로를 이해하게 해준다면, 인시던트 대응 테이블탑 연습(tabletop exercise) 는 같은 미로에 다시 갇히기 전에 탈출 경로를 연습하게 도와줍니다.
테이블탑 연습은 이런 방식의 가이드된 시뮬레이션입니다.
- 그럴듯한 인시던트 시나리오를 설정하고
- 팀이 각 단계에서 무엇을 할지 말로 풀어가며
- 실제 프로덕션을 건드리지 않고, 커뮤니케이션·역할·툴·런북을 스트레스 테스트한다
온콜 팀을 위한 비행 시뮬레이터라고 생각하면 됩니다.
반복 장애에 테이블탑 연습이 중요한 이유
반복되는 인시던트는 종종 다음과 같은 문제를 드러냅니다.
- 모호한 온콜 역할과 권한
- 지저분하거나 불완전한 런북
- 취약한 팀 간 커뮤니케이션
- 심각도(severity)와 에스컬레이션 기준에 대한 기대 불일치
테이블탑 연습을 통해 다음을 할 수 있습니다.
- 과거 인시던트를 다른 접근 방식으로 다시 돌려보기(re-run)
- 학습한 내용을 바탕으로 새로운 장애 모드를 시나리오에 추가하기
- 효과적이고 침착한, 조율된 대응에 대한 근육 기억(muscle memory) 을 만들기
반복 가능한 템플릿을 사용하라
테이블탑이 가끔 하는 보여주기식 이벤트에 그치지 않게 하려면, 표준 템플릿을 사용하세요.
- 시나리오 설명(Scenario Description) – 실제 또는 그럴듯한 장애에 기반
- 초기 증상(Initial Symptoms) – 온콜이 처음 보는 신호는 무엇인가
- 사용 가능한 도구(Available Tools) – 대시보드, 로그, 런북 등
- 역할(Roles) – 인시던트 커맨더, 커뮤니케이션 리드, SME(Subject-Matter Expert)
- 주요 의사결정 포인트(Key Decision Points) – 롤백할 것인가? 다른 팀을 호출할 것인가? SEV-1로 선언할 것인가?
- 인젝션(Injects) – 연습 도중 추가되는 새로운 변수 (예: 오해를 부르는 알람, 동시 발생하는 2차 인시던트)
- 결과 & 격차(Outcomes & Gaps) – 무엇이 잘 되었는지, 무엇이 부족했는지, 무엇이 의외였는지
각 테이블탑 연습 후에는 결과를 인쇄해 관련 포스트모템 옆에 파일링합니다. 시간이 지나면 서랍 안에는 어떤 일이 잘못되었는지뿐 아니라 어떻게 바로잡기 위해 연습했는지가 함께 쌓입니다.
Fault Tree Analysis: 미로를 위에서 내려다보기
포스트모템과 테이블탑 연습이 서사적·경험적인 도구라면, Fault Tree Analysis(FTA) 는 실패가 어떻게 조합되는지에 대한 구조적·논리적 뷰를 제공합니다.
FTA는 하나의 상위 사건(Top Event) 에서 시작합니다. 예를 들어, “Checkout API가 10분 이상 불가용”과 같은 사건을 정해 두고, 아래 방향으로 내려가며 분석합니다.
- 그 장애의 직접적인 원인을 식별합니다. (예: 서비스 크래시, DB 과부하, 트래픽 라우팅 오류)
- 각 원인을 더 구체적인 기여 조건으로 나눕니다.
- AND / OR 같은 논리 연산자를 활용해, 어떤 조건들이 함께 만족되어야 문제가 발생하는지 표현합니다.
종이에 그리면 거꾸로 뒤집힌 나무 혹은 분기하는 플로차트처럼 보입니다.
반복 장애에 FTA가 도움이 되는 이유
FTA는 다음을 가능하게 합니다.
- 서로 다른 인시던트들 사이에 공통된 실패 경로를 드러낸다
- 싱글 포인트 오브 페일러(SPoF) 나 위험한 조합이 어디 있는지 보여준다
- 어떤 개선이 가장 큰 임팩트를 줄 수 있는지 우선순위를 매기기 쉽게 해준다
예를 들어, 완전히 다른 것처럼 보이는 인시던트들이 사실은 모두 다음에 의존하고 있을 수 있습니다.
- 같은 공유 설정 서비스(Configuration Service)
- 허술한 수동 배포 체크리스트
- 과부하된 단일 데이터베이스 클러스터
이것을 FTA로 맵핑하면, 개별 에피소드 같던 장애들이 실제로는 같은 미로 안에서 벌어지는 일관된 시스템 지도로 보이기 시작합니다.
각 Fault Tree를 인쇄해 관련 인시던트 내러티브 옆에 함께 보관하세요.
아날로그 인시던트 스토리 미로 서랍 조립하기
시작하기 위해 화려한 툴이 필요하지 않습니다. 필요한 것은:
- 서랍(또는 폴더 시스템)
- 종이, 펜, 프린터
- 실패를 기록할 만큼 그것을 중요하게 여기는 태도
서랍을 다음 세 가지 주요 섹션으로 나누어 정리해 보세요.
- 인시던트 스토리(포스트모템)
- 시간순으로 정렬하고, 서비스·컴포넌트·팀 단위로 태그를 달아둡니다.
- 연습 기록(테이블탑 템플릿 & 결과)
- 시나리오 설명, 의사결정, 발견된 격차들을 정리합니다.
- 미로 지도(Fault Tree & 다이어그램)
- 실패가 어떻게 조합되는지를 시각적으로 분해한 자료들입니다.
시간이 지나면서 서랍을 활용하는 방법
-
새 인시던트가 시작되었을 때:
- 비슷한 증상을 가진 과거 인시던트를 훑어봅니다.
- 해당하는 Fault Tree와 플레이북을 함께 검토합니다.
-
개선 작업을 계획할 때:
- 여러 인시던트에 반복적으로 등장하는 기여 요인을 찾습니다.
- Fault Tree를 단순하게 만들어 줄 구조적 개선에 우선순위를 둡니다.
-
엔지니어 온보딩 시:
- 선별된 인시던트와 테이블탑 연습을 교육 자료로 활용합니다.
- 시스템이 어떻게 동작하는지만이 아니라, 어떻게 실패해 왔는지도 보여줍니다.
이 서랍은 곧 당신 조직의 아날로그 메모리가 됩니다. 다시 겪고 싶지 않은 고통을 의도적으로 잊지 않도록 보존해 두는 기록물입니다.
문화: 진짜 탈출 경로
프로세스와 다이어그램만으로는 장애 미로에서 빠져나올 수 없습니다. 진짜 레버리지는 문화에서 나옵니다.
- 방어보다 호기심 – “이때 왜 이게 최선이라고 느껴졌을까?”가 “이거 누가 승인했어?”보다 먼저 나오는 문화
- 처벌보다 학습 – 솔직한 보고와 깊이 있는 분석을 장려하는 문화
- 쇼보다 후속 실행 – 개선 액션을 끝까지 추적하고 실제로 완료하는 문화
비난 없는 포스트모템, 테이블탑 연습, FTA는 이런 문화를 강화하는 의식(ritual) 입니다. 그리고 아날로그 서랍은 이런 메시지를 상기시켜 주는 물리적 상징입니다.
- 인시던트는 피할 수 없지만,
- 똑같은 인시던트를 반복하는 것은 선택 사항이다 — 배울 의지만 있다면.
결론: 미로를 보이게 만들고, 함께 걸어나오기
반복되는 장애는 아직 완전히 이해하지 못한 미로에 갇혀 있다는 신호입니다.
다음을 결합함으로써:
- 실패를 솔직하게 풀어내는 비난 없는 포스트모템
- 더 나은 대응을 미리 리허설하는 테이블탑 연습
- 시스템 수준에서 실패 조합을 보여주는 Fault Tree Analysis
…그리고 이 모든 것을 아날로그 인시던트 스토리 미로 서랍에 차곡차곡 쌓아 두면, 당신은 다음을 이룰 수 있습니다.
- 혼돈을 이야기와 다이어그램으로 바꾸고
- 수치를 공유된 학습으로 바꾸며
- 반복 장애를 드물고, 잘 이해된 사건으로 바꾼다
앞으로도 가끔은 미로 속에 서 있게 될 겁니다. 하지만 이제는 지도도 있고, 그 지도를 함께 써 본 팀도 있고, 어떻게 빠져나왔는지를 보여주는 스토리가 가득한 서랍도 있을 것입니다. 그때마다, 함께 걸어나올 수 있습니다.