아날로그 장애 스토리 어쿠아리움 선반: 다층 장애를 위한 종이 스택 스카이라인 만들기
저기술 종이 스택 ‘사건 어쿠아리움’을 통해 다층 장애 분석을 가르치고, 다운타임을 줄이며, 추상적인 신뢰성 개념을 모두가 함께 들여다볼 수 있는 스토리 스카이라인으로 바꾸는 방법.
소개
대시보드, 디지털 트윈, AI 기반 옵저버빌리티에 집착하는 시대에, 다시 종이로 돌아가는 일은 조용하지만 꽤나 급진적인 선택이다.
팀 공간에 들어섰을 때, 선반 가득 장애 스토리들이 스카이라인처럼 펼쳐져 있다고 상상해 보자. 종이가 층층이 쌓여 있고, 각 스택은 하나의 장애 사건이며, 그 위에서 아래까지 그 장애를 만든 결정들, 신호들, 의존성들, 조직적 요인들이 층층이 깔려 있다. 이것이 바로 아날로그 장애 스토리 어쿠아리움 선반(Analog Incident Story Aquarium Shelf) — 복잡한 다층 장애를 종이 스택으로 시각화한 물리적 도구다.
겉으로 보면 이야기들이 헤엄치는 어항 같기도 하고, 사건들로 이뤄진 도시 스카이라인 같기도 하다. 하지만 단순한 장식은 아니다. 이것은 다음을 위한 도구다.
- 계층적으로 생각하는 법을 가르치고
- 연쇄적인 의존성을 드러내며
- 신뢰성을 모두가 함께 책임지는, 눈에 보이고 손에 잡히는 것으로 만드는 도구다.
이 글에서는 이 아날로그 ‘스토리 어쿠아리움’이 어떻게 동작하는지, 왜 다층 분석이 다운타임을 30–55% 줄이는지, 그리고 실패 모델링, 로우테크 게임, 심지어 배터리 분해 라인에서 가져온 아이디어들이 어떻게 팀의 장애 학습 방식을 바꿀 수 있는지 살펴본다.
왜 다층 장애(outage) 분석이 중요한가
많은 포스트모템은 첫 번째나 두 번째 “왜?”에서 멈춘다. 잘못된 설정이 배포됐다든지, 캐시 사이징을 잘못했다든지, 페일오버가 동작하지 않았다든지 하는 수준이다.
그러나 장애는 거의 언제나 단일 원인 사건이 아니다. 장애는 다층적인 이야기다.
- 겉으로 드러난 기술적 증상
- 그 아래에 숨어 있는 의존성 체인
- 프로세스, 도구, 커뮤니케이션 패턴에 의해 형태가 잡히고
- 조직 구조와 인센티브의 영향을 받는다.
사후 분석에 구조화된 4‑계층 분석 모델을 공식적으로 도입한 팀들은 다운타임을 **30–55%**까지 줄였다고 보고한다. 비결은 마법이 아니라 마인드셋의 전환이다.
- 시스템 계층 – 기술적으로 무엇이 실패했는가?
- 의존성 계층 – 상·하위 서비스는 어떻게 상호작용했는가?
- 프로세스 계층 – 어떤 절차, 런북, 워크플로우가 대응을 형성했는가?
- 조직 계층 – 어떤 역할, 인센티브, 커뮤니케이션 구조가 영향을 미쳤는가?
사람들이 이 네 계층을 모두 보도록 훈련되면, 표면 증상만 고치는 데서 벗어나 시스템 자체를 다시 설계하는 방향으로 움직이게 된다.
아날로그 장애 스토리 어쿠아리움 선반은 이 계층들을 종이, 펜, 선반만으로 눈에 보이고, 꺼내서 살펴볼 수 있도록 만드는 방식이다.
장애 스토리 어쿠아리움 선반이란 무엇인가?
스토리 어쿠아리움의 핵심은 장애 스토리를 물리적인 3D 구조로 표현한 것이다.
- 각 종이 스택 = 하나의 장애 사건
- 스택 안의 각 종이 한 장 = 하나의 관점 또는 분석 수준
- 선반 위에 가로로 줄지어 선 스택들 = 시간에 따른 장애 지형
이를 **종이로 만든 스택 스카이라인(stacked-paper skyline)**으로 생각해도 좋다.
- 높은 스택: 복잡하고, 다층 분석이 잘 된 장애
- 낮은 스택: 얕게만 이해된 장애
- 스카이라인에 난 빈틈: 리뷰 과정의 블라인드 스폿
각 계층은 앞서 말한 4‑계층 모델에 대응시킬 수 있다.
-
맨 위 장 – 내러티브 & 임팩트
- 짧은 스토리: 무엇이, 언제, 누구에게 일어났는가
- 고객 영향, 에러 버짓, 타임라인 하이라이트
-
두 번째 장 – 기술적 결함 & 신호들
- 핵심 메트릭, 로그, 실패 모드
- 시스템 경계 안에서의 결함 전파 양상
-
세 번째 장 – 의존성과 전파
- 상·하위 서비스 다이어그램
- 어디서, 어떻게 장애가 퍼져 나갔는지 표기
-
맨 아래 장 – 프로세스 & 조직 맥락
- 핸드오프, 에스컬레이션, 플레이북 사용 여부
- 인력 배치, 인센티브, 커뮤니케이션 마찰
선반에서 스택을 쏙 빼내면, 위에서 아래로 읽어 내려갈 수 있는 작은 장애 책(mini incident book) 한 권이 손에 들어오는 셈이다.
디지털 모델링에서 아날로그 스토리 스택으로
Smart TS XL 같은 현대적인 복원력(resilience) 도구와 시나리오 모델링 프레임워크는 복잡한 아키텍처에서 실패가 어떻게 연쇄적으로 퍼지는지를 시뮬레이션한다.
이들은 다음을 수행한다.
- 의존성을 매핑하고
- 전파 체인을 모델링하며
- 프로덕션에 리스크를 주지 않고 모더나이제이션 계획을 검증하도록 돕는다.
스토리 어쿠아리움은 이 아이디어의 **아날로그 거울(analog mirror)**이다.
합성(synthetic) 모델 대신에:
- 데이터를 실제 발생한 장애로 사용하고
- 실제 전파 경로를 종이에 그리며
- 전·후 상태를 시각화한다. (예: “우리가 생각했던 의존성 맵 vs 실제로 드러난 의존성”)
각 장애를 연쇄 실패의 작은 케이스 스터디로 취급하면, 선반 전체가 미리 모델링된 리스크 체인의 라이브러리가 된다. 새 배포나 아키텍처 변경을 검토할 때는 다음과 같이 할 수 있다.
- 관련된 장애 스택을 꺼내고
- 의존성 계층을 훑어보며
- 이렇게 묻는다: “지금 이 변경으로, 예전 실패를 다른 위치에서 다시 만들고 있는 건 아닐까?”
이 물리적인 의식(ritual)은 선제적 사고를 장려한다. 다음 장애를 기다리는 것이 아니라, 이전 스택들에서 배운다는 태도로 바뀐다.
4‑계층 종이 모델 설계하기
스택 스카이라인을 위한 실용적인 패턴은 대략 다음과 같을 수 있다.
계층 1: 스토리 카드 (맨 위)
- 한 페이지, 큰 글씨
- 사람이 읽기 쉬운 짧은 사건 내러티브
- 심플한 “만화식” 타임라인: 주요 이벤트와 시간
- 필드: 요약(Summary), 임팩트(Impact), 고객 관점(Customer Perspective)
계층 2: 시스템 & 신호(Signals)
- 상자와 화살표 정도만 있는 간단한 아키텍처 스케치
- 최초 실패 지점을 표시
- 주요 관측 신호: 메트릭, 로그, 알람 경로
- 필드: 실패 진입점(Entry point of failure), 헬스 신호(Health signals), 탐지 경로(Detection path)
계층 3: 의존성 & 전파
- 장애가 어떻게 이동했는지, 각 홉을 화살표로 그리기
- 새로 드러난 숨은 의존성 표시
- 연쇄 장애(cascading disruptions) (예: 재시도 폭주, 떼 공격(thundering herd))가 있었다면 기록
- 필드: 알고 있던 의존성(Dependencies we knew), 새로 알게 된 의존성(Dependencies we learned), 전파 체인(Propagation chain)
계층 4: 프로세스 & 조직
- 처음 페이지를 받은 사람은 누구였는가? 실제로 고친 사람은 누구였는가?
- 어떤 런북·프로세스가 사용되었는가, 또는 부재했는가?
- 커뮤니케이션이 어디에서 막혔고, 어디에서 복구를 가속했는가?
- 필드: 프로세스 갭(Process gaps), 잘못 정렬된 인센티브(Misaligned incentives), 팀 상호작용(Team interactions)
선택적으로 더 깊은 계층을 추가해도 된다.
- 리스크 & 통제(Risk & controls) – 어떤 가드레일이 있었고, 무엇이 실패했는지
- 시정 조치 상태(Remediation status) – 약속한 일 vs 실제 완료된 일
- 학습 목표(Learning objectives) – 이 장애가 신규 입사자에게 무엇을 가르칠 수 있는지
이 패턴을 일관되게 적용하면, 선반은 우연히 쌓인 기록물이 아니라 일관된 스토리 아키텍처가 된다.
배터리 분해가 장애 분석에 주는 교훈
제조 현장에서의 자동화된 배터리 분해 프레임워크는 의외로 좋은 비유 대상이다. 이 프레임워크들은 다음을 수행한다.
- 복잡한 물체를 명확한 공정 체인과 정의된 단계들로 분해하고
- 각 분해 작업이 안전하고, 반복 가능하며, 검증 가능하도록 만든다.
이 사고방식을 장애에 적용해 보자.
- 각 장애를 **체계적으로 분해(disassemble)**해야 할 대상으로 취급한다.
- 단계들을 표준화한다: 원시 타임라인 → 계층 분석 → 선반 배치
- 각 계층을 분해 라인의 한 단계로 취급한다: 무엇(what), 어떻게(how), 왜(why), 그리고 누가(who)
이런 명료함 덕분에:
- 신규 팀원도 **반복 가능한 ‘분해 패턴’**을 따라갈 수 있고
- 감사나 리더십은 분석의 일관성과 깊이를 모두 들여다볼 수 있으며
- 장애를 **개인의 실패가 아닌, 프로세스 산출물(process artifact)**로 보는 문화가 자리 잡는다.
우리는 범인을 찾는 것이 아니라, 복잡한 시스템 이벤트를 여러 층으로 분해해 이해 가능한 조각들로 나누고 있는 것이다.
만들어 보며 배우기: 종이비행기에서 종이 스카이라인까지
고전적인 종이비행기 팀 챌린지 같은 로우테크 연습은, 놀랍도록 단순한 재료만으로도 다음과 같은 고급 개념을 가르칠 수 있음을 보여준다.
- 반복적 개선
- 피드백 루프
- 프로세스 측정과 개선
종이 기반 장애 스카이라인은 이 철학을 SRE와 운영(Operation) 영역으로 확장한 것이다.
- 팀이 한 자리에 모여 템플릿과 마커를 꺼내고
- 계층별로 장애 스택을 함께 만들어 가며
- 종이들을 실제로 옮기고, 순서를 바꾸고, 토론한다.
이런 촉각적이고 협업적인 의식은:
- 사고 속도를 살짝 늦춰 더 의도적인(thoughtful) 생각을 가능하게 하고
- 의존성, 인센티브, 전파 같은 추상 개념을 눈에 보이게 만들며
- 크로스 펑셔널 구성원 누구라도 종이를 읽고 주석을 달 수 있게 해 진입 장벽을 낮춘다.
종이비행기를 던지고 다시 설계하는 과정이 프로세스 개선을 몸으로 느끼게 하듯, 종이 장애 스택을 만들고 다시 꺼내 보는 일은 다층 장애 분석을 몸에 배도록 만든다.
공유되는 아날로그 산출물이 가진 힘
오늘날 신뢰성(reliability) 작업은 종종 이렇게 분절되어 있다.
- SRE는 대시보드 안에서 살고
- PM은 문서와 티켓 안에서 살며
- 리더십은 요약된 슬라이드만 본다.
스택으로 쌓인 장애 스토리 선반은 이런 분절을 잇는 공유 아티팩트가 된다.
- 엔지니어는 자신의 알람과 런북이 실제로 어떻게 작동했는지 본다.
- PM은 고객 관점의 내러티브와 타임라인을 본다.
- 리더십은 프로세스·조직 차원의 패턴을 본다.
얻게 되는 효과는 다음과 같다.
- 공유 언어(shared vocabulary): 사람들이 “루트 원인(root cause)” 대신 “계층(layer)”을 이야기하기 시작한다.
- 빠른 온보딩: 신규 입사자는 선반에서 임의의 3개 장애 스택만 뽑아 읽어도 시스템이 어떻게 실패하는지 감을 잡을 수 있다.
- 패턴 발견: 특정 계층(예: 프로세스·조직)에서 반복되는 문제들이 눈에 띄게 드러난다.
스토리 어쿠아리움은 로그와 도구 속에 숨겨진 신뢰성 작업을, 공개된 이야기 아키텍처로 바꾼다.
시작하는 방법
아날로그 장애 스토리 어쿠아리움은 일주일 안에 파일럿으로 시작할 수 있다.
- 최근 장애 3–5건을 선택한다.
- 네 개의 계층을 정의하고, 각 계층에 대한 단순한 1페이지짜리 템플릿을 만든다.
- 워크숍을 연다. SRE, 개발, PM, 고객지원 등 크로스 펑셔널 그룹이 함께 모여 각 계층을 채워 넣는다.
- 장애별로 스택을 쌓고 라벨링한 뒤, 눈에 잘 띄는 선반에 꽂아 둔다.
- 의식에 통합한다. 프리모템(pre-mortem), 설계 리뷰, 온보딩 세션에서 이 스택들을 실제로 꺼내 쓴다.
- 반복 개선한다. 의미 있는 패턴을 잘 드러내는 방향으로 템플릿을 계속 다듬는다.
첫날부터 완벽한 템플릿이 필요하지 않다. 형식을 개선해 나가는 과정 자체가 프로세스 개선 연습이다.
결론
아날로그 장애 스토리 어쿠아리움 선반은 기존 옵저버빌리티 스택이나 모델링 도구를 대체하는 것이 아니다. 이는 보완재다. 복잡하고 다층적인 장애를 손에 잡히는 스토리 스카이라인으로 번역해 주는 장치다.
다음 요소들을 결합함으로써:
- 다운타임을 유의미하게 줄인 것으로 입증된 4‑계층 분석 모델,
- Smart TS XL 같은 도구가 보여주는 시나리오 중심 사고방식,
- 배터리 분해 라인에서 볼 수 있는 단계적 명료함(stepwise clarity),
- 종이비행기 챌린지에서 배운 몸으로 익히는 학습(learning-by-doing)
우리는 저기술이지만 임팩트 높은, 신뢰성을 가르치고 공유하며 개선하는 시스템을 만들 수 있다.
점점 더 불투명해지는 시스템의 시대에, 선반 위의 종이 스택들은 조용하지만 강력한 존재가 될 수 있다. 모든 장애는 하나의 이야기이고, 그 이야기를 정교하게 분해해 보면, 더 탄탄한 스카이라인을 세울 수 있는 기회가 드러난다는 사실을 매일 상기시켜 주는 물리적 증거다.