Rain Lag

골판지 실패 관람차: 작은 장애 스토리를 매주 하는 신뢰성 의식으로 만드는 법

골판지로 만든 아날로그 ‘실패 관람차’를 활용해 블레이멀리스 포스트모템을 한 번 하고 끝나는 문서 작업이 아니라, 신뢰성을 계속 눈에 보이게 만들고 사람 중심의 학습 문화로 이어지게 하는 방법을 소개합니다.

골판지 실패 관람차: 작은 장애 스토리를 매주 하는 신뢰성 의식으로 만드는 법

신뢰성 작업은 종종 문서 속에서 사라집니다.

포스트모템을 하고, 긴 보고서를 쓰고, 티켓을 만들고… 그러고 나면 모두 각자 일로 돌아갑니다. 몇 주만 지나도, 무슨 일이 실제로 있었는지, 무엇을 결정했고 무엇을 배웠는지 제대로 기억하는 사람이 거의 없습니다. 시스템은 조금씩 더 복잡해지고, 사람들은 바뀌고, 같은 패턴이 다시 반복됩니다.

만약 포스트모템이 위키 속으로 사라지는 대신, 팀 공간의 한쪽 벽을 차지하는 눈에 보이는 물리적인 정기 의식이 될 수 있다면 어떨까요? 팀 공간 벽에 골판지로 만든 관람차가 하나 걸려 있고, 그 안에 작은 “실패 캐빈”들이 달려 있다고 상상해 보세요. 각 캐빈에는 짧고 사람이 읽기 쉬운 장애 스토리가 들어 있고, 이 이야기들이 매주 돌아가면서 리뷰됩니다.

이 글에서는 **골판지 실패 관람차(Cardboard Failure Ferris Wheel)**를 어떻게 만드는지 살펴봅니다. 비용도 부담 없고, 아날로그하고, 블레이멀리스(blameless)하면서도 놀랍도록 강력하게 장애를 공유 학습 자산으로 남기는 방법입니다.


왜 골판지 관람차인가?

관람차는 비유이면서 동시에 실제로 만들어 볼 수 있는 물건입니다.

  • 골판지는 낮은 긴장감을 상징합니다. 싸고, 쉽게 뜯어고칠 수 있고, “완벽해야 한다”는 느낌이 없습니다.
  • 관람차는 회전을 상징합니다. 이야기가 한 번 올라왔다가 사라지는 것이 아니라, 계속 다시 돌아옵니다.
  • **캐빈(칸)**은 스토리를 담는 그릇입니다. 각 장애는 작고 독립된 하나의 이야기입니다.

장애를 “한 번 쓰고 끝나는 공식 리포트”로 다루는 대신, 의도적으로 이렇게 합니다.

  1. 각 장애를 아주 작은 이야기로 축소합니다. (최대 1페이지, 혹은 1장짜리 카드)
  2. 형식을 표준화해서, 이야기를 읽고, 다시 전하고, 서로 비교하기 쉽게 만듭니다.
  3. 실제로 물리적으로 회전시키면서, 짧은 주간 리뷰에 계속 올립니다.

목표는 미술·공예 시간이 아닙니다. 신뢰성이 눈에 보이고, 함께 공유되고, 반복되는 학습 루프가 되도록 하는 것입니다. 그래야 신뢰성이 팀의 뒷전으로 밀려나지 않습니다.


작은 장애 스토리: 보고서에서 이야기로

전통적인 포스트모텀(postmortem) 문서는 길고, 밀도가 높고, 다시 꺼내 보기도 어렵습니다. 관람차에 올릴 것은 그보다 마이크로 스토리에 가깝습니다.

작은 장애 스토리는 다음과 같아야 합니다.

  • 짧을 것: 소리 내어 읽는 데 5–10분이면 충분해야 합니다.
  • 이야기일 것: 언제, 누구에게, 어떤 상황에서 무슨 일이 벌어졌는지의 서사.
  • 휴대 가능할 것: A4 한 장, 인덱스 카드, 혹은 인쇄된 “스토리 티켓” 한 장에 담길 것.

각 카드에 미리 인쇄해 둘 수 있는 간단한 템플릿은 다음과 같습니다.

  1. 장애 이름 (티켓 ID가 아니라, 사람이 부르기 쉬운 이름)
  2. 언제, 어떻게 발견됐는지 (누가, 어떤 시그널을 통해 발견했는지)
  3. 사용자가 경험한 것 (전문용어가 아닌, 평이한 언어로)
  4. 기술적으로 실제로 무슨 일이 있었는지 (핵심 메커니즘 위주로)
  5. 주요 기여 요인들 (하나가 아니라, 여러 개!)
  6. 탐지·진단·복구를 어렵게 만든 요소들
  7. 우리가 바꾼 것(또는 바꿀 계획인 것)
  8. 열린 질문들 (아직 완전히 이해하지 못한 부분)

새로운 장애가 생길 때마다 카드 한 장이 생깁니다. 이 카드를 쓰는 행위 자체가 정리를 강제합니다. “지금 이 이야기를, 바로 이 팀이 아닌 다른 사람도 이해할 만큼 단순하게 설명할 수 있는가?” 를 묻게 됩니다.


처음부터 블레이멀리스: SRE 포스트모템에서 배워오기

이 관람차가 매주 열리는 공개 망신 주기 자리가 되는 순간, 곧바로 무너지게 됩니다.

이를 피하려면, 이미 자리 잡은 Site Reliability Engineering(SRE) 블레이멀리스 포스트모템 관행을 적극적으로 가져와야 합니다.

  • 이름을 지목해 비난하지 않습니다. 누가 “실수했는지”가 아니라, 시스템과 맥락에 집중합니다.
  • 유능함을 전제로 합니다. 당시 가용한 정보와 제약 조건을 고려하면, 모든 행동은 합리적이었다고 가정합니다.
  • 시스템적 기여 요인을 찾습니다. 프로세스, 툴링, 문화, 문서, 팀 구조 등—단순한 키스트로크만 보지 않습니다.

각 스토리 카드 하단에, 이런 짧은 문구를 인쇄해 두면 더 명확해집니다.

"우리가 조사하는 것은 개인이 아니라 시스템과 맥락입니다. 학습 > 비난."

시간이 지나면 이 프레이밍 덕분에 사람들이 실제로 있었던 이상한 커맨드, 헷갈리는 대시보드, 오해가 생겼던 커뮤니케이션을 더 편하게 공유하게 됩니다. 자신을 방어해야 하는 자리가 아니라, 시스템을 개선하는 데 기여하는 자리라는 걸 알기 때문입니다.


루트 원인 탐색(‘단일 루트 원인’ 신화 없이)

관람차가 진짜로 가치 있으려면, 팀의 신뢰성이 조금이라도 앞으로 나아가야 합니다. 즉, 각 작은 스토리가 “장애가 있었고, 고쳤습니다” 수준에서 멈추면 안 됩니다.

현실적인 의미에서의 **루트 원인 탐색(root cause exploration)**을 강조해야 합니다.

  • 여러 기여 요인: 설정 꼬임, 불명확한 오너십, 오래된 문서, 알림 피로(alert fatigue), 부서지기 쉬운 의존성 등.
  • 발생을 가능하게 한 조건들: 가드레일 부재, 빠진 테스트, 위험한 수동 작업.
  • 문제가 커지게 만든 조건들: 느린 탐지, 부족한 관측성(observability), 애매한 런북(runbook).

스토리 템플릿에는 최소 3–5개의 기여 요인을 적게끔 명시하는 것이 좋습니다. “인적 실수(human error)”에서 멈추지 마십시오. “엔지니어가 X를 깜박했다”고 쓰면, 반드시 이렇게 되묻습니다.

  • 왜 X를 깜박해도 막아 줄 가드레일이 없었는가?
  • 왜 X가 툴링이나 워크플로우 상에서 눈에 잘 띄지 않았는가?
  • 왜 사용자가 항의할 때까지 누구도 눈치채지 못했는가?

무엇보다, 각 스토리는 구체적인 후속 조치를 포함해야 합니다.

  • 실제로 적용됐거나 진행 중인, 혹은 명시적으로 하지 않기로 결정하고 그 이유를 적어 둔 구체적인 변경 사항
  • 담당자(Owner)와 대략적인 일정
  • 나중에 다시 확인할 수 있는 방식 (예: 카드에 작은 체크박스를 두고 "재검토 완료" 표시)

그 카드가 한 달 뒤 관람차를 한 바퀴 돌고 다시 올라왔을 때, 여러분은 이렇게 물을 수 있습니다. “그때 우리가 하겠다고 했던 걸 실제로 했는가? 효과가 있었는가?”


주간 아날로그 리뷰: 실제 ‘탑승’ 시간

주간 아날로그 리뷰는 이 의식의 핵심입니다. 팀이 관람차 주변에 모여, 매주 짧게 몇 가지 스토리를 함께 “타보는” 시간입니다.

간단한 패턴은 이렇습니다.

  1. 주 1회, 15–30분을 캘린더에 고정합니다.
  2. 그 주에 함께 탈 캐빈(카드) 2–3개를 고릅니다.
  3. 한 사람이 각 스토리를 소리 내어 읽습니다. 나머지는 함께 따라가며 듣습니다.
  4. 스토리당 5–7분 정도 짧은 토론을 합니다.
    • 무엇이 우리를 놀라게 했는가?
    • 다른 장애에서 봤던 패턴과 닮은 점은 무엇인가?
    • 지금 시점에서 가장 중요한 후속 조치는 무엇인가?
  5. 카드를 표시합니다. 참석자 이니셜, 재검토 날짜, 새로 남긴 메모 등을 적습니다.

이 시간이 아날로그라는 점이 생각보다 중요합니다.

  • 한 공간에 함께 서서 하는 의식은, 신뢰성에 대한 공동 소유감을 만듭니다.
  • 관람차라는 물리적인 오브젝트가 “장애는 우리 팀의 살아 있는 역사”라는 사실을 계속 상기시켜 줍니다.
  • 물리적 한계 덕분에 범위가 자연스럽게 좁혀집니다. 30분에 30개 리포트를 리뷰하는 일은 불가능합니다.

이 의식이 대형 사고에 대한 정식·상세 포스트모템을 대체하는 것은 아닙니다. 대신, 그 위에 얹히는 가볍지만 지속적인 학습 루프라고 보면 됩니다.


비유로 점들을 연결하기

신뢰성 작업의 상당 부분은 패턴 인식입니다. “이거, 예전에 그 사고랑 느낌이 비슷한데…” 같은 식입니다.

관람차는 이런 **유추적 사고(analogical thinking)**를 의도적으로 끌어냅니다.

  • 은유: “이 장애는 단순 충돌 사고가 아니라, 신호등이 고장 나서 생긴 교통 체증에 가까웠다” 같은 표현.
  • 환유: “캐시 장애(cache incident)”, “화요일 배포 흔들림(Tuesday deploy wobble)”처럼 특정 사건명이 전체 문제군을 가리키는 방식.

주간 리뷰에서 다음과 같은 질문을 던져 보세요.

  • “이 스토리는, 이전 어느 사건과 가장 비슷하게 느껴지나요?”
  • “이 장애에 영화 장르를 붙인다면? (케이퍼 무비, 공포, 느리게 타오르는 드라마 등) 왜 그렇게 느끼나요?”
  • “이 네 가지 사건 사이의 ‘가족 유사성(family resemblance)’은 무엇인가요?”

이런 유추 놀이는 사실 꽤 진지한 일을 해냅니다.

  • 복잡한 개념(연쇄 장애, 용량 상한 등)을 구체적인 이미지를 통해 더 잘 내면화하게 만듭니다.
  • 여러 사건에 걸쳐 반복되는 가로지르는 테마를 드러냅니다. (잘못 쓰인 피처 플래그, 위험한 수동 운영, 깨지기 쉬운 통합 등)
  • 추상적인 신뢰성 개념을 기억에 남고, 말로 옮기기 쉬운 이야기로 바꿔 줍니다.

시간이 지나면, 팀은 **공유된 실패 어휘(shared vocabulary of failure)**를 갖게 됩니다. “이 제안은 ‘조용한 타임아웃(silent timeout)’ 스토리 냄새가 나는데?”라고 말했을 때, 모두가 그게 무슨 의미인지 알게 되는 식입니다.


표준화를 하되, 재미는 죽이지 말 것

관람차가 수개월, 수년 동안 유용하려면, 장애 스토리들이 서로 비교할 수 있을 만큼은 일관성이 있어야 합니다.

하지만 동시에, 너무 딱딱하게 만들어서는 안 됩니다.

가벼운 표준 가이드를 만들어 보세요.

  • 위에서 설명한 프롬프트를 포함하는 공용 스토리 템플릿 한 가지
  • 작성 시간 제한: 카드당 20–30분 안에 쓸 수 있게 해서, 또 하나의 거대한 업무가 되지 않도록
  • 분량 제한: 한 장의 앞면만, 혹은 카드 한 면만 사용
  • 관람차 옆에 붙여 둘 짧은 작성 가이드(how‑to)

그러면서도 과도한 형식을 피합니다.

  • 손으로 그린 스케치, 다이어그램, 작은 타임라인 등을 허용합니다.
  • 각 팀이 카드를 색깔, 스티커, 데코레이션 등으로 자유롭게 꾸밀 수 있게 둡니다.
  • 다양한 목소리를 장려합니다. SRE, 백엔드, 프론트엔드, 제품, 고객 지원, CS 등 누구나.

목표는 반복 가능성이지, 관료주의가 아닙니다.


공동 창작과 공유 오너십

관람차는 특정 SRE 한 명이나 매니저 한 명의 소유물이 되어서는 안 됩니다. 이는 여럿이 함께 만드는(co‑creation) 팀 의식이어야 합니다.

이를 실제로 구현하는 방법들입니다.

  • 퍼실리테이터(facilitator) 역할 순환: 매주 다른 사람이 관람차를 돌리고, 탈 캐빈을 고릅니다.
  • 크로스 펑셔널 저자: 장애에 관여했던 어떤 역할이든 스토리 카드를 쓸 수 있습니다.
  • 열린 참여: 엔지니어, 지원, PM, 디자이너 등—영향을 받는 사람이라면 누구나 초대합니다.
  • 눈에 보이는 기여: 카드를 작성하거나 크게 기여한 사람은 서명을 남깁니다.

이런 공동 저작은 신뢰성에 대한 집단 오너십을 강화합니다.

  • 사건이 더 이상 “운영팀 문제”, “백엔드 문제”가 아니라 팀 전체의 문제가 됩니다.
  • 제품과 리더십은 기술적 결정이 어떻게 사용자 고통으로 이어지는지 직접 보게 됩니다.
  • 모두가 반복되는 패턴을 끊어 내는 데 책임감을 느끼기 시작합니다.

시작하기: 실천용 체크리스트

큰 프로그램이 필요하지 않습니다. 작게 시작하십시오.

  1. 관람차(또는 초간단 버전)를 만듭니다.
    • 골판지 원판에 집게(클립)를 꽂아 쓰기
    • 캐빈 이름을 붙인 컬럼이 있는 코르크보드
    • 슬롯이 있는 실제 관람차 모양 절단판
  2. 작은 스토리 템플릿을 정의합니다.
    • 위의 8개 항목을 포함하는 1페이지 템플릿
    • 여러 장 인쇄해서 관람차 옆에 쌓아 둡니다.
  3. 최근 사고 3–5개로 관람차를 시드(seed)합니다.
    • 그 사건에 직접 관여했던 사람들에게 초기 카드를 써 달라고 부탁합니다.
  4. 주 1회 20분짜리 리뷰를 캘린더에 올립니다.
    • 최소 6주는 꾸준히 해 보고 나서 평가하기로 합니다.
  5. 피드백을 바탕으로 다듬습니다.
    • 프롬프트가 적절한가? 너무 많거나 모호하지 않은가?
    • 시간 박스(timebox)가 잘 맞는가?
    • 사람들이 안전하다고 느끼며 솔직히 공유하고 있는가?

초기에는 정량 지표 대신 정성적인 신호를 봅니다.

  • 더 많은 사람이 과거 장애를 명확하게 설명할 수 있게 되었는가?
  • 반복되는 테마를 더 빨리 포착하게 되었는가?
  • 후속 조치들이 실제로 이행되고 있는가?

그 이후에는 MTTR, 장애 빈도, 온콜 스트레스(on‑call stress) 같은 지표의 변화를 볼 수 있겠지만, 첫 번째 신호는 팀이 이 이야기들을 계속 꺼내어 다시 말하고 있는가입니다.


결론: 바퀴를 계속 돌리기

사고는 피할 수 없지만, **헛된 사고(wasted incident)**는 줄일 수 있습니다.

골판지 실패 관람차는 겉으로 보기엔 작고, 조금은 장난스럽기까지 한 개입이지만, 의도는 매우 진지합니다. 실패를 눈에 보이고, 기억에 남고, 재사용 가능한 자산으로 만드는 것입니다. 짧고 블레이멀리스한 장애 스토리들을 매주 아날로그 리뷰에 올려 회전시키면서, 여러분은 다음을 얻게 됩니다.

  • 한 번 하고 잊히는 포스트모템을, 계속 이어지는 학습 관행으로 전환합니다.
  • 반복과 비유를 통해, 깊은 패턴을 드러냅니다.
  • 시스템에서 실제로 무슨 일이 일어나는지에 대해, 솔직한 대화를 정상화합니다.
  • 팀 전체에 걸쳐 신뢰성에 대한 공유 오너십을 강화합니다.

대시보드와 문서로 가득한 디지털 환경에서, 골판지 관람차는 다소 촌스럽게 느껴질 수 있습니다. 그러나 바로 그 점이 이 도구의 힘입니다. 팀이 일주일에 딱 한 번이라도 함께 속도를 늦추고, 뒤를 돌아보게 만듭니다. 그리고 관람차가 한 바퀴 더 돌아올 때마다, 각 실패가 다음 번을 위한 작은 지혜로 환전되도록 도와 줍니다.

골판지 실패 관람차: 작은 장애 스토리를 매주 하는 신뢰성 의식으로 만드는 법 | Rain Lag