골판지 신뢰성 거리 시장: 한 오후 만에 팀 간 손그림 장애 맵 교환하기
손그림 장애 맵과 간단한 오후 워크숍 포맷을 활용해, 장애 회고를 생동감 넘치는 저비용 신뢰성 인사이트 ‘시장’으로 바꾸는 방법.
골판지 신뢰성 거리 시장: 한 오후 만에 팀 간 손그림 장애 맵 교환하기
대부분의 팀은 장애를 ‘집 안 화재’처럼 다룹니다. 불을 급히 끄고, 어질러진 것을 치우고, 가능한 한 빨리 일상으로 복귀하려 하죠. 장애는 해결되고, 회고는 형식적으로 진행되고, 문서는 위키 어딘가에 저장됩니다. 그리고 진짜 학습 기회는 조용히 증발합니다.
꼭 이렇게만 할 필요는 없습니다.
발생한 모든 장애를 손에 잡히는 학습 아티팩트로 바꾼다고 상상해 보세요. 집어 들고, 낙서하고, 논쟁하고, 다른 팀에 건네줄 수 있는 무언가로요. 평범한 오후를, 팀들이 신뢰성 경험을 서로 교환하는 ‘거리 시장’처럼 떠들썩한 장터로 바꾸는 장면을 떠올려 보세요. 각자의 비밀 스킬을 바꾸어 파는 상인들처럼, 장애 인사이트를 사고파는 거죠.
이것이 **골판지 신뢰성 거리 시장(Cardboard Reliability Street Market)**의 핵심 아이디어입니다. 팀들이 한 오후 만에 **손그림 장애 맵(hand‑drawn failure map)**을 만들고 서로 교환하는, 단순하지만 저비용·고효과의 워크숍입니다.
장애는 “빨리 고치기”로 끝낼 주제가 아니다
장애는 비용이 큽니다. 직접적인 영향도 크고, 사람들의 집중력도 많이 소모합니다. 하지만 동시에 다른 어떤 것과도 비교하기 어려운 학습 자원이기도 합니다.
- 시스템이 스트레스 상황에서 실제로 어떻게 동작하는지 드러나고,
- 조직도에 없는 실제 커뮤니케이션 경로가 표면으로 떠오르며,
- 문서상의 프로세스와 현장에서의 실제 프로세스 사이의 간극이 그대로 드러납니다.
그럼에도 팀들은 종종 이렇게 움직입니다.
- “빨리 본업으로 돌아가야 한다”며 회고를 대충 끝내고,
- 기술적인 루트 원인(root cause)에만 좁게 초점을 맞추고,
- 인사이트를 장애에 직접 관여한 팀 바깥으로는 거의 공유하지 않습니다.
장애를 “고쳐야 할 문제”로만 대하면, 엄청나게 중요한 자산을 낭비하는 셈입니다. 반대로 장애를 **“연구하고, 공유해야 할 재료”**로 다루는 것이 장기적인 신뢰성을 쌓는 길입니다.
골판지 거리 시장 포맷은 아주 단순한 전제 위에 서 있습니다.
모든 장애 회고는, 향후 장애를 예방하거나 더 잘 대응하는 데 도움이 되는 아티팩트를 남긴다 — 종종 원래 장애의 영향 범위를 훨씬 넘어서는 팀들에게까지.
손그림 장애 맵(Hand‑Drawn Failure Map)이란?
**장애 맵(failure map)**은 특정 장애가 어떻게 전개되었는지를 손으로 대략적으로 그린 시각적 표현입니다.
예를 들어 이런 것들을 담습니다.
- 무엇이, 어떤 순서로, 어떻게 고장 났는가?
- 누구에게 언제 알림(paging/alerting)이 갔는가?
- 어떤 시스템, 도구, 대시보드, 런북(runbook)이 동원되었는가?
- 어떤 의사결정이 왜 내려졌는가?
- 어디에서 혼란, 지연, 예상치 못한 일이 있었는가?
정교한 아키텍처 다이어그램이나 형식적인 인시던트 리포트와 달리, 장애 맵은 의도적으로 투박하고 사람 냄새 나는 형태입니다.
- 골판지, 큰 종이, 화이트보드 위에 그려지고,
- 박스, 화살표, 막대기 사람(stick figure), 타임스탬프, 말풍선을 활용하며,
- “로그가 어디 있는지 아무도 몰랐다” 같은 감정·혼란 포인트도 드러내고,
- 보통 공식 문서에는 잘 담기지 않는 **맥락(context)**을 포착합니다.
왜 굳이 손으로 그릴까요?
- 진입 장벽이 낮습니다. 누구나 그림을 그릴 수 있습니다. 다이어그램 툴이나 디자인 실력이 필요 없습니다.
- 대화를 부릅니다. 다듬어지지 않은 스케치는, 정교한 다이어그램보다 훨씬 질문하고 낙서하고 덧붙이기 쉽습니다.
- 보이지 않던 것들을 보이게 만듭니다. 알림, 채팅, 의사결정이 뒤엉킨 진짜 ‘신뢰성 시스템’을 눈으로 볼 수 있습니다.
이 맵들은 복잡하고 추상적인 신뢰성 문제를, 직접 손에 들고, 가리키고, 다른 사람에게 건네줄 수 있는 것으로 바꾸어 줍니다.
회고 산출물을 ‘지식 시장’으로 바꾸기
대부분의 조직은 이미 어느 정도 형태의 인시던트 회고(incident retrospective)를 하고 있습니다. 하지만 결과물은 종종 이렇게 고립됩니다.
- 문서는 특정 팀의 폴더 안에서 조용히 잠자고,
- 교훈은 검색도, 발견도 잘 되지 않고,
- 다른 팀은 똑같은 실수를 다시 반복합니다.
거리 시장 접근법은 각 장애를 **신뢰성 시장의 ‘화폐’**로 재정의합니다.
- 한 팀이 장애 회고를 진행합니다.
- 회고의 일부로, 무슨 일이 있었는지 장애 맵을 만듭니다.
- 그 맵은 실제 골판지나 포스터로 남기거나, 화이트보드를 찍은 사진 등으로 **자산(asset)**이 됩니다.
- 주기적으로, 팀들이 이 맵을 들고 한자리에 모여 구조화된 교환 세션을 엽니다.
이렇게 한 오후만 투자하면, 다음과 같은 것들을 빠르게 주고받는 크로스팀 지식 시장을 갖게 됩니다.
- 장애 모드(failure mode)와 그것이 어떻게 표면화되었는지,
- 효과적이었거나 비효과적이었던 대응 패턴,
- 프로세스 구멍, 커뮤니케이션 붕괴, 의사결정 병목 등.
“언젠가 누가 읽어 주겠지”라는 마음으로 긴 포스트모템(postmortem)에만 기대는 대신, 학습을 다음과 같이 만듭니다.
- 시각적(Visual)
- 사회적(Social)
- 시간 제한(Time‑boxed)
골판지 거리 시장 진행 방법 (Step‑By‑Step)
4–6개 팀이 함께 하는 반나절짜리 워크숍으로 운영할 수 있습니다. 실제로 함께하는 시간은 90–120분 정도를 목표로 하면 좋습니다.
1. 사전 준비 (워크숍 이전)
각 참여 팀에게 다음을 부탁합니다.
- 최근 장애 1–2건을 선택합니다. 반드시 가장 큰 장애일 필요는 없고, 대표적인 사례면 충분합니다.
- 각 장애에 대해 장애 맵을 1개씩 작성합니다.
- 맵 하나당 20–30분 정도.
- 단순하게: 사건의 순서, 주요 관련자, 사용한 도구, 의사결정, 고통 포인트 정도만 담습니다.
- 완성된 맵을 실제 골판지나 큰 종이로 가져오거나, 출력해서 가져옵니다.
선택적으로, 간단한 템플릿을 제공해도 좋습니다.
- 상단에는 전체 타임라인을 두고,
- 가운데에는 주요 시스템과 컴포넌트를 배치하고,
- 하단에는 **사람과 커뮤니케이션 채널(슬랙, 전화, 브리지 콜 등)**을 두며,
- 문제 지점은 빨간 펜이나 포스트잇으로 강조합니다.
2. 킥오프: 규칙과 목적 정렬 (10–15분)
먼저 워크숍의 분위기를 분명히 설정합니다.
- 블레이멀리스(blameless): 우리는 사람을 평가하거나 비난하지 않습니다. 시스템과 프로세스에서 배웁니다.
- 심리적 안전(psychological safety): 망신 주기 금지. 질문은 ‘꼬투리 잡기’가 아니라 이해를 위한 것입니다.
- 진단보다 탐색: 과거 장애를 지금 당장 고치려는 자리가 아니라, 재사용 가능한 패턴을 찾는 자리입니다.
이후 전반적인 진행 방식을 짧게 설명해, 모두가 무엇을 기대하면 되는지 알게 합니다.
3. 시장 부스: 팀별 장애 맵 소개 (30–40분)
공간을 작은 시장처럼 구성합니다.
- 각 팀에 하나의 ‘부스(stall)’(테이블이나 벽면 공간)을 주고, 자신들의 장애 맵을 전시합니다.
- 참석자를 둘로 나눕니다.
- 절반은 자기 부스에 남아 “판매자(vendor)” 역할(장애를 설명) 을 하고,
- 나머지 절반은 **“방문자(visitor)”**로 돌아다니며 질문을 합니다.
방문자는 부스 하나당 8–10분 정도 머물고, 시간이 되면 다음 부스로 이동합니다. 논의를 위한 질문 예시는 다음과 같습니다.
- “처음에 이상이 있다고 눈치챈 지점은 어디였나요?”
- “이 장애를 불필요하게 더 어렵게 만든 요소는 뭐였나요?”
- “이 맵을 그리면서 특히 놀랐던 점은 무엇이었나요?”
- “이 장애 전에, 이런 것이 미리 있었으면 좋았겠다 싶은 게 있었나요?”
방문자들은 포스트잇으로 맵에 메모를 남깁니다.
- 자신들이 겪어 본 비슷한 장애 사례,
- 이런 종류의 장애를 막거나 짧게 끝낼 수 있는 아이디어,
- 눈에 띄는 프로세스·커뮤니케이션 이슈 등.
이후 역할을 바꿉니다. 판매자는 방문자가 되고, 방문자는 판매자가 되어 같은 과정을 반복합니다.
4. 테이블탑(Tabletop) 연습: 저비용 신뢰성 시뮬레이션 (30–40분)
이제 시선을 과거에서 미래의 가상 시나리오로 옮깁니다. 앞서 본 장애 맵에서 영감을 얻어 시나리오를 만듭니다.
서로 다른 팀 사람들이 섞이도록 혼합 팀을 몇 개 구성하고, 각 그룹에 다음을 제공합니다.
- 앞 단계에서 사용했던 장애 맵 중 하나,
- 그 장애 모드를 비튼 “가정(what if) 시나리오” 하나.
예를 들면 이런 식입니다.
- “이 장애가 대규모 제품 출시 당일에 발생했다면?”
- “주요 온콜(primary on‑call) 담당자가 아파서 자리에 없었다면?”
- “관측/모니터링(Observability) 도구도 동시에 불안정했다면?”
각 그룹에게, 마치 지금 실제로 장애가 터진 것처럼 대응 과정을 말로 시뮬레이션해 보라고 합니다.
- 누구에게 페이지를 보낼지,
- 가장 먼저 어떤 대시보드나 로그를 볼지,
- 어떤 방식으로 이해관계자(제품, 고객 지원, 경영진 등)와 소통할지,
- 어떤 의사결정 포인트가 가장 스트레스가 크고 애매할지.
이것은 테이블탑 연습입니다. 인프라를 건드리지도 않고, 카오스 엔지니어링 도구도 필요 없으며, 대화만으로 진행됩니다. 목표는 다음과 같습니다.
- 장애 대응에 필요한 멘탈 모델을 연습하고,
- 불분명한 오너십, 부족한 도구, 취약한 프로세스를 드러내고,
- 다음 실제 장애 전에 커뮤니케이션의 빈틈을 찾아내는 것.
각 그룹이 다음을 간단히 정리하도록 합니다.
- 이 가상의 장애를 훨씬 수월하게 만들어 줄 요소 2–3가지,
- 크로스팀 차원에서 개선할 수 있는 것 1–2가지(런북, 공유 대시보드, 프로세스 개선 등).
5. 전체 공유: 이야기를 시스템 개선으로 연결하기 (15–20분)
다시 모두를 한데 모읍니다. 다음 질문들을 던져 봅니다.
- 여러 팀의 장애를 보면서 공통으로 보인 패턴은 무엇이었나요?
- 형태만 다르게 반복되는 장애 모드는 무엇이었나요?
- 어디에서 커뮤니케이션과 의사결정이 가장 느려졌나요?
- 다음 한 달 이내에, 현실적으로 작게라도 바꿀 수 있는 것은 무엇인가요?
공통 주제를 한 보드에 모읍니다.
- 도구/툴링의 공백 (부재한 알림, 부실한 대시보드 등)
- 프로세스의 틈 (명확하지 않은 인시던트 커맨더, 모호한 에스컬레이션 경로)
- 지식의 공백 (런북이 없거나 오래됨 등)
이 중에서 실제로 진행할 후속 액션 몇 가지에 합의합니다. 가능하면 크로스팀 관점의 액션이면 더욱 좋습니다.
왜 이 방식이 효과적인가: 숨겨진 이점들
골판지 신뢰성 거리 시장은 의도적으로 저비용·저위험(low‑stakes) 포맷이지만, 누적 효과는 꽤 큽니다.
1. 한 오후에 신뢰성 역량을 훈련하기
세션이 짧고 집중적이기 때문에, 팀들은 다음을 할 수 있습니다.
- 실제로 불이 난 상황이 아닌 상태에서 인시던트 사고방식을 연습하고,
- 다른 팀이 장애를 탐지·분류·커뮤니케이션하는 방식을 배우고,
- 모두가 침착할 수 있을 때 불편한 진실들을 꺼내 놓을 수 있습니다.
신뢰성을, 사건이 터졌을 때만 발동하는 반사 신경이 아니라, 평소에 기르는 **근육(muscle)**으로 만드는 과정입니다.
2. 손에 잡히는, 재사용 가능한 아티팩트
장애 맵 자체가 오래 가는 자산이 됩니다.
- 팀 공간에 걸어 두고 항상 보게 만들고,
- 새로운 엔지니어 온보딩 자료로 활용하고,
- 디지털로 정리해 “우리 조직에서 실제 장애가 어떻게 발생하는지” 검색 가능한 카탈로그로 만들 수 있습니다.
몇 달 뒤 새로운 장애가 터졌을 때, 누군가는 이렇게 말할 겁니다. “이거, 예전에 X팀 골판지 맵에서 본 장애랑 되게 비슷한데?”
3. 크로스팀 공감과 공통 언어 형성
서로의 장애를 함께 들여다보면, 팀들은 다음을 배우게 됩니다.
- 서로의 의존성과 제약 조건을 이해하게 되고,
- 신뢰성 문제를 설명할 때 쓰는 **공통 어휘(shared vocabulary)**를 만들고,
- 장애 상황에서 다른 팀이 겪는 압박에 대해 **공감(empathy)**을 쌓게 됩니다.
이는 이후 크로스팀 장애 상황에서 큰 힘을 발휘합니다. 누구에게 연락해야 하는지, 어떤 언어로 문제를 설명해야 하는지 이미 알고 있기 때문입니다.
4. 아프기 전에 드러나는 빈틈들
특히 테이블탑 시뮬레이션은 다음을 발견하는 데 매우 효과적입니다.
- 끊어졌거나 애매한 에스컬레이션 경로,
- 특정 한 사람만 알고 있는 지식의 단일 실패 지점(single point of knowledge),
- 높은 압박 상황에서 버티지 못할 도구나 프로세스.
다음에 시스템이 어디서 균열이 날지를, 아직 시간이 있을 때 일부러 들여다보는 셈입니다.
시작하기: 투박하게, 가볍게
이걸 시작하는 데, 임원 후원이나 큰 예산은 필요 없습니다.
필요한 것은 다음 정도입니다.
- 골판지나 큰 종이
- 마커, 포스트잇, 테이프
- 4–6건 정도의 장애 경험
- 2–3시간의 보호된 시간
작게 시작하세요.
- 두세 개 팀만 모아 파일럿으로 해 봅니다.
- 시간은 과감하게 타임박스합니다. 완벽할 필요는 전혀 없습니다.
- 끝나고 간단히 피드백을 모아 포맷을 개선합니다.
- 분기마다 한 번 정도로 정기 이벤트로 만들어 봅니다.
시간이 지나면서, 여러분은 시스템이 어떻게 실패하고 사람들이 어떻게 대응하는지를 담은 살아 있는 라이브러리를 갖게 될 것입니다. 문서에만 남지 않고, 공유된 경험으로 축적된 라이브러리 말입니다.
결론: 실패를 모두의 공유 자산으로 바꾸기
실패는 이미 일어나고 있습니다. 인시던트는 이미 여러분의 시간을 잡아먹고 있습니다. 진짜 질문은 단 하나입니다. 그 대가만큼의 가치를 제대로 뽑아내고 있는가?
회고를 손그림 장애 맵으로 바꾸고, 그 맵을 골판지 신뢰성 거리 시장에서 교환하게 만들면, 여러분은 다음과 같은 변화를 만들 수 있습니다.
- 실패를 성가신 방해 요소가 아니라, 강력한 학습 도구로 다루고,
- 고립된 인시던트를 재사용 가능한 학습 아티팩트로 전환하고,
- 한 오후 만에 빠른 크로스팀 지식 시장을 만들어 내고,
- 저위험 테이블탑 연습으로, 다음 위기가 오기 전에 프로세스를 미리 점검합니다.
실패를 없앨 수는 없습니다. 하지만 이미 대가를 치른 그 실패들이, 인시던트가 끝난 뒤에도 오랫동안 계속해서 가르쳐 주도록 만들 수는 있습니다.