골판지 신뢰성 관측소: 가장 기묘한 장애를 ‘손으로 만지는 박물관’으로 바꾸는 법
팀의 가장 이상하고 인상적인 장애들을 저기압·저기술·고임팩트인 ‘골판지 신뢰성 관측소’로 만들고, 이를 학습·스토리텔링·지속적 개선을 위한 물리적 박물관으로 운영하는 방법을 소개합니다.
소개
대부분의 팀은 장애를 조용히 묻어버려야 할 일처럼 다룹니다. 사후 분석(Postmortem)을 쓰고, 몇 개의 티켓을 만들고, 그리고 잊습니다. 여섯 달쯤 지나면, 거의 똑같은 유형의 장애가 모양만 살짝 달라져서 다시 찾아옵니다.
그렇다면 이 기묘한 장애들을 아예 박물관 전시로 만들어 본다면 어떨까요?
**골판지 신뢰성 관측소(Cardboard Reliability Observatory)**는 팀의 가장 이상하면서도 가장 많이 배울 수 있었던 장애들을 눈에 보이고, 탐색하고, 기억할 수 있게 만들어 주는, 아주 단순한 물리적 방식입니다. 워크숍이자, 아트 프로젝트이자, 신뢰성 실험실 같은 형태이고, 바로 저기술·장난기·손으로 만지는 경험 덕분에 잘 작동합니다.
이 글에서는 골판지 신뢰성 관측소가 무엇인지, 왜 효과적인지, 그리고 팀과 함께 실제로 운영해서 엣지 케이스와 각종 놀라운 사건들을 살아 있는 라이브러리로 만드는 방법을 단계별로 살펴보겠습니다.
골판지 신뢰성 관측소란 무엇인가?
신뢰성 관측소를 장애를 위한 체험형 박물관이라고 생각해 보세요.
- 각 전시는 실제로 있었던 하나의 장애 사건입니다.
- 골판지, 매직, 테이프, 실, 포스트잇과 주변에 굴러다니는 각종 공예 재료들로 만듭니다.
- 장애가 어떻게 전개되었는지를 시각화합니다: 사람, 코드, 시스템, 의존성, 시그널, 타임라인 등.
- 상호작용을 전제로 합니다. 걸어 다니면서 보고, 손가락으로 장애 경로를 따라가 보고, 질문을 붙이고, 이상한 지점을 가리킬 수 있습니다.
아무도 다시 읽지 않는 밋밋한 Confluence 페이지 대신, 과학관 전시 같은 것을 얻게 됩니다.
- 장애에 관련된 시스템의 한 단면 모델
- “이 요청은 여기에서 17분 동안 멈춰 있었다” 같은 주석이 달린 장애 경로
- 온콜 상황, 대시보드, 예기치 못한 요소들을 설명하는 콘텍스트 카드
- 관찰성(Observability) 갭, 의존성 리스크, 운영 부담, UX 혼란 등 주제를 표시하는 태그
목표는 예술 작품이 아닙니다. 목표는 몸으로 느끼는, 공유된 이해입니다. 우리의 시스템과 팀이 스트레스 상황에서 어떻게 행동하는지 함께 몸으로 이해하는 것이 목적입니다.
왜 장애를 박물관 전시로 만들어야 할까?
1. 문서보다 스토리텔링이 더 오래 남는다
사람은 글머리표 리스트보다 이야기와 물리적 경험을 더 잘 기억합니다. 사람들이 골판지 모델 앞에 모여 동료의 설명을 듣는 순간:
“여기가 500을 뿜기 시작한 캐시고요, 이게 우리가 몰랐던 미문서화된 페일오버 경로입니다.”
이렇게 모두가 공유된 내러티브를 갖게 됩니다. 이 내러티브는 다음과 같은 장점이 있습니다.
- 향후 설계 논의에서 훨씬 더 쉽게 떠올릴 수 있고
- 새로운 팀원에게 설명하기가 수월하며
- 다른 장애와 연결하기 쉬워집니다.
(“잠깐, 이거 작년에 있었던 빌링 장애랑 되게 비슷한데…”)
2. 실패를 둘러싼 심리적 안전감
장애를 박물관 전시로 만들면 팀 문화에 이런 메시지를 보냅니다.
“우리는 누구를 탓하기 위해서가 아니라 배우기 위해 실패를 전시합니다.”
골판지와 매직을 쓰는 장난스러운 환경은 실패의 날카로움을 상당히 줄여 줍니다. 누군가가 흔들리는 손으로 API 게이트웨이를 그려 넣는 동안, 마녀사냥식의 비난 문화가 끼어들 틈은 별로 없습니다.
이 분위기는 다음을 장려합니다.
- 엔지니어들이 모른다고 솔직하게 말하는 것
- 알람, 피로, 산만함 같은 인적 요인을 정직하게 이야기하는 것
- 방어보다 호기심을 우선하는 태도
3. 저기술이 마비 상태를 막는다
“카오스 엔지니어링 게임데이(Chaos Engineering GameDay)를 해봅시다”라고 말하면, 어떤 팀은 이렇게 받아들입니다.
- 큰 투자
- 화려한 도구들
- 프로덕션에서 위험한 실험
반면 “우리 팀의 가장 기묘한 장애를 골판지 모델로 만들어 봅시다”라고 말하면, 진입 장벽은 훨씬 낮습니다.
관측소는 부드럽고 위험이 낮은, 구조화된 신뢰성 작업의 진입로입니다.
- 새로 배울 도구가 없고
- 인프라를 바꿀 필요도 없으며
- 필요한 건 시간, 공간, 골판지, 그리고 진행(facilitation)뿐입니다.
여기서 시작하면, 그다음에 더 고급 실천으로 확장하기 훨씬 쉬워집니다.
골판지 신뢰성 관측소 워크숍 운영 방법
이 워크숍은 2~3시간짜리 세션으로, 6~20명 규모 팀에 적합합니다. 아래 구조를 필요에 맞게 조정해서 사용하면 됩니다.
1. “가장 기묘한 장애”를 골라라
먼저 사전에 3~6개의 장애를 고릅니다. 다음과 같은 특징을 가진 것들입니다.
- 평범하지 않고 의외성이 있었던 것 (단순한 용량 부족 같은 흔한 장애 말고)
- 원인이 단순하지 않거나 상호작용이 복잡했던 것
- 기술적인 요인과 사람(조직) 요인이 모두 섞여 있었던 것
각 장애에 대해 기존 사후 분석, 타임라인, 그래프, Slack 로그, 티켓 등을 모읍니다. 목표는 다듬어진 이야기가 아니라 날(raw) 데이터를 가져오는 것입니다.
2. 기본 원칙(그라운드 룰)을 세팅하라
세션 시작 시, 다음을 분명하게 선언합니다.
- 블레임리스(Blameless): 우리는 사람을 평가하려는 게 아니라 시스템을 이해하려고 모였다.
- 학습 중심: 가치 있는 것은 “정답”이 아니라, 우리가 발견하는 질문과 패턴이다.
- 심리적 안전감: “이건 잘 모르겠어요”, “여기 부분은 이해가 안 돼요”라고 말해도 괜찮다.
이 내용은 포스터나 화이트보드에 크게 적어 눈에 보이게 해둡니다.
3. 장애별 팀을 나눈다
참여자들을 3~5명씩 작은 그룹으로 나누고, 각 그룹에 하나의 장애를 할당합니다. 각 그룹에는 다음을 제공합니다.
- 인쇄된 장애 요약 및 타임라인
- 가능하다면 그래프/로그 조각
- 골판지, 포스트잇, 테이프, 매직, 실 등 도구들
이들의 미션은 해당 장애를 위한 박물관 전시를 만드는 것입니다.
4. 골판지 전시 만들기 (45~60분)
팀에 다음과 같은 구조화된 프롬프트를 제공합니다.
-
행위자(Actor)들을 지도에 그리기
- 서비스, 큐, 데이터베이스, 외부 사업자/프로바이더 등을 그리거나 라벨링합니다.
- 온콜 엔지니어, SRE, 고객 지원, 프로덕트 등 사람/역할도 추가합니다.
-
타임라인을 펼치기
- 장애가 시작된 시점, 감지된 시점, 완화 조치, 최종 해결 시점 등 주요 시간을 표시합니다.
- 알람, 고객 문의, 대시보드 등 어디에서 어떻게 감지되었는지를 보여 줍니다.
-
장애 경로를 추적하기
- 실이나 컬러 테이프를 사용해 장애가 지나간 경로를 눈에 보이게 표시합니다.
- 포스트잇으로 주석을 답니다. 예: “예상치 못한 재시도 폭풍”, “여기에서 조용히 실패함”, “알람이 떴지만 무시됨”.
-
‘이상한 부분(weirdness)’ 강조하기
- 색을 다르게 쓰거나 스티커를 사용해 놀라웠던 요인을 표시합니다.
- 숨겨진 의존성
- 직관에 반하는 설정값
- 도구/프로세스 상의 빈틈
- 교대 시간, 우선순위 충돌, 모호한 오너십 같은 인적 요인
- 색을 다르게 쓰거나 스티커를 사용해 놀라웠던 요인을 표시합니다.
-
데이터 기반 인사이트 잡기
- 각 이상 징후에 대해 “우리가 어떤 데이터를 가지고 있었는지” 메모합니다.
- 메트릭? 로그? 트레이스? 스크린샷? Slack 타임스탬프?
- 데이터가 없었거나, 오해를 불러일으킨 부분을 표시합니다.
- 각 이상 징후에 대해 “우리가 어떤 데이터를 가지고 있었는지” 메모합니다.
목표는 모든 마이크로서비스를 하나도 빠짐없이 정확히 재현하는 것이 아닙니다. 그보다는, 사건 당시 팀이 실제로 가지고 있었던(혹은 없었던) 인지적 모델을 잡아내는 것입니다.
5. 박물관 산책 & 스토리텔링 (45~60분)
전시물이 준비되면, 전체가 함께 갤러리 워크를 합니다.
각 장애에 대해:
- 해당 그룹이 8~10분 동안 전시를 이용해 이야기를 들려줍니다.
- 처음에는 무슨 일이 일어났다고 생각했는지
- 실제로는 무엇이 일어나고 있었는지
- 무엇이 우리를 놀라게 했는지
- 결국 어떻게 이해하고 해결하게 되었는지
- 나머지 사람들은 “꼬투리 잡기”가 아니라, 이해를 돕고 호기심에서 나오는 질문을 합니다.
질문을 이렇게 유도해 보세요.
- “제가 그때 온콜이었다면, 아마 여길 제일 먼저 봤을 것 같은데요…”
- “이거 [다른 장애]랑 되게 비슷해 보이는데, 같은 유형이 또 일어날 수 있나요?”
이 단계에서 박물관 형식의 장점이 크게 드러납니다. 사람들은 실제로 구성요소를 손가락으로 가리키고, 장애 경로를 따라 걸어가며, 서로의 멘탈 모델을 맞춰 가고 교정합니다.
6. 횡단 주제(크로스컷팅 테마) 추출 (30분)
갤러리 워크가 끝나면 다시 모여서 이렇게 질문합니다.
- 여러 장애에서 공통적으로 나타난 패턴은 무엇인가?
- 반복되는 관찰성(Observability) 갭?
- 취약한 의존성?
- 지식이 특정인에게 몰려 있는 사일로?
- 알람 설계 문제?
- 어디에서 데이터가 장애 해결을 확실히 도왔는가?
- 어디에서 데이터가 없어서 추측에 의존해야 했는가?
이 패턴들을 화이트보드에 정리합니다. 이것이 곧 사후 분석들을 다시 되짚어 보는, 데이터 기반 메타-레트로스펙티브가 됩니다.
장식이 아니라 ‘데이터 기반’이 되게 만드는 법
골판지 관측소는 재미있지만, 진정한 힘은 이렇게 얻은 내용을 구체적인 변화와 연결할 때 나옵니다.
구조화된 장애 질문을 활용하라
각 장애(각 전시)에 대해, 다음과 같은 질문으로 체계적으로 파고듭니다.
- 감지(Detection)
- 이 장애는 어떻게 감지되었는가?
- 어떤 시그널을 가지고 있었나? 무엇이 시끄럽고, 무엇이 비어 있었나?
- 진단(Diagnosis)
- 처음에 우리가 세운 가설들은 무엇이었나? 왜 그 가설을 먼저 세웠나?
- 무엇이 그 가설들을 배제하는 데 도움이 되었나?
- 조율(Coordination)
- 누가 관여했는가? 어떻게 커뮤니케이션했는가?
- 역할과 오너십은 명확했는가?
- 해결(Resolution)
- 최종적으로 무엇이 통했는가? 그 조치는 명백해 보였나, 아니면 ‘에라 모르겠다’ 식 시도였나?
- 학습(Learning)
- 무엇이 있었다면 이 장애가 ‘기묘한 사건’이 아니라 ‘지루한 흔한 장애’가 되었을까?
이 질문들은 논의를 관찰 가능한 사실과 행동에 고정시켜 줍니다. 개인 역량에 대한 평가나 추측이 아니라, 실제 데이터와 선택, 상호작용에 초점을 맞추게 합니다.
후속 조치를 우선순위로 정하라
크로스컷팅 테마들 중에서 레버리지가 큰 개선 항목을 소수 골라 집중합니다. 예를 들면:
- 반복적으로 드러난 블라인드 스팟을 메우기 위한 새로운 메트릭이나 트레이스 추가
- 취약한 의존 경로를 단순화하거나, 명시적으로 문서화
- 알람 임계값이나 라우팅(온콜/에스컬레이션 경로) 조정
- 잘 작동했던 에스컬레이션 패턴을 프로세스로 명문화
이들을 명확한 오너와 기한이 있는 액션 아이템으로 만들고, 다른 업무와 동일한 수준으로 추적합니다.
골판지에서 지속적 개선으로 이어지게 하기
관측소는 한 번 하고 끝나는 이벤트가 아닐 때 가장 잘 작동합니다.
살아 있는 라이브러리로 유지하라
물리적 공간(혹은 사진과 다이어그램으로 만든 디지털 트윈)을 하나 정해 신뢰성 관측소로 씁니다. 시간이 지나면서:
- 의미 있었던 새로운 장애에 대해 전시를 추가하고
- 아키텍처가 바뀌면 기존 전시를 업데이트하며
- 신규 팀원 온보딩에 활용합니다.
“이 세 가지 장애가 우리가 이 시스템을 이렇게 설계하게 만든 사건들이에요.”
이렇게 하면, 장애 히스토리가 “옛 티켓과 PDF 묶음”에서 살아 있는 지식 베이스로 바뀝니다.
게임데이와 카오스 실험으로 이어지는 다리 만들기
팀이 골판지 탐험에 익숙해지면, 다음 단계로 넘어가 볼 수 있습니다.
- 과거 장애를 게임데이(GameDay) 시나리오로 바꿉니다.
- “이 장애 유형을 지금의 시스템에서 안전하게 재현해 보고, 오늘날 우리 대응이 어떤지 확인해 보자.”
- 관측소에서 드러난 취약 지점을 토대로 타깃형 카오스 실험을 설계합니다.
관측소는 보다 포멀한 신뢰성 실천을 향한 저불안·저위험 출발점을 제공합니다.
진행(facilitation)에 투자하라
이 접근법의 성공은 상당 부분 좋은 퍼실리테이션에 달려 있습니다.
- 세션에서 비난이 끼어들 틈을 만들지 않고
- 말이 적은 사람도 참여할 수 있도록 돕고
- 스토리텔링에서 학습, 그리고 액션으로 자연스럽게 흐르도록 이끌어야 합니다.
가능하다면, 몇 명의 신뢰성 챔피언이나 SRE에게 퍼실리테이션 스킬을 훈련시켜, 이 세션을 주기적으로 운영할 수 있게 하세요.
맺으며
장애는 비용이 큽니다. 다운타임만이 아니라, 스트레스, 잃어버린 수면, 신뢰의 침식까지 포함해서요. 여기에서 깊이 배우지 못한다면, 그건 돈을 태워 버리는 것과 다르지 않습니다.
골판지 신뢰성 관측소는 다른 길을 제안합니다.
- 팀의 가장 기묘한 장애들을 손으로 만질 수 있는 전시물로 만들고
- 스토리텔링, 공유된 멘탈 모델, 심리적 안전감을 키우며
- 데이터 기반 질문으로 무용담을 실행 가능한 인사이트로 바꾸고
- 시간이 지날수록 시스템과 사람 양쪽의 신뢰성을 높이는 엣지 케이스의 살아 있는 라이브러리를 구축합니다.
시작하는 데 화려한 카오스 엔지니어링 플랫폼이 필요하지 않습니다. 골판지, 매직, 두어 시간, 그리고 실패를 전시하겠다는 의지만 있으면 됩니다. 상처처럼 숨기기 위한 것이 아니라, 배움을 위한 유물(artifact)로 삼겠다는 태도가 중요합니다.
지금 장애 하나를 고르세요. 골판지를 집어 드세요. 첫 번째 전시를 만드세요. 그게 곧 관측소를 향한 첫걸음이며, 앞으로 팀이 장애를 그저 견디는 수준을 넘어, 그로부터 성장하도록 도와줄 출발점이 될 것입니다.