종이로 여는 신뢰성 길거리 마켓: 모두가 ‘장보고 가듯’ 장애 스토리를 주고받는 의식 만들기
저기압 기술과 걸어서 들르는 ‘신뢰성 길거리 마켓’을 통해, SRE 포스트모템과 장애 스토리를 조직 전체가 함께 배우는 공개 학습 의식으로 바꾸는 방법.
소개: 신뢰성을, 공개적으로 그리고 종이 위에 올리기
대부분의 신뢰성 업무는 화면 뒤에서 이뤄집니다. 대시보드, 티켓, 인시던트 채널, 그리고 긴 포스트모템 문서들 말이죠. 그런데 장애는 터미널과 텔레메트리만 때리지 않습니다. 사람들의 캘린더, 매출, 스트레스, 신뢰를 동시에 강타합니다. 특히 업무가 전부 클라우드 도구 위에서 돌아가는 팀일수록, 장애는 아주 현실적인 경제적·생산성 손실을 만들어냅니다.
그렇다면 신뢰성 실천의 일부를 툴 뒤에서 복도 앞으로 꺼내오면 어떨까요?
여기서 등장하는 것이 바로 **종이 신뢰성 길거리 마켓(Paper Reliability Street Market)**입니다. 팀들이 장애 스토리, 배운 점, 신뢰성 실험 결과를 종이에 적어 벽이나 게시판에 붙이는, 의도적인 로우테크·워크업(누구나 걸어서 들를 수 있는) 의식입니다. 말 그대로 종이로 여는 포스트모템 ‘길거리 장터’인 셈이죠.
이건 탄탄한 SRE 실천을 대체하려는 것이 아닙니다. 오히려 **번역 레이어(translation layer)**에 가깝습니다. 블레임리스 포스트모템, 근본 원인 분석(RCA), 인시던트 리포트 시스템의 엄격함을, 온콜 엔지니어들만이 아니라 조직 누구나 볼 수 있고, 쉽게 접근하고, 대화에 끼어들 수 있는 형태로 바꿔주는 역할입니다.
이 글에서는 SRE 포스트모템이 왜 중요한지, 공개적인 스토리텔링이 어떻게 신뢰성 문화를 강화하는지, 그리고 종이 길거리 마켓을 설계해 조직 전체가 장애 스토리와 그에 담긴 교훈을 서로 주고받게 만드는 방법을 살펴보겠습니다.
왜 대시보드보다 포스트모템이 더 중요한가
사이트 신뢰성 엔지니어링(SRE) 팀은 이미 탄탄한 포스트모템 프로세스의 가치를 잘 알고 있습니다. 잘 만들어진 포스트모템은 다음을 가능하게 합니다.
- 실제로 무슨 일이 있었는지 기록해, 소문과 추측이 빈자리를 채우지 못하게 합니다.
- 인시던트 동안의 기술적 타임라인과 이벤트 순서를 선명히 합니다.
- 배운 점을 캡처해, 기능 개발로 급히 복귀하는 사이에 사라져버리지 않도록 합니다.
좋은 포스트모템은 단순한 보고서가 아니라 **학습 산출물(learning artifact)**입니다. 예를 들면 이런 질문에 답합니다.
- 원래 무엇이 일어나야 한다고 예상했는가?
- 우리를 놀라게 한 것은 무엇이었는가?
- 어떤 도구나 프로세스가 우리를 잘못 이끌었는가?
- 같은 일이 다시 일어날 가능성이나 영향을 어떻게 줄일 수 있는가?
잘 퍼실리테이션된 포스트모템을 인시던트 직후에 진행하면, 조직의 학습과 지식 유지에 큰 도움이 됩니다. 기억이 생생할 때 사람들은 로그와 메트릭뿐 아니라, 인간적인 경험까지 함께 떠올립니다. 혼란, 스트레스, 즉흥적인 대응, 그리고 보통 티켓에는 거의 남지 않는 작은 인사이트들 말입니다.
이 문서들은 정말 소중한 자산입니다. 문제는, 이게 대개 툴 속에 파묻혀 있다는 점입니다.
블레임리스 문화와 시스템적 약점 찾기
현대 SRE 문화의 중심에는 **블레임리스 포스트모템(blameless postmortem)**이 있습니다. 이 말은 “책임을 묻지 않는다”는 뜻이 아니라, 사람의 실수를 곧바로 근본 원인(root cause)으로 취급하지 않는다는 의미입니다.
“누가 실수했나?”를 묻는 대신, 이렇게 묻습니다.
- 무엇 때문에 이 실수를 하기 쉬운 상태가 되었는가?
- 어떤 신호가 없거나 헷갈리게 만들었나?
- 당시 사람들은 무엇을 합리적으로 믿고 있었나?
- 도구, 정책, 조직 구조가 어떻게 여기에 기여했나?
이렇게 블레임에서 **시스템 씽킹(system thinking)**으로 초점을 옮기는 것은 매우 중요합니다. 그래야 사람들이 솔직하게 공유하고, 더 풍부한 디테일을 남기며, 더 깊은 분석을 할 수 있습니다. 그 결과, 사람들은 다음과 같은 것들도 기꺼이 털어놓습니다.
- 자신이 택한 지름길
- 늘 시끄러워서 무시하던 경고들을 또 무시한 사실
- 문서화되지 않은 ‘부족 지식(tribal knowledge)’에 의존했던 부분
이런 맥락에서의 근본 원인 분석(RCA)은 단일한 “루트 코즈”를 찾는 작업이 아니라, 기여 요인과 시스템적 약점을 드러내는 작업에 가깝습니다. 목표는 법정 증거를 확보하는 게 아니라, 디자인 인풋을 얻는 것입니다. 다시 말해, 시스템·프로세스·기대치를 어떻게 바꾸면 같은 패턴의 실패가 덜 일어나거나, 덜 치명적일지를 찾는 것이죠.
이건 아주 강력한 접근입니다. 하지만, 이런 인사이트 대부분은 많은 사람이 한 번도 열어보지 않는 도구와 문서 저장소 안에 갇혀 있습니다.
장애 스토리는 조직의 ‘화폐’다
신뢰성 업무를 오래 하다 보면, 장애는 동시에 스토리라는 사실을 깨닫게 됩니다. 이 스토리에는 등장인물(온콜 엔지니어, 고객, 임원), 배경(배포일, 트래픽 피크 시간, 점검 시간대), 그리고 반전(숨겨진 의존성, 부분 롤백, 연쇄 장애)이 있습니다.
이 스토리들은 핵심 메시지를 담고 있습니다.
- “우리는 X가 안전하다고 생각했는데, 아니었다.”
- “우리는 이 알림을 믿었는데, 우리를 속였다.”
- “A팀이 B팀의 API에 의존하는지 몰랐다.”
인시던트 리포팅 시스템은 이 스토리들을 저장하고 검색할 수 있게 도와줍니다. 하지만 공유된 스토리텔링을 통해서야 비로소 스토리가 퍼져 나갑니다.
- 신입은 전설처럼 내려오는 “금요일 밤 페일오버 사고” 이야기를 듣고, 긴 연휴 앞두고 위험한 작업을 잡지 말아야 한다는 걸 배웁니다.
- 프로덕트 매니저는 실제 고객 영향이 있었던 인시던트 스토리를 듣고, 왜 SLO와 에러 버짓이 중요한지 진짜로 이해합니다.
- 세일즈 리더는 1시간 다운타임이 구체적인 매출 손실로 이어지는 걸 보고, 신뢰성 투자에 앞장서서 목소리를 냅니다.
이 스토리들을 문서 안에만 가둬두면 이 기회를 놓칩니다. 사람들이 실제로 걷고, 기다리고, 대화하는 물리 공간에 이런 이야기를 꺼내놓을 수 있다면 어떨까요?
종이 신뢰성 길거리 마켓 설계하기
종이 신뢰성 길거리 마켓의 아이디어는 단순합니다.
장애, 근접 사고(near miss), 신뢰성 개선 사례를 아날로그 형태로 전시하고 이야기 나눌 수 있는, 정기적이고 공개된 워크업 공간.
느낌상으로는 과학 전시회, 포스터 세션, 동네 게시판의 중간쯤 되는 포맷입니다.
이걸 어떻게 설계할 수 있을지 살펴보겠습니다.
1. 눈에 잘 띄는 ‘중립’ 공간 고르기
사람들이 자연스럽게 지나다니는 공간을 고르세요.
- 엘리베이터 근처 복도
- 탕비실·커피 코너 주변
- 메인 회의실 앞 벽
“엔지니어링 전용” 공간은 피하는 게 좋습니다. 핵심은 **교차 수분(cross‑pollination)**입니다. 고객 지원, 세일즈, 프로덕트, 리더십 등 다양한 조직이 일상 동선 속에서 신뢰성 스토리와 마주치게 하는 것이 목적입니다.
2. 가볍게 쓸 수 있는 ‘스토리 시트’ 표준화하기
장애 스토리를 적는 1페이지짜리 종이 템플릿을 만드세요. 관료적인 포맷이 아니라, 빠르고 사람 냄새 나는 형식이면 충분합니다. 예를 들면:
- 제목: 짧고 눈에 띄는 이름
- 언제: 날짜, 시간, 대략적인 지속 시간
- 영향: 누구/무엇이 영향을 받았는지 (사용자, 매출, 팀 등)
- 무슨 일이 있었나(일상어로): 불릿 4–6개 정도
- 우리를 놀라게 한 것: 잘못 이끈 신호나, 몰랐던 빈틈
- 우리가 바꾼 것: 실제로 진행한 후속 조치나 설계 개선
- 열린 질문: 여전히 남아 있는 리스크나 불확실성
이건 어디까지나 공개용 요약본이라는 점을 분명히 하세요. 전체 기술 포스트모템 문서는 QR 코드나 링크로 연결하면 됩니다.
3. 블레임리스와 존중의 원칙 유지하기
여기서도 기존의 블레임리스 포스트모템 문화를 그대로 적용하세요.
- 개별 개인의 실수를 실명으로 적지 않습니다.
- **시스템, 프로세스, 도구, 가정(assumption)**에 초점을 맞춥니다.
- “누가 무엇을 했다”보다는 **“무엇을 배웠는가”**를 강조합니다.
민감한 고객 이슈나 비즈니스 임팩트를 포함한 인시던트를 게시할 땐, 익명화·서술 방식을 의도적으로 고민하세요. 목표는 학습이지, 망신 주기가 아닙니다.
4. ‘신선 식재료’를 꾸준히 채우기
장터처럼 느껴지려면, 내용이 계속 바뀌어야 합니다. 예를 들어 이런 주기를 생각해볼 수 있습니다.
- 월간 업데이트: 매달 새로운 스토리 시트 2–5개 게시
- 분기별 테마: 예) “의존성의 역습”, “알림 피로(Alert Fatigue)”, “릴리스 트레인 인시던트”
- 순번제 호스트: 매달 다른 팀이 스토리를 공급
또한 높은 심각도(severity)의 장애뿐 아니라, 다음도 포함하세요.
- 근접 사고(near miss): “다운타임 나기 3분 전에 겨우 잡았다.”
- 긍정적인 실험: “X 카오스 테스트를 해봤고, 이런 걸 발견했다.”
5. ‘보고 끝’이 아니라 상호작용 만들기
이 벽은 박물관 전시가 아니라 대화의 시작점이어야 합니다.
예를 들면:
- 포스트잇: “질문 남기기”, “우리 팀에서도 이런 패턴 있다!” 같은 메모를 붙일 수 있게 하기
- 투표 스티커: “가장 놀라웠던 스토리”, “가장 배울 점이 컸던 스토리”에 점 찍기
- 미니 프롬프트 카드: “이 실패를 일으키기 더 어렵게 만들려면 무엇을 바꾸겠습니까?” 같은 질문을 적은 작은 카드들을 두고, 사람들이 답을 써서 붙이게 하기
온라인 인시던트 채널이 자연스럽게 질의응답과 논의를 유도하듯, 길거리 마켓도 지나가다 끼어드는 참여를 유도해야 합니다.
6. 아날로그와 디지털을 연결하기
마켓은 아날로그 형식이지만, 기존 시스템과 단절되어서는 안 됩니다.
- 각 시트에 QR 코드를 붙여 전체 인시던트 리포트로 연결합니다.
- 매달 벽을 사진으로 찍어 지식베이스에 아카이브합니다.
- 벽에서 반복해서 등장하는 패턴을 뽑아, 로드맵 논의나 리스크 레지스터에 반영합니다.
종이는 **두 번째 진실의 원본(source of truth)**이 아니라, 기존 진실을 비추는 렌즈여야 합니다.
왜 이게 엔지니어링을 넘어 중요한가
클라우드 장애와 내부 시스템 실패는 더 이상 “IT 문제”에 그치지 않고, 전형적인 비즈니스 연속성 문제가 되었습니다. 협업 스위트, CRM, 배포 파이프라인이 멈추면:
- 세일즈는 딜을 클로즈하지 못합니다.
- 고객 지원은 티켓에 응답할 수 없습니다.
- 리모트 팀은 손을 놓고 있거나 급히 우회로를 찾느라 정신이 없습니다.
이는 SLA 미준수, 출시 지연, 고객 이탈, 실제 금전적 손실로 곧바로 이어지는 구체적인 경제·생산성 충격입니다.
신뢰성 대화를 공개적이고, 워크업 방식이며, 마찰이 적게 만들면 다음과 같은 효과가 있습니다.
- 비기술 이해관계자들이 신뢰성 투자에 어떤 이해관계가 걸려 있는지 눈으로 보게 됩니다.
- 이들이 자신의 팀과 이야기할 때 쓸 수 있는 언어와 스토리를 제공합니다.
- 온콜 역할과 운영상의 제약에 대한 공감을 키웁니다.
- 기획 단계에서부터 신뢰성 이슈가 더 일찍 논의되도록 돕습니다.
길거리 마켓은 이런 점에서 공유 교육 공간이 됩니다. 예를 들면:
- 프로덕트 매니저는 특정 기능이 왜 점진적 롤아웃이 필요한지 이해합니다.
- 재무 리더는 업타임에 ‘9를 하나 더 붙이는 것’이 왜 엄청난 비용을 수반하는지 체감하게 됩니다.
- 디자이너와 리서처는 UX 결정이 시스템 실패를 어떻게 감추거나, 반대로 더 잘 드러나게 만들 수 있는지 알게 됩니다.
시작하기: 작은 파일럿으로 충분하다
학습 문화를 통째로 재설계할 허가를 받을 필요는 없습니다. 아주 작게 시작해도 됩니다.
- 벽 한 군데를 고릅니다. 종이, 마커, 테이프, 포스트잇 같은 기본 도구를 준비합니다.
- 최근 인시던트 2–3개를 고릅니다. 이미 있는 포스트모템을 바탕으로 1페이지짜리 스토리 시트를 작성합니다.
- 30분짜리 ‘오픈 월(open wall)’ 세션을 엽니다. 주변 팀을 초대해서 지나가며 읽고, 질문하며, 이야기 나누게 합니다.
- 관찰합니다. 어떤 스토리가 호기심이나 우려를 불러일으키는지, 사람들이 어떤 질문을 하는지 지켜봅니다.
- 개선합니다. 템플릿을 다듬고, 용어를 더 쉽게 풀고, 영향과 배운 점을 더 분명히 드러나게 조정합니다.
곧 회의 중에 사람들이 “탕비실 벽에 붙어 있던 그 장애”를 언급하는 모습을 보게 될 것입니다. 그게 바로 길거리 마켓이 작동한다는 신호입니다. 장애 스토리가 엔지니어링 내부 전설이 아니라 조직 전체의 공유 기억이 되기 시작한 것이니까요.
결론: 신뢰성을 ‘걸어서 들르는 습관’으로 만들기
신뢰성은 종종 복잡한 도구와 깊은 전문성 뒤에 감춰진, 소수 전문가의 영역처럼 다뤄집니다. 그러나 결과를 겪는 건 모두이고, 그렇다면 스토리 역시 모두의 것이어야 합니다.
종이 신뢰성 길거리 마켓은 단순하지만, 그 영향은 의외로 큽니다.
- SRE 포스트모템의 엄격함을 사람 냄새 나는, 접근 가능한 형식으로 꺼내 보여줍니다.
- 블레임리스 문화와 근본 원인 분석을 활용해, 희생양이 아닌 시스템에 대한 스토리를 들려줍니다.
- 장애 리포트를 누구나 배울 수 있는, 눈에 보이고 대화 가능한 산출물로 바꿔줍니다.
복잡한 대시보드와 끝없이 쌓이는 인시던트 채널의 세상에서, 벽에 붙은 몇 장의 종이는 놀랄 만큼 강력한 힘을 발휘할 수 있습니다. 실패로부터 배우는 일은 기술적인 실천에 그치지 않고, 조직 전체의 문화적 실천이라는 사실을, 매일 눈앞에 상기시켜 주기 때문입니다.
그러니 스토리 하나를 출력해 벽에 붙여보세요. 누가 멈춰 서서 읽는지 지켜보세요. 더 나은 신뢰성은 거기서부터 시작됩니다. 로그 속이 아니라, 복도 한가운데서 말입니다.