아날로그 리스크 조수 웅덩이: 작은 사고가 파도가 되기 전에 종이 위에서 안전하게 부딪히도록 만드는 법
사고 관리, 블레이멀리스 SRE식 사후 분석(postmortem), 칸반 시각화를 결합해, 작은 직장 내 사고들이 커다란 파도가 되기 전에 종이 위의 ‘얕은 shoreline’에서 안전하게 소멸하도록 돕는 ‘아날로그 리스크 조수 웅덩이’를 만드는 방법을 소개합니다.
아날로그 리스크 조수 웅덩이: 작은 사고가 큰 파도가 되기 전에 종이 위의 얕은 해안선에서 안전하게 부딪히게 설계하기
모든 조직은 거대한 리스크의 바다 옆에 살고 있습니다.
겉으로 보기에는 물결이 잔잔해 보입니다. 프로젝트는 잘 굴러가고, 고객은 만족하며, 시스템은 매끄럽게 돌아갑니다. 하지만 수면 아래에서는 이미 여러 흐름이 만들어지고 있습니다. 사소한 버그, 작은 오해, 아슬아슬하게 비껴간 사고(near-miss), 그리고 “좀 이상했는데 그냥 사라졌어” 같은 일들 말이죠.
이런 작은 파도들이 안전하게 부딪혀 사라질 수 있는 얕은 해안선을 마련하지 않으면, 결국 더 큰 것으로 자라납니다. 서비스 장애, 고객 클레임, 컴플라이언스 이슈, 심각한 산업 재해로까지 이어질 수 있습니다.
여기서 등장하는 개념이 바로 **“아날로그 리스크 조수 웅덩이(Analog Risk Tidal Pool)”**입니다. 의도적으로 **저기술(저텍)**이고, 눈에 잘 띄며, 종이를 기반으로 하는 시스템입니다. 아주 작은 사고들을 초기에 포착해, 차분하게 살펴보고, 커다란 파도로 번지기 전에 해결하는 데 목적이 있습니다.
이 글에서는 다음 세 가지 강력한 아이디어를 결합해, 그 얕은 해안선을 어떻게 만드는지 살펴보겠습니다.
- 사고 관리(Incident Management) – 이슈를 포착하고 추적하기 위한 체계
- 블레이멀리스(blameless) SRE식 포스트모템(Postmortem) – 사고를 분석하고 배움으로 전환하기
- 칸반(Kanban) 스타일 시각화 – 리스크가 어디에 쌓이는지 한눈에 보기
왜 작은 사고가 부딪혀 사라질 공간이 필요한가
불운이 전혀 없는 일터는 없습니다. 사람은 실수하고, 도구는 고장 나며, 예기치 못한 일들은 언제든 일어납니다. 이 사실을 완전히 없앨 수는 없지만, 나쁜 결과의 빈도와 영향은 크게 줄일 수 있습니다.
가장 위험한 사고는 거의 항상 갑자기 하늘에서 떨어지지 않습니다. 대개는 작은 경고 신호가 줄줄이 이어져 쌓인 긴 연쇄의 끝에서 터집니다.
- 계속해서 되풀이되는 티켓
- “거의” 고객 이슈가 될 뻔했던 near-miss
- 혼란스러운 인수인계가 있었지만, 누군가의 ‘영웅적’인 땜질로 겨우 넘어간 상황
이런 초기 신호들이 흘러갈 곳이 없다면—즉, 이를 부드럽게 수집·추적·학습하는 시스템이 없다면—그냥 기억 속에서, 혹은 메일함 어딘가에서 사라집니다. 그러는 사이, 리스크는 눈에 띄지 않는 곳에서 계속 축적됩니다.
아날로그 리스크 조수 웅덩이는 바로 그 의도적인 공간입니다. 작고 사소한 사고들이
- 기록하기 쉽고,
- 무시되기 어렵고,
- 체계적으로 처리되는
얕고, 눈에 잘 띄며, 마찰이 적은 종이 기반의 표면입니다.
기반: 단순한 사고 관리(Incident Management) 시스템
사고 관리 시스템이 효과적이기 위해 꼭 복잡하거나, 완전히 디지털일 필요는 없습니다. 본질은 매우 단순합니다.
무언가 잘못되었거나, 잘못될 뻔한 일을 구조적으로 포착·분류·추적·해결하는 방식
리액티브(사후)와 프로액티브(사전) 사고 관리
탄탄한 사고 관리 시스템은 두 방향으로 작동합니다.
-
리액티브(사후 대응) – 일이 벌어진 뒤에:
- 서비스 장애
- 고객 클레임
- 안전 수칙 위반
이런 일들을 기록하고, 우선순위를 정해 대응하고, 사후 분석을 합니다.
-
프로액티브(사전 탐지) – 큰 문제가 터지기 전에:
- 자주 반복되는 사소한 버그
- 반복 작업에서 계속 생기는 재작업(rework)
- 사용자들을 간신히 막히지 않게 하는, 자주 반복되는 ‘수동 땜질’
이런 것들을 **작은 사고(tiny incident)**로 간주해 일찍 포착하고, 심각한 문제로 번지기 전에 패턴을 분석합니다.
각 사고에서 무엇을 기록할 것인가
디지털이든 종이든, 각 사고 기록에는 최소한 다음 질문에 답이 있어야 합니다.
- 무슨 일이 있었나? (짧은 설명)
- 언제, 어디에서 일어났나? (시간, 시스템/팀/맥락)
- 누가 관련되었거나 영향을 받았나? (책임 추궁이 아닌, 상황 파악을 위한 정보)
- 영향 수준 (매우 작음, 보통, 큼 등)
- 즉각 대응 (당시에 바로 무엇을 했는가?)
- 다음 단계 (어떤 후속 조치가 필요한가?)
아주 사소한 사고라도 이런 구조를 지키는 것이 중요합니다. 그래야 나중에 **약한 신호(weak signal)**들의 흐름을 일관되게 추적해, 새로운 패턴을 찾아낼 수 있습니다.
SRE식 블레이멀리스 포스트모템: 처벌이 아닌 학습
SRE(Site Reliability Engineering) 팀들은 복잡한 기술 시스템에서 발생하는 사고로부터 배우기 위해 오래전부터 **포스트모템(postmortem, 사후 분석)**을 사용해 왔습니다. 클라우드 플랫폼을 운영하지 않더라도, 이 관행에서 얻을 수 있는 것은 매우 많습니다.
잘 운영되는 포스트모템의 핵심은 다음과 같습니다.
- 블레이멀리스(blameless) – 개인의 잘못이 아니라 시스템의 동작에 초점을 맞춥니다.
- 분석적(analytical) – 근본 원인과 기여 요인을 호기심 있게 파고듭니다.
- 실행 가능(actionable) – 단순한 스토리가 아니라, 재발 가능성을 낮추는 구체적 개선 조치를 도출합니다.
왜 블레이멀리스 문화가 필수적인가
사람들이 비난받을 것을 두려워하면, 이렇게 행동하게 됩니다.
- 사고나 near-miss를 숨깁니다.
- 위험한 상황을 축소 보고하거나, 아예 보고하지 않습니다.
- 무엇이 잘못되었는지 솔직하게 분석하는 것을 피합니다.
이 말은 곧, 조직이 갖고 있어야 할 조기 경보 시스템을 잃는다는 뜻입니다. 리스크는 보이지 않는 곳에서 커집니다.
반대로, 블레이멀리스 문화에서는 이런 말들이 안전하게 나올 수 있습니다.
- “방금 거의 깨진 걸 배포할 뻔했어요.”
- “절차를 우회했어요. 너무 헷갈려서요.”
- “운이 좋아서 괜찮았던 거지, 훨씬 심각해질 수도 있었어요.”
이런 발언들은 진짜 보물입니다. 이런 것들이 바로 작은 파도입니다. 일찍 도착한 신호이기도 하고요.
유용한 포스트모템의 구성
실무적인 SRE식 포스트모템은, 작은 사고에 대해서도 다음 요소들을 포함할 수 있습니다.
- 사고 요약 – 무슨 일이 있었는지 한눈에 볼 수 있게.
- 타임라인 – 주요 사건들을 시간 순서대로.
- 영향 – 누가/무엇이 어느 정도로 영향을 받았는지.
- 기여 요인 – 설계 선택, 빠져 있던 체크, 헷갈리는 인터페이스, 모호한 오너십 등.
- 근본 원인(Root Cause) – 이런 일이 가능했던 시스템적 이유.
- 액션 아이템(Action Items) – 재발 가능성을 줄이는 구체적 조치.
모든 작은 사고에 대해 이렇게 완전한 포스트모템이 필요한 것은 아닙니다. 하지만 규모가 크거나, 반복되는 사고에 대해서는 반드시 필요합니다. 중요한 것은 일관성입니다. 사고를 비난의 탄약이 아니라, 학습을 위한 데이터로 다루는 관점입니다.
칸반 스타일 시각화: 리스크를 눈에 보이게 만들기
사고 관리와 포스트모템이 시스템의 ‘속’이라면, 시각적 워크플로우는 그 얼굴입니다.
칸반(Kanban) 스타일의 보드(물리든 디지털이든)는 리스크가 어디에 쌓이고 있는지 한눈에 보여 줍니다. 아날로그 리스크 조수 웅덩이의 관점에서는, 오히려 물리적인 보드가 더 좋을 때가 많습니다.
- 벽면
- 화이트보드
- 코르크 보드
위에 사고와 후속 작업을 나타내는 카드나 포스트잇을 가득 붙이는 식입니다.
사고용 칸반 보드의 기본 컬럼
아주 단순한 흐름부터 시작하면 됩니다.
- Captured(포착됨) – 새로 보고된 작은 사고/이슈들
- Under Analysis(분석 중) – 이해·그룹화·우선순위 결정이 진행 중인 것들
- In Progress(진행 중) – 완화 조치나 개선 작업이 실제로 진행 중인 것들
- Verified / Done(검증 완료 / 완료) – 보호 장치가 구현되어 리스크가 줄었다고 확인된 것들
각 사고는 하나의 카드를 가지고 이 컬럼들을 왔다 갔다 합니다. 시간이 지나면 자연스럽게 패턴이 드러납니다.
- 특정 컬럼에 카드가 쌓이기만 하고 잘 이동하지 않는 경우
- 계속 반복해서 나타나는 사고 유형
- 카드가 유난히 많이 나오는 팀이나 시스템
이것이 바로 조수 웅덩이의 **시각적 shoreline(해안선)**입니다. 어디에서 파도가 부딪히고 있는지, 어디에서 물이 차오르기 시작하는지 문자 그대로 눈으로 볼 수 있습니다.
시각적 요소로 리스크 강조하기
보드를 더 잘 활용하기 위해 다음과 같은 기법을 쓸 수 있습니다.
- 색깔 코드 – 심각도(매우 작음/보통/큼)를 색으로 구분
- 태그(Tag) – 카테고리(안전, 안정성, 고객, 컴플라이언스, 프로세스 등)를 구분
- 수영 레인(Swimlane) – 팀별, 제품별로 가로줄을 나누어 보기
목표는 멋진 보드를 만드는 것이 아닙니다. 목표는 다음과 같은 상황이 눈에 아프도록 뚜렷이 보이게 만드는 것입니다.
- 작은 사고들이 포착만 되고, 처리되지 않은 채 계속 쌓여 가는 경우
- 똑같은 유형의 카드가 계속해서 반복해서 등장하는 경우
- 포스트모템에서 나온 액션 아이템이 실제로는 전혀 처리되지 않고 있는 경우
리스크가 눈에 보이면, 관리할 수 있습니다.
모든 것을 합쳐서: 나만의 아날로그 리스크 조수 웅덩이 만들기
“아날로그 리스크 조수 웅덩이(Analog Risk Tidal Pool)”는 지금까지 말한 요소들을 하나의, 사람 친화적인 시스템으로 묶어낸 것입니다.
-
모든 작은 파도를 포착하기
- 이슈를 적을 수 있는 방법을 과할 정도로 쉽게 만듭니다. 펜, 포스트잇, 간단한 종이 양식 등.
- 이미 터진 사고뿐 아니라, near-miss나 “거의 문제가 될 뻔한 일”까지 적극적으로 적도록 독려합니다.
-
눈에 잘 띄는 곳에 모으기
- 새로 들어온 모든 사고 카드는 물리적 칸반 보드의 “Captured(포착됨)” 컬럼으로 옮깁니다.
- 스탠드업 미팅이나 주간 리스크 리뷰 시간에 이 보드를 정기적으로 훑어봅니다.
-
비난 없이 분석하기
- 영향이 크거나, 반복되거나, 잠재적으로 위험성이 큰 작은 사고들을 골라 블레이멀리스 포스트모템을 진행합니다.
- 종이로 정리한 인사이트와 액션 아이템을 관련 사고 카드에 함께 첨부합니다.
-
배움을 보호 장치로 전환하기
- 실제로 개선 작업을 하고 있을 때는 사고 카드를 “In Progress(진행 중)” 컬럼으로 옮깁니다.
- 체크리스트, 플레이북, 문서화 개선, 교육, 설계 변경 등 재발 가능성을 줄여줄 수 있는 어떤 조치든 추가합니다.
-
루프를 닫고, 성과를 축하하기
- 액션이 완료되고 효과가 검증되면 카드를 “Verified / Done(검증 완료 / 완료)” 컬럼으로 옮깁니다.
- 정기적으로 보드를 되돌아보며, 피할 수 있었던 큰 사고들, 강화된 회복탄력성(resilience)을 눈에 보이는 성과로 공유합니다.
시간이 지날수록 조직은 이런 곳으로 변해 갑니다.
- 작은 문제가 일찍 발견됩니다.
- 사람들이 문제를 말하는 것을 두려워하지 않습니다.
- 리스크를 줄이기 위한 워크플로우가 명확하고 눈에 보입니다.
- 큰 사고는 점점 드물어지고, 벌어지더라도 놀랍지 않게 됩니다.
이것이 바로 얕은 해안선이 작동하는 모습입니다.
작게 시작하기 위한 실용 팁
처음부터 거창한 프로그램이 필요하지는 않습니다. 30일짜리 실험이라고 생각하고 이렇게 시작해 볼 수 있습니다.
-
단순한 사고 카드 템플릿을 만든다 (반 페이지짜리 종이 정도):
- 무슨 일이 있었나?
- 언제/어디서?
- 영향 수준? (매우 작음/보통/큼)
- 즉각 대응은?
-
물리적 보드를 3~4개의 컬럼으로 만든다.
-
모든 구성원이 1주일에 최소 1개의 작은 사고를 기록하도록 요청한다.
-
매주 1번, 선택한 사고에 대해 블레이멀리스 포스트모템을 진행한다.
-
30일이 끝났을 때, 다음을 되돌아본다.
- 어떤 패턴을 발견했는가?
- 어떤 개선을 실제로 구현했는가?
- 사람들은 이슈를 보고하는 경험을 어떻게 느꼈는가?
그다음, 이 실험에서 배운 것을 바탕으로 조수 웅덩이를 다듬습니다. 컬럼, 카드, 의식(리추얼)을 조직에 맞게 조정하세요.
결론: 파도가 칠 때까지 기다리지 말라
리스크를 완전히 없앨 수는 없지만, 어떤 방식으로 맞이할지는 선택할 수 있습니다.
작은 사고를 무시하면, 그것들은 깊은 물속 어딘가에서 보이지 않게 모이다가, 어느 날 거대한 실패로 한꺼번에 덮쳐 옵니다. 반대로, 사고 관리, 블레이멀리스 포스트모템, 칸반 시각화로 구성된 아날로그 리스크 조수 웅덩이를 의도적으로 설계하면, 같은 힘이 작고 관리 가능한 파도로 찾아옵니다.
파도는 얕은 해안선에서 안전하게 부딪혀 사라집니다. 우리는 거기서 배웁니다. 그리고 조직은 더 강해집니다.
선택지는 “항상 잔잔한 바다”와 “폭풍우 치는 바다” 사이가 아닙니다. 조용히 축적되는 리스크와 보이고, 관리 가능하며, 배움이 되는 순간들 사이의 선택입니다. 파도가 아직 작을 때, 지금 바로 당신만의 해안선을 만드세요.