종이 시점 비틀기로 숨은 실패 패턴을 드러내는 아날로그 인시던트 이야기: 기차역 분기와 만화경
종이 비행기, 시각 은유, 사람 중심 포스트모템을 통해 인시던트 대응을 ‘탓하기 위한 소방훈련’이 아니라 ‘시스템 수준의 학습 엔진’으로 바꾸는 방법.
종이 시점 비틀기로 숨은 실패 패턴을 드러내는 아날로그 인시던트 이야기: 기차역 분기와 만화경
인시던트는 좀처럼 일직선으로 망가지지 않는다.
우리는 깔끔한 서사를 좋아한다. 어떤 버그가 배포됐다, 특정 노드가 죽었다, 설정이 잘못됐다. 그걸 고치고, 테스트를 추가하고, 포스트모템을 쓰고, 다음으로 넘어간다. 하지만 실제 인시던트는 붐비는 철도 기차역을 만화경越(만화경)越越越으로 들여다보는 것에 가깝다. 여러 선로, 계속 바뀌는 각도, 부분적인 반사, 그리고 눈에 보이지 않는 수많은 제약이 실제로 어떤 일이 일어나는지를 결정한다.
이 글에서는 아날로그 시뮬레이션(종이 기반 게임 같은 것)과 시각적 은유(기차역, 만화경 같은 이미지)가 인시던트 대응 시스템, 특히 사람이 개입된 부분에서 어떻게 숨은 패턴을 드러내는지 살펴본다. 편향된 피드백 루프가 학습을 어떻게 왜곡하는지, 왜 **‘사람 포스트모템(human postmortem)’**이 기술 포스트모템만큼 중요한지, 그리고 인시던트 분석을 법정 심문이 아니라 반복적인 디자인 작업으로 다뤄야 하는 이유를 이야기한다.
비대칭 피드백 루프의 보이지 않는 위험
대부분의 팀은 인시던트 학습 루프를 이렇게 단순하게 상상한다.
인시던트 → 대응(Response) → 포스트모템 → 액션 아이템 → 개선
실제로 이 루프는 대개 비대칭적이고 편향되어 있어서, 조용히 학습 방향을 틀어버린다.
편향이 스며드는 방식
다음과 같은 패턴을 떠올려 보자.
-
속도는 칭찬받고, 신중함은 비난받는다
다소 무리하게 움직였더라도 빠르게 행동한 대응자는 영웅 취급을 받는다. 반대로 확인을 위해 잠깐 멈추거나, 에스컬레이션을 하거나, 도움을 요청한 사람은 느리거나 우유부단하다고 여겨진다. -
눈에 띄는 행동만 피드백을 받고, 보이지 않는 행동은 묻힌다
롤백, 재부팅, 트래픽 전환 같은 크고 눈에 띄는 조치는 포스트모템에서 반드시 언급된다. 반면, 상황을 명확히 하기 위한 질문, 상태 페이지 업데이트, 전제에 이의를 제기하는 행동처럼 작지만 핵심적인 움직임은 대개 아무도 기억하지 못한다. -
실패만 분석하고, 아슬아슬하게 비켜간 사건은 무시된다
큰 장애를 거의 일으킬 뻔했지만 결과적으로 괜찮았던 일은, 비슷한 수준의 분석을 거의 받지 못한다. 시스템은 “운이 좋아서 괜찮았던 것”을, 마치 괜찮은 리스크 전략인 것처럼 학습한다.
시간이 지나면 팀의 행동은 진짜로 안전과 신뢰성, 학습에 최적인 것이 아니라, 무엇이 칭찬 혹은 비난의 대상이 되는지에 맞춰 최적화된다. 실제로 무엇을 최적화하고 있는지 목표가 흐려지는 것이다.
포스트 인시던트 문화가 조용한 회의와 의문 제기를 벌주고, 시끄러운 영웅담만 칭찬한다면, 팀은 당연히 더 많은 영웅담과 더 적은 회의를 만들어낼 것이다. 조직이 무엇을 표방하든 상관없이.
스트레스, 피로, 인지 편향: 인간으로 쌓인 인시던트 스택
인시던트는 본질적으로 기술 환경에 제약받는 인간 퍼포먼스 이벤트다. 스트레스, 피로, 인지 편향이 모든 의사결정을 좌우한다.
-
스트레스는 시야를 좁힌다
압박을 받으면 사람은 가장 먼저 떠오른 그럴듯한 가설에 고정(anchoring)되기 쉽다. 그 가설을 뒷받침하는 증거만 보게 되고, 희미한 신호나 다른 설명 가능성은 놓치기 쉽다. -
피로는 작업 기억을 갉아먹는다
새벽 3시 온콜이라면, 평소에 단순한 절차도 복잡하게 느껴진다. 단계가 빠지거나, 대시보드를 잘못 읽거나, 명령을 잘못 입력하는 일이 잦아진다. -
인지적 지름길이 지배한다
확증 편향, 사후 편향, 가용성 편향 같은 것들이 모두 개입한다. 대응자가 “이건 분명 DNS 문제야”, “항상 DB에서 터졌잖아”라고 믿기 시작하면, 그 믿음에 맞춰 증거를 필터링한다.
그런데도 많은 조직의 포스트모템은 여전히 인간을 이상화된, 실수 없는 행위자, 그것도 완벽한 조건에서 일하는 존재처럼 다룬다. 분석은 무엇이 기술적으로 고장 났는지에만 초점을 맞추고, 사람이 그 사건을 어떻게 인지하고 헤쳐 나갔는지는 대충 스쳐 지나간다.
인간 요인을 들여다보지 않는다면, 사실상 인시던트를 분석하는 게 아니다. 그저 그럴듯한 동화를 거꾸로 재구성하고 있을 뿐이다.
‘사람 포스트모템’이 필요한 이유
기술 포스트모템은 필요조건이지만, 충분조건이 아니다. 그에 더해 **인간 포스트모템(human postmortem)**이 필요하다. 사람들의 인식, 가정, 커뮤니케이션이 결과에 어떤 영향을 미쳤는지 구조적으로 탐구하는 과정이다.
사람 포스트모템은 어떻게 생겼나
통상적인 “이벤트 타임라인” 옆에, **‘인지·커뮤니케이션 타임라인’**을 추가해 보자. 다음에 집중하는 것이다.
- 인식(Perceptions): 각 대응자는 중요한 시점마다 무엇이 일어나고 있다고 생각하고 있었나?
- 정보 흐름(Information flow): 누가, 언제, 어떤 정보를 갖고 있었나? 누가 갖고 있지 못했나?
- 가정(Assumptions): 어떤 멘탈 모델이 의사결정을 이끌었나? 그 모델은 팀 간에 공유돼 있었나, 아니면 제각각이었나?
- 조정·협업(Coordination): 역할, 오너십, 우선순위는 (명시적이든 암묵적이든) 어떻게 조정됐나?
예를 들어 이런 질문을 던질 수 있다.
- “19:42에 우리는 무엇 때문에 DB가 문제라고 확신하게 됐나요?”
- “그때 확신이 없었지만 말하지 않은 사람은 누구였나요? 왜였을까요?”
- “어떤 신호를 무시하거나 과소평가했나요?”
- “어디에서 ‘바쁘게 움직이는 것’을 ‘진짜 진전’으로 착각했나요?”
목표는 범인을 찾는 것이 아니라, 상식적인 사람들이 상식적인 결정을 내렸음에도 나쁜 결과가 나오게 만든 조건을 이해하는 것이다.
이 인간 이야기(human story)를 문서화하면, 그 자체로 런북(runbook), 대시보드, 커뮤니케이션 규범, 온콜 로테이션, 툴 제약을 개선할 수 있는 원재료가 된다.
인시던트를 반복적 디자인 실험으로 보기
인시던트를 무조건 피해야 할 “실패”로만 보지 말고, **디자인 프로브(design probe)**로 보자. 즉, 우리 사회기술(socio-technical) 시스템의 고위험 “사용성 테스트”다.
간단한 루프를 돌리면 된다.
- Plan(계획) – 모니터링, 탐지, 트리아지, 에스컬레이션, 복구가 어떻게 굴러가야 한다고 우리가 믿는지 정의한다.
- Act(실행) – 현재 설계(런북, 역할, 도구, 문화 규범)에 따라 실제 인시던트에 대응한다.
- Review(리뷰) – 기술적 동작 뿐 아니라 인간의 행동과 인지까지 함께 분석한다.
- Adjust(조정) – 프로세스, 인터페이스, 교육과 훈련을 수정하고, 다시 반복한다.
이렇게 질문을 바꾼다.
“누가 잘못했나?”
에서
“압박 속에서 똑똑한 사람들이 이런 선택을 하도록 만든 우리 시스템 설계는 무엇이었나?”
시간이 지날수록 우리는 단순히 버그를 패치하는 것이 아니라, 다음과 같은 시스템을 점진적으로 디자인하게 된다.
- 올바른 행동은 쉽게 하고
- 위험한 행동은 어렵거나, 최소한 훨씬 눈에 잘 띄게 만들고
- 스트레스 상황에서도 맑은 사고를 돕고
- 외로운 영웅이 아니라, 공유된 이해를 중심으로 움직이게 하는 시스템
종이 비행기와 기타 아날로그 시뮬레이션
분산 시스템, 클라우드 장애 얘기를 하다가 갑자기 종이 비행기 이야기를 꺼내는 게 이상하게 느껴질 수 있다. 하지만 단순하고 손으로 만질 수 있는 시뮬레이션은, 대시보드로는 잘 안 보이는 복잡한 시스템 거동을 아주 잘 드러내 준다.
예: 종이 기차역(Trainyard) 게임
다음과 같은 테이블탑(탁상) 연습을 떠올려 보자.
- 각 사람은 “기차 운전사” 역할을 맡고, 종이 조각(종이 기차)을 큰 종이에 그려진 기차역 지도 위에서 움직인다.
- 선로는 서비스, 교차점은 의존성을 나타낸다.
- 인시던트는 제약 카드로 도입된다. 어느 선로가 막히거나, 신호가 지연되거나, 잘못된 지시가 전달되는 식이다.
- 사람들은 주어진 시간 압박 속에서, 충돌 없이 기차를 운행하고, 전체 처리량(throughput)을 유지해야 한다.
잠깐만 해 봐도 다음과 같은 것들이 눈에 보이기 시작한다.
- 병목 – 모두가 한 사람의 결정만 기다리는 상황
- 커뮤니케이션 실패 – 지시가 필요한 사람에게 제대로 전달되지 않는 상황
- 국지 최적화 – 한 운전사는 자기 구역 문제만 멋지게 해결했는데, 그 결과 다른 곳에 대규모 정체가 생기는 상황
아날로그 방식이기에, 사람들은 시스템 전체를 한눈에 보고, 말 그대로 손으로 조각들을 옮길 수 있다. 이 과정에서 숨은 가정과 실패 모드가, 위키 안에 또 하나의 플로우차트를 그렸을 때보다 훨씬 잘 드러난다.
왜 아날로그가 통하는가
- 사고 속도를 약간 늦춰 줘서, 프로세스 결함이 드러난다.
- 리스크가 낮으니 사람들이 훨씬 자유롭게 실험한다.
- 모두가 공유하는 시각적 기준점이 생겨, 논의가 흩어지지 않는다.
완벽한 시뮬레이션이 필요하지 않다. 중요한 건 사람들이 복잡한 시스템 수준의 거동을, 안전하고 손에 잡히는 환경에서 경험해 보고, 그 통찰을 실제 인시던트에 연결해 볼 수 있는 **놀이터(playground)**를 만드는 것이다.
구조화된 성찰로 심리적 안전 만들기
팀이 가장 잘 학습하는 순간은 사람들이 이렇게 말할 수 있을 때다.
- “여기서는 솔직히 헷갈렸어요.”
- “그 알림(alert)이 뭘 의미하는지 잘 몰랐어요.”
- “실수할까 봐, 혹은 탓 들을까 봐 망설였어요.”
심리적 안전(psychological safety)은 막연한 “있으면 좋은 것”이 아니다. 아주 직접적으로 다음에 영향을 준다.
- 탐지 속도(Detection speed) – 이상한 걸 보면 바로 말하게 된다.
- 대응 품질(Response quality) – 모를 때 초기에 도움을 요청하고, 모르는 척 숨기지 않는다.
- 학습 깊이(Learning depth) – 아슬아슬한 상황(near-miss)과 불편한 진실까지 공유된다.
성찰을 구조화하는 방법
인시던트나 시뮬레이션이 끝난 뒤, 다음 같은 요소를 포함해 보자.
- 라운드 로빈 성찰 – 모두가 돌아가며 대답한다.
“무엇이 가장 의외였나요?”, “어디에서 막혔다고 느꼈나요?” - 감정 체크포인트 –
“언제 가장 스트레스를 느꼈나요? 그게 선택에 어떤 영향을 줬나요?” - 역할 명확성 질문 –
“내가 지금 뭘 해야 할지 확실하지 않았던 순간이 있었나요?”
이런 질문을 정상적인 운영 관행의 일부로 꾸준히 다루면, 강한 메시지가 전달된다. “우리가 인시던트에서 어떻게 함께 일했는지는, 우리가 고친 버그만큼이나 중요하다.”
탓하기 서사에서 다각도 시스템 스토리로
시각적·은유적 도구는, 하나의 실수와 안심되는 교훈으로 끝나는 기본적인 선형 “루트 코즈(root cause)” 스토리에서 벗어나는 데 도움을 준다.
기차역(Trainyard) 시점
기차역 은유는 다음을 강조한다.
- 여러 개의 선로(서비스, 팀, 도구)
- 분기기와 스위치(결정, 게이트, 승인)
- 관제(트래픽 컨트롤 – SRE, 인시던트 커맨더)
“왜 이 기차가 탈선했나?”라는 질문에서 벗어나, 이렇게 묻게 된다.
“이 기차역이 어떤 구성과 조건 아래 있었길래, 그 상황에서는 이런 결과가 가장 ‘자연스러운’ 결과가 됐을까?”
만화경(Kaleidoscope) 시점
만화경 은유는 다음을 장려한다.
- 관점을 계속 회전시키기: 오퍼레이터, 온콜, 고객, 매니저, 도구의 관점
- 어느 한 관점도 “절대적 진실”이 아니며, 각각은 부분적인 반사일 뿐이라는 수용
- 같은 사건을 서로 다른 질문으로 계속 다시 보기: 기술적, 인간적, 조직적 관점
만화경을 한 번 돌릴 때마다 다른 패턴이 보인다.
- 한 번 돌리면: “모니터링 시스템은 무엇을 알고 있었고, 무엇은 전혀 모르고 있었는가?”
- 또 한 번: “인시던트 커맨더는 각 체크포인트에서 무엇을 믿고 있었나?”
- 또 한 번: “어떤 인센티브와 지표가 조용히 행동을 유도하고 있었나?”
시점을 많이 통합할수록, 인시던트 이야기는 더 풍부해지고, 실제로 쓸모 있는 시스템 스토리가 된다.
정리: 인시던트를 학습 엔진으로 바꾸기
인시던트를 강력한 학습 엔진으로 바꾸고 싶다면, 다음을 시도해 보자.
-
편향된 피드백 루프를 드러내라
누가 칭찬받고, 누가 비판받는지, 그게 시간이 지날수록 어떤 행동을 학습시키는지 살펴보라. -
텍 스택만이 아니라 ‘휴먼 스택’을 분석하라
**사람 포스트모템(human postmortem)**을 인시던트 분석의 1급 시민으로 대우하라. -
반복적 디자인 루프를 사용하라
모든 인시던트를 사회기술 시스템의 사용성 테스트로 다뤄라.
Plan → Act → Review → Adjust. -
아날로그 시뮬레이션을 실험하라
종이, 화이트보드, 간단한 게임을 써서 숨은 의존성과 협업 실패 지점을 드러내라. -
구조화된 성찰과 심리적 안전에 투자하라
헷갈림, 스트레스, 불확실성에 대해 이야기하는 문화를 정착시켜라. -
기차역과 만화경 같은 시각 은유를 도입하라
선형적인 탓하기 서사에서 벗어나, 다각도의 시스템 스토리로 옮겨가라.
만화경을 비틀어 보고, 종이를 손에 들고 기차역을 함께 걸어보면, 인시던트는 더 이상 혼돈의 미스터리나 탓하기 재판으로만 남지 않는다. 대신 풍부한 다관점 이야기가 되어, 시스템이 사람을 조용히 실패 쪽으로 밀어 넣는 지점을 드러내고, 그 길을 성공 쪽으로 다시 설계할 수 있게 해 준다.