Rain Lag

종이 인시던트 스토리 나침반 서랍: 넘쳐 흐르기 전에 리스크를 다시 정렬하는 책상 위의 작은 의식

단순한 ‘종이 인시던트 스토리’ 서랍이 어떻게 아슬아슬한 상황을 포착하고, 반복 작업을 줄이며, 실제 장애로 번지기 전에 인시던트 관리 관행을 지속적으로 개선하게 만드는 강력한 팀 의식이 될 수 있는지 살펴봅니다.

소개

대부분의 팀은 인시던트가 이미 ‘터진 뒤’에야 그것을 마주합니다.

새벽 3시 7분, 온콜 폰에 알림이 울릴 때쯤이면, 우리는 더 이상 리스크의 모양에는 관여할 수 없습니다. 이제 영향을 줄 수 있는 건 대응의 강도뿐입니다. 우리는 대시보드, 플레이북, 인시던트 대응 플랫폼에 집착합니다(그래야 합니다). 하지만 리스크가 아직 작고, 대화 한 번, 포스트잇 한 장, 10분짜리 짧은 회고만으로도 방향을 바꿔줄 수 있는 그 시점을 종종 놓칩니다.

여기서 바로 종이 인시던트 스토리 나침반 서랍(Paper Incident Story Compass Drawer) 이 등장합니다.

이것을 ‘책상 사이즈의 의식’이라고 생각해보세요. 물리적이든 디지털이든, 사소해 보이는 리스크, 아슬아슬하게 비켜간 상황(near miss), 막 생겨나기 시작한 마찰을 큰 인시던트로 굳어지기 전에 담아두는 전용 공간입니다. 또 다른 툴이 아니라, 매일의 운영 잡음을 팀의 항해 지도로 바꾸는 하나의 습관입니다.

이 글에서는 다음 내용을 다룹니다.

  • 적응형 인시던트 관리는 왜 런북만이 아니라 ‘의식’이 필요한가
  • 최신 인시던트 플랫폼과 자동화는 이 그림에서 어떤 역할을 하는가
  • 단순한 “종이 인시던트 스토리” 실천 방법
  • 그 스토리들을 더 나은 포스트모템과 미래의 반복 작업 감소에 어떻게 연결할 것인가

소방수에서 항해사로: 적응형 인시던트 관리

전통적인 인시던트 관리는 철저히 반응형입니다. 무언가 망가지고, 알람이 요란하게 울리고, 사람들이 우르르 모여듭니다. 적응형(adaptive) 인시던트 관리는 다릅니다. 이 접근법의 목표는 다음과 같습니다.

  • 운영 반복 작업(toil) 감소: 지속적인 가치를 남기지 못하는 반복·수동 작업 줄이기
  • 인시던트 감지 및 해결 속도 향상
  • 인시던트가 알려주는 정보를 바탕으로 프로세스와 시스템을 지속적으로 적응시키기

적응형 팀은 단지 더 빨리 대응하는 것이 아니라, 더 빨리 학습합니다. 모든 인시던트, 실패한 배포, 이해하기 어려운 알람 하나하나가 “이 시스템이 어떻게 행동하는지”를 설명해주는 긴 이야기의 데이터 포인트입니다.

하지만 여기에는 한 가지 함정이 있습니다. 가장 가치 있는 신호는 대개 작고, 미묘합니다. 그것들은 이렇게 나타납니다.

  • 잠깐 튀었다가 자동으로 사라진 “이상한” 메트릭
  • 거의 실패할 뻔했다가 재빨리 롤백된 배포
  • 올바른 대시보드를 찾기 위해 세 개나 뒤져봐야 했던 온콜 경험

이런 것들이 near miss(아슬아슬한 상황), close call(간신히 비껴간 일) 입니다. 실제로 장애를 일으킬 수도 있었지만, 결과적으로는 그렇지 않았던 예기치 않은 사건들입니다. 이들은 제대로 된 포스트모템으로 이어지는 경우가 거의 없습니다. 티켓 시스템에 기록조차 안 되는 경우도 많습니다. 하지만 바로 이런 것들이 리스크가 넘쳐 흐르기 전에 다루기에 가장 실질적인 데이터입니다.

이 지점을 정확히 겨냥한 것이 바로 종이 인시던트 스토리 나침반 서랍입니다.


서랍: 작은 의식이 만드는 큰 지렛대

팀 공간 어딘가에 실제로 라벨이 붙어 있는 서랍을 떠올려 보세요. “인시던트 스토리 & 아슬아슬했던 순간들” 같은 이름을 붙인 서랍입니다.

원격 근무라면 디지털 버전도 좋습니다. 공유 문서, Notion 페이지, 간단한 폼을 만들어 특정 폴더로 저장되게 할 수도 있습니다. 어떤 컨테이너를 쓰느냐보다 더 중요한 건 의식 그 자체입니다.

룰은 아주 간단합니다.

무언가 “거의 잘못될 뻔했다”거나 “인시던트 중에 이상하게 힘들었다”고 느껴졌다면, 짧은 종이 이야기를 하나 써서 서랍에 넣는다.

각 스토리는 한 페이지(또는 동일한 구조의 디지털 폼)에 다음 질문들만 간단하게 답합니다.

  1. 무슨 일이 있었나요? (2–3문장, 평이한 언어)
  2. 왜 중요했나요? (무엇이 잘못될 수 있었나요? 상황이 악화됐다면 어떤 영향?)
  3. 우리는 무엇을 했나요? (수동 반복 작업이나 즉흥적인 공조가 있었다면 포함)
  4. 어떤 점이 취약해 보였나요? 헷갈리거나 느리다고 느낀 부분은?
  5. 다음에는 더 쉽게 만들기 위해 바꿔볼 수 있는 한 가지는?

이건 완전한 포스트모템이 아닙니다. 가벼운, 서사형 스냅샷입니다. 미래의 팀원이 2분 안에 읽고 바로 이해할 수 있는 짧은 이야기죠.

시간이 지나면 서랍에는 이런 조각들이 쌓입니다.

  • 작은 알람이었지만 더 큰 근본 리스크를 드러냈던 사례
  • 관측 가능성(observability)이나 롤백 전략의 빈틈을 보여준 아찔한 배포 경험
  • 온콜 인수인계 중에 중요한 컨텍스트가 빠졌던 순간
  • 협업 도구나 프로세스가 오히려 사람들을 느리게 만든 장면들

이 조각들이 모여 나침반이 됩니다. “우리 인시던트 대응과 시스템이 앞으로 어디를 어떻게 바꿔야 하는지” 방향을 알려주는 지표가 됩니다.


최신 인시던트 플랫폼은 어디에 위치하는가

이렇게 생각할 수 있습니다. “우리는 이미 xMatters 같은 인시던트 플랫폼을 쓰고 있다. 그걸로 충분하지 않나?”

최신 인시던트 대응 플랫폼은 자신들이 설계된 목적에는 엄청나게 강력합니다.

  • 주요 인시던트를 버튼 한 번으로 개시
  • 엔지니어링, 지원, 리더십 전체에 걸친 커뮤니케이션 조율
  • 페이징, 에스컬레이션, 상태 업데이트에 대한 자동화된 워크플로우

이런 플랫폼은 다음과 같은 역할에 필수적입니다.

  • 올바른 사람들이 최대한 빨리 호출되도록 보장
  • 대응 절차를 표준화
  • 고스트레스 상황에서의 수동 작업을 줄이기

다만 대부분의 플랫폼은 인시던트가 분명한 임계값(threshold)을 넘었을 때 활성화됩니다. 예를 들면:

  • “서비스가 다운됐다”
  • “성능이 심각하게 저하됐다”
  • “고객이 체감하는 장애가 발생했다”

종이 인시던트 스토리 나침반 서랍은 이보다 훨씬 앞 단계에 위치합니다.

  • “메이저 인시던트 시작(Start Major Incident)” 버튼을 누르기 전
  • 알람이 1차 온콜을 깨우기 전
  • 리스크가 팀 밖에서 눈에 띄기 전에

이 서랍은 도구만으로는 거의 포착되지 않는 “임계점 아래(sub-threshold)” 경험들을 잡아 정리합니다. 나중에는 이 스토리들을 바탕으로 무엇을 먼저 자동화할지, 온콜 구조를 어떻게 손볼지, 인시던트 플랫폼을 어떻게 더 잘 설정할지를 결정할 수 있습니다.

플랫폼과 도구가 정량적 도구라면, 이 서랍은 그 도구를 움직이는 정성적 연료입니다.


온콜과 자동화의 역할: 리스크를 상류에서 잡기

효과적인 **온콜 관리(on-call management)**는 리스크 관리의 최전선입니다. 잘 설계된 온콜 운영과 적절한 자동화는 작은 문제들이 큰 인시던트로 번지는 것을 막을 수 있습니다.

핵심 요소는 다음과 같습니다.

  • 명확한 온콜 로테이션과 기대치 설정
  • 잘 설계된 알람 (노이즈 감소, 실질적으로 행동 가능한 시그널)
  • 흔한 이슈에 대한 런북·플레이북
  • 반복적인 복구 작업에 대한 자동화

종이 인시던트 스토리 나침반 서랍은 이런 요소들을 계속 개선할 수 있도록 다음 질문을 던지게 합니다.

  • 온콜 담당자는 어디에서 막혔는가?
  • 어떤 일이 지루하고 반복적이었으며, 자동화할 수 있는가?
  • 기존 런북은 어디에서 부족했거나 헷갈리게 했는가?
  • 어떤 알람이 시끄럽기만 했는가? 무엇이 오해를 불렀는가? 무엇이 아예 없었는가?

각 스토리는 자동화 또는 프로세스 개선 후보가 됩니다.

  • “일주일 동안 서비스 X를 수동으로 세 번 재시작했다” → 재시작을 안전장치와 함께 자동화하거나, 근본 원인을 해결
  • “온콜이 어떤 대시보드를 신뢰해야 할지 몰랐다” → ‘골든 대시보드’를 하나 만들고 알람에서 직접 링크
  • “실소유자를 찾으려고 세 팀을 차례로 호출해야 했다” → 서비스 오너십 정보와 인시던트 플랫폼의 라우팅 규칙 업데이트

이렇게 서랍은 자연스럽게 실질적인 개선 작업의 백로그가 되고, 반복 작업을 줄이고 향후 인시던트의 길이도 짧게 만듭니다.


서랍과 포스트모템 연결하기

포스트모템(또는 포스트 인시던트 리뷰)은 중대한 인시던트나 장애 이후에 수행하는 구조화된 분석입니다. 좋은 포스트모템은 대개 다음을 포함합니다.

  • 무슨 일이 있었는지 타임라인으로 정리
  • 루트 원인과 기여 요인 규명
  • 대응 과정 평가 (커뮤니케이션, 의사결정, 도구 활용)
  • 실행 가능한 개선 조치 정의 (재발 방지 또는 영향 축소)

하지만 포스트모템은 보통 하나의 “큰 사건”에 집중합니다. 그에 비해 서랍은 그 큰 사건을 둘러싼 맥락을 제공합니다.

  • 그 이전 몇 주 동안 비슷한 near miss가 반복되지 않았는가?
  • 사람들이 이미 자동화 부재, 모호한 오너십, 취약한 컴포넌트의 고통을 느끼고 있지 않았는가?
  • “어차피 알아서 복구되겠지”라며 스스로 해결된 신호들을 무시하지 않았는가?

포스트모템을 준비할 때, 서랍에서 관련 스토리를 꺼내 보세요.

  • 포스트모템 문서에 **사전 신호(prior signals)**로 첨부합니다.
  • “이번 건이 단일 실패가 아니라 패턴의 일부임”을 보여줍니다.
  • “우리가 이 이야기들을 미리 봤을 때, 무엇이 필요했을까?”를 스스로에게 묻습니다.

이렇게 하면 논의의 초점이 **“누가 잘못했나?”**에서 **“우리 시스템이 왜 이런 조건을 만들어내고, 어떻게 그 모양을 바꿀 수 있을까?”**로 옮겨갑니다.

또한, 서랍 자체를 대상으로 **“메타 포스트모템”**을 주기적으로 할 수도 있습니다.

  • 한 달 또는 분기마다 한 시간을 잡아, 서랍 속 스토리를 정리합니다.
  • 관측 가능성 부족, 오너십 혼란, 반복되는 수동 조치, 취약한 의존성 등 주제별로 묶습니다.
  • 각 묶음(클러스터)에서 1–3개의 구체적 개선 액션을 뽑아냅니다.

이렇게 하면 눈에 잘 띄지 않던 리스크 지형이 구체적이고 행동 가능한 형태로 드러납니다.


나만의 종이 인시던트 스토리 나침반 서랍 시작하기

일주일 안에, 큰 노력 없이도 바로 시작할 수 있습니다.

1. 컨테이너 만들기

  • 물리적: 라벨을 붙인 서랍이나 상자, 그리고 인덱스 카드나 반쪽짜리 A4에 인쇄된 짧은 템플릿
  • 디지털: Google Form 같은 간단한 폼을 만들어, 응답이 공유 문서나 보드로 쌓이게 하기

2. 스토리 템플릿 정의하기

작고 반복 가능하게 유지합니다.

  • 무슨 일이 있었나요?
  • 왜 중요했나요 / 무엇이 잘못될 수 있었나요?
  • 무엇을 했나요?
  • 어떤 점이 취약하거나 지나치게 어려웠나요?
  • 우리가 개선해볼 수 있는, 작지만 구체적인 한 가지는?

3. 팀 리듬에 섞기

  • 엔지니어 한 명당 온콜 한 주에 1–2개 스토리를 기대치로 둡니다.
  • 주간 스탠드업에 10분 정도를 떼어 스토리 하나를 소리 내어 읽는 시간을 만듭니다.
  • “완벽한” 스토리를 기다리지 말고, 짧고 솔직한 이야기를 환영합니다.

4. 도구와 연결하기

반복되는 패턴이 보이기 시작하면, 그것을 다음으로 번역합니다.

  • 새로운 또는 개선된 런북
  • xMatters 내 라우팅, 에스컬레이션, 자동 워크플로우 조정
  • 알람·대시보드 등 관측 가능성 향상
  • 문서화 또는 교육 자료 업데이트

5. 피드백 루프 닫기

최소한 매달 한 번은:

  • 서랍에서 가장 두드러진 테마를 요약합니다.
  • 이를 더 넓은 팀이나 리더십과 공유합니다.
  • 서랍 속 스토리에서 직접 파생된 개선 사항을 명시적으로 나열합니다.

이렇게 하면 이 의식이 충분히 가치 있다는 것이 증명되고, 더 많은 자발적 참여도 이끌어낼 수 있습니다.


결론: 작은 이야기들이 만드는 큰 안전

대부분의 팀은 인시던트 관리를 “이미 불이 난 뒤에” 작동하는 도구와 런북들의 집합으로 생각합니다. 반면 적응력이 뛰어난, 회복 탄력성(resilience)이 높은 조직은 인시던트를 미리 방향을 틀 수 있는 이야기로 바라봅니다. 알람이 심각 단계로 올라가기 훨씬 이전부터 말이죠.

종이 인시던트 스토리 나침반 서랍은 의도적으로 작게 설계되어 있습니다. 한 페이지, 하나의 서랍, 10분짜리 대화. 이 의식의 힘은 지속성에서 나옵니다. near miss와 사소한 불편들을 꾸준히 기록하기 시작하면, 여러분은 다음을 얻게 됩니다.

  • 자동화할 수 있는 패턴을 조기에 발견해 운영 반복 작업을 줄이고
  • 실제 온콜 경험에서 드러나는 마찰을 통해 온콜 운영을 강화하며
  • 인시던트 플랫폼을 더 나은 설정과 워크플로우로 채우고
  • 포스트모템에 맥락과 초기 경고 신호를 더해주고
  • 매일의 운영 잡음을 살아 있는 리스크 지도(living map)로 전환합니다.

새로운 제품이 필요한 것은 아닙니다. 이야기들을 모아둘 한 공간과, 그것을 정기적으로 읽겠다는 약속만 있으면 됩니다. 시간이 지나면 그 소박한 서랍은, 팀을 미래의 장애에서 멀어지게 하고 더 차분하고 신뢰할 수 있는 시스템을 향해 이끄는 조용한 나침반이 됩니다.

리스크가 넘쳐 흐르기 전에, 그것이 내려앉을 공간을 하나 만들어 주세요. 그리고 그 안에서, 이야기가 시작되도록 하세요.

종이 인시던트 스토리 나침반 서랍: 넘쳐 흐르기 전에 리스크를 다시 정렬하는 책상 위의 작은 의식 | Rain Lag