Rain Lag

아날로그 인시던트 스토리 컴퍼스: 조용히 ‘다음 최선의 조치’를 가리켜 주는 회전 종이 다이얼

단순한 회전 종이 ‘인시던트 컴퍼스’와 가벼운 디지털 워크플로를 결합해 온콜, 트리아지, 장애 대응을 더 차분하고 명확하며 효과적으로 만드는 방법을 소개합니다.

소개

대부분의 팀은 인시던트 대응에 대해 제대로 고민하기 시작하는 시점이 항상 인시던트 도중입니다. 바로 모두의 스트레스가 가장 높고, 사고 능력이 가장 나쁠 때죠.

그렇다면, 안내가 이미 거기, 조용히 기다리고 있다면 어떨까요? 팀이 실제로 다이얼을 돌리기만 해도 지금 누가 무엇을 책임지고, 무엇을 먼저 하고, 어떤 이슈가 더 중요한지 미리 볼 수 있다면—패닉이 시작되기 전에 말이죠.

그게 바로 **아날로그 인시던트 스토리 컴퍼스(Analog Incident Story Compass)**의 아이디어입니다. 벽이나 책상 위에 두고 수시로 돌려 볼 수 있는 단순한 종이 회전판으로, 항상 여러분의 **다음 최선의 조치(next best fix)**를 가리켜 줍니다. 여기에 몇 가지 디지털 도구와 명확한 정책을 결합하면, 혼란스러운 장애 상황도 시작–전개–결말이 있는 가이드된 ‘스토리’처럼, 거의 루틴에 가까운 흐름으로 바꿀 수 있습니다.

이 도구는 모니터링, 페이징, 티켓 시스템을 대체하려는 것이 아닙니다. 그 위에 마찰이 적고, 시각적이며, 손으로 만질 수 있는 레이어를 하나 얹어서 사람들이 더 빠르고 더 좋은 결정을 내리도록 도와주려는 것입니다.


왜 인시던트는 항상 이렇게 혼란스러울까 (사실 꼭 그럴 필요는 없는데)

장애가 발생했을 때 혼란이 생기는 이유는, 대부분 기술 때문이 아닙니다. 실제 원인은 대개 혼동입니다.

  • 지금 실제로 책임을 지고 있는 사람은 누구인가?
  • 고객이나 경영진과 소통하는 사람은 누구인가?
  • 우리는 무엇부터 해야 하는가?
  • 여러 인시던트 중 무엇이 더 중요한지는 어떻게 결정하는가?

이 질문들에 대해 명확한 답이 없으면, 팀은 우왕좌왕하고, 일을 중복해서 하고, 우선순위를 두고 논쟁하게 됩니다. 결과는 늘 같습니다. 장애는 더 오래 가고, 스트레스는 커지고, 리스크는 높아집니다.

해결책은 의외로 단순합니다. 구조를 미리 정하고, 눈에 보이게 만들고, 무시하기 어렵게 만드는 것입니다.

즉, 다음이 필요합니다.

  1. 명확한 역할과 책임 정의
  2. 보이는(on‑call) 온콜 로테이션
  3. 비즈니스 임팩트를 기준으로 한 단순한 트리아지 규칙
  4. 인시던트 진행 및 종료를 위한 단계별 문서화된 프로세스

아날로그 인시던트 스토리 컴퍼스는 이 모든 것을 팀의 시선 한가운데 두는 물리적 객체로 묶어내는 한 가지 방법입니다.


1단계: 불이 나기 전에 역할, 책임, 정책부터 정리하기

다이얼을 만들기 전에, 그 다이얼이 담아낼 스토리를 먼저 정해야 합니다.

최소한 다음과 같은 인시던트 역할을 명확히 정의하세요.

  • Incident Commander (IC, 인시던트 커맨더): 인시던트 타임라인, 의사결정, 조율을 책임집니다. 직접 디버깅은 하지 않습니다.
  • Communications Lead (커뮤니케이션 리드): 이해관계자, 고객, 리더십에게 전달되는 모든 업데이트를 담당합니다.
  • Technical Lead(s) (테크니컬 리드): 근본 원인을 조사하고 실제 수정 작업을 수행합니다.
  • Scribe / Incident Note-Taker (스크라이브 / 기록 담당): 어떤 시도와 결정이 언제 있었는지 로그를 남깁니다.

그리고 다음을 문서로 남기세요.

  • 누가 인시던트를 **선언(declare)**할 수 있는가?
  • 누가 기본적으로 IC가 되는가? (온콜 스케줄 또는 로테이션 기준)
  • 심각도(severity) 레벨(SEV-1, SEV-2 등)은 무엇이며, 각 레벨이 비즈니스 임팩트 측면에서 의미하는 바는 무엇인가?
  • 각 심각도별 응답 시간 기대치는 어떻게 되는가?

이게 꼭 50페이지짜리 정책 문서일 필요는 없습니다. 작은 팀이라면 한 페이지짜리 **인시던트 차터(Incident Charter)**만으로도 충분한 경우가 많습니다.

이 역할과 규칙은 나중에 아날로그 컴퍼스에 인쇄되거나 시각적으로 반영됩니다.


2단계: 회전하는 인시던트 컴퍼스 – 조용하지만 항상 켜져 있는 포인터

이제부터가 재미있는 부분입니다. 이론을 항상 보이는 물리적 리마인더로 바꾸는 것이죠.

한 가운데에 핀을 꽂아 회전할 수 있는 종이 바퀴를 상상해 보세요. 배경 원판 위에서 돌아가는 구조입니다. 여기에 이런 것들을 넣을 수 있습니다.

바깥 링: 시간과 온콜

바깥 링(배경 원판)에는 다음 정보를 표시합니다.

  • 요일 또는 주 단위 블록
  • 현재 온콜 엔지니어
  • 백업 온콜
  • Incident Commander 온콜

주가 바뀔 때마다, 현재 날짜에 프라이머리 온콜IC가 정렬되도록 다이얼을 돌립니다. 그러면 누구든 한눈에 볼 수 있습니다.

“지금은 Alex가 IC, Sam이 프라이머리 온콜, Jordan이 백업이구나.”

캘린더나 Slack 채널을 뒤지며 누가 담당인지 찾을 필요가 없습니다.

안쪽 링: 인시던트 스토리의 단계들

회전하는 상단 레이어에는 인시던트가 선언된 후 따를 단계별 프로세스를 표시합니다. 예를 들어, 다음과 같은 6단계 사이클일 수 있습니다.

  1. 탐지 & 선언 (Detect & Declare) – 인시던트 여부를 확인하고, IC를 지정합니다.
  2. 트리아지 & 분류 (Triage & Classify) – 단순한 if-then 규칙을 적용해 심각도를 정합니다.
  3. 안정화 (Stabilize) – 피해 확산을 막고, 빠른 완화(mitigation)를 적용합니다.
  4. 커뮤니케이션 (Communicate) – 이해관계자에게 첫 번째 업데이트를 전송합니다.
  5. 조사 & 수정 (Investigate & Fix) – 근본 원인을 찾고 장기적인 수정 방안을 적용합니다.
  6. 종료 & 회고 (Close & Learn) – 인시던트를 문서화하고, 배운 점을 정리하며 런북을 업데이트합니다.

그리고 "NOW" 같은 표시를 현재 단계에 맞춰 둡니다. 인시던트가 진행될수록 바퀴를 다음 단계로 돌립니다. 컴퍼스는 눈에 보이는 리마인더가 됩니다. 길이 존재하고, 우리는 그 길 어디쯤에 와 있다는 것을 상기시켜 주죠.

왜 여기서는 아날로그가 그렇게 잘 먹히는가

  • 항상 눈에 띕니다: 벽에, 책상에, 온콜 스테이션 근처에 걸려 있습니다.
  • 마찰이 거의 없습니다: 로그인도, 앱도, 새로운 대시보드로의 컨텍스트 스위칭도 필요 없습니다.
  • 공유 기준점이 됩니다: 같은 공간에 있는 모두가 똑같은 것을 봅니다.

이 컴퍼스는 도구를 대체하지 않습니다. 대신, 인시던트 한가운데 있는 사람들이 일관된 스토리를 따라가도록 중심을 잡아 줍니다.


3단계: 디지털 대신 아날로그가 아니라, 디지털과 아날로그의 혼합

가장 좋은 인시던트 셋업은 다음 두 가지를 결합합니다.

  • 속도, 자동화, 스케일을 위한 디지털 시스템
  • 명료함, 공유 이해, 루틴화를 위한 아날로그 도구

실무적으로는 다음과 같은 하이브리드 접근이 가능합니다.

  • 페이징 & 알림: PagerDuty, Opsgenie, 자체 스크립트 등 현대적인 온콜/페이징 도구를 사용합니다. 아날로그 컴퍼스는 단지 "지금 누가 책임자냐"를 보여주는 역할만 합니다.
  • 런북 & 체크리스트: 위키, Git 리포지터리, 문서 시스템에 저장합니다. 컴퍼스에 메인 "인시던트 런북"으로 연결되는 짧은 라벨이나 QR 코드를 붙여 둘 수 있습니다.
  • 인시던트 트래킹: Jira, Linear, ServiceNow, GitHub Issues 같은 티켓 시스템을 사용합니다. 아날로그 다이얼의 단계는 디지털 티켓의 워크플로와 1:1로 매핑됩니다.
  • 상태 업데이트: 디지털 상태 페이지를 운영하고, 컴퍼스는 IC에게 "지금은 커뮤니케이션 단계"라는 사실을 상기시켜 줍니다.

종이 다이얼을 인시던트의 프런트 페이지라고 생각해 보세요. 그 뒤에 있는 개별 페이지들이 여러분의 디지털 시스템입니다.


4단계: 작은 팀을 위한 단순한 도구 – 스프레드시트부터 시작하기

시작 단계에서부터 복잡한 인시던트 매니지먼트 플랫폼이 꼭 필요한 것은 아닙니다. 작은 팀이라면 단순한 스프레드시트 하나만으로도 꽤 멀리 갈 수 있습니다.

컬럼 예시는 다음과 같습니다.

  • 인시던트 ID
  • 탐지 일시
  • 영향받은 시스템 / 벤더
  • 비즈니스 임팩트 설명
  • 심각도 (SEV-1–4)
  • 현재 상태
  • 담당자(Incident Commander)
  • 다음 액션

그리고 필터나 간단한 수식을 활용해 다음을 자동화할 수 있습니다.

  • SEV-1과 SEV-2 인시던트를 상단에 강조 표시
  • 중요한 워크플로(결제, 인증 등)에 영향을 주는 벤더 장애를 플래그 처리
  • 누가 더 크게 소리쳤는지가 아니라 비즈니스 임팩트 기준으로 정렬

이 스프레드시트는 아날로그 컴퍼스의 디지털 트윈이 됩니다. 다이얼이 "누가, 어떤 단계에 있는가"를 보여준다면, 시트는 "현재 어떤 인시던트가 가장 중요한가"를 보여줍니다.


5단계: 비즈니스 임팩트를 기준으로 한 If-Then 트리아지 규칙

트리아지를 차분하고 일관되게 유지하려면, 비즈니스 결과에 묶인 기본적인 if-then 규칙을 정의하세요. 예를 들면 다음과 같습니다.

  • 만약 전체 사용자의 50% 이상이 로그인할 수 없다면, 그러면 SEV-1로 분류한다.
  • 만약 특정 지역에서 결제가 실패한다면, 그러면 SEV-1로 분류하고 재무팀(Finance)에 알린다.
  • 만약 응답 시간이 느려졌지만 핵심 기능은 정상 동작한다면, 그러면 SEV-2로 분류한다.
  • 만약 고객에게 영향이 없는 내부 도구만 장애를 겪는다면, 그러면 SEV-3 또는 SEV-4로 분류한다.

이 규칙들의 짧은 버전을 컴퍼스 뒷면이나 바깥 둘레에 인쇄해 두세요.

그러면 IC나 온콜 담당자가 다이얼을 "트리아지 & 분류" 단계로 돌렸을 때, 바퀴를 한 번 뒤집거나 가장자리를 보는 것만으로 그대로 규칙을 따라갈 수 있습니다. 결정은 감정이 아니라, 미리 합의된 정책에 의해 이끌어집니다.

시간이 지날수록 실제 인시던트에서 배운 점을 반영해 이 규칙들을 다듬을 수 있습니다. 문서를 업데이트한 다음, 새 버전의 컴퍼스를 인쇄하면 됩니다.


6단계: 문서화된 단계별 프로세스

도구는 도움을 줄 뿐이고, 진짜로 여러분을 즉흥 대응에서 지켜 주는 것은 프로세스입니다.

컴퍼스에 그려진 각 "단계"마다 짧게 정리된 글 형태의 프로세스가 하나씩 있어야 합니다. 예를 들면 다음과 같습니다.

1. 탐지 & 선언 (Detect & Declare)

  • 알림(alert)이나 제보가 오탐(false positive)이 아닌지 확인한다.
  • 심각도가 SEV-1 또는 SEV-2일 가능성이 높다면, 인시던트를 시스템에 선언한다.
  • Incident Commander를 지정하거나, 이미 지정된 사람을 확인한다.

2. 트리아지 & 분류 (Triage & Classify)

  • if-then 심각도 규칙을 적용한다.
  • 영향을 받는 시스템과 고객을 식별한다.
  • 추가로 페이징해야 할 팀이 있는지 결정한다.

3. 안정화 (Stabilize)

  • 완벽한 해결책이 아닌, 가장 빠른 안전한 완화책을 목표로 한다.
  • 잘못된 배포를 롤백하고, 페일오버하거나, 피처 플래그를 조정한다.

… 그리고 이후 커뮤니케이션, 조사, 종료 단계까지 같은 식으로 이어집니다.

이 문서들은 길 필요가 없습니다. 각 단계별로 3–5개의 불릿 포인트만 있어도 사람들을 충분히 중심에 잡아 둘 수 있습니다.

아날로그 컴퍼스는 이 프로세스에 대한 시각적 인덱스 역할을 하고, 세부 내용은 디지털 문서가 책임집니다.


나만의 종이 인시던트 컴퍼스 만들기

실제로 만들어 보는 간단한 가이드입니다.

  1. 내용부터 초안 작성하기

    • 역할, 심각도 레벨, if-then 트리아지 규칙, 인시던트 스토리의 5–7개 핵심 단계를 정의합니다.
  2. 간단한 도구로 다이얼 디자인하기

    • 슬라이드 도구, 드로잉 앱, 도형 편집이 가능한 워드 프로세서를 사용합니다.
    • 바깥 링: 요일/주 + 온콜 슬롯.
    • 안쪽 링: 인시던트 단계 + 짧은 라벨.
  3. 출력, 오려내기, 조립하기

    • 두 개의 링을 모두 조금 두꺼운 종이에 출력합니다.
    • 안쪽 원판을 잘라서 바깥 원판 위에서 회전할 수 있게 합니다.
    • 중심에 제도용 브래드(brad)나 압정, 핀 등을 사용해 고정합니다.
  4. 실제 인시던트를 운영하는 장소에 두기

    • 팀이 모이는 공간, NOC, 온콜 엔지니어가 앉아 있는 자리 근처에 둡니다.
    • 실시간 인시던트에 메모할 수 있도록 마커나 포스트잇을 옆에 두세요.
  5. 팀에게 사용법 교육하기

    • 테이블탑 연습을 진행합니다. 가상의 인시던트를 설정하고, 다이얼을 돌려 가며 각 단계를 따라가 봅니다.
    • 헷갈리거나 빠져 있는 부분이 있다면 그걸 기반으로 개선합니다.

마무리: 폭풍 한가운데 있는 차분한 포인터

인시던트는 언제나 스트레스가 따르겠지만, 그렇다고 항상 혼란스러울 필요는 없습니다.

다음과 같은 준비를 해 두면:

  • 역할, 책임, 정책을 미리 정의하고
  • 단순한 회전 컴퍼스로 온콜 로테이션을 시각화하고
  • 아날로그 다이얼디지털 시스템을 결합하며
  • 비즈니스 임팩트에 기반한 if-then 트리아지 규칙을 사용하고
  • 스프레드시트와 짧은 런북처럼 단순한 도구로 시작한다면

… 여러분의 팀은 항상 **다음 최선의 조치(next best fix)**를 가리키는 조용한 포인터를 갖게 됩니다.

아날로그 인시던트 스토리 컴퍼스는 보기에는 단순합니다. 핀 하나에 꽂힌 종이 조각일 뿐이니까요. 하지만 장애 한가운데에서 이 손에 잡히는 회전 가이드는, 우왕좌왕하는 반응과 침착하고 자신감 있는 대응을 가르는 차이가 될 수 있습니다.

지금 여러분의 인시던트 프로세스가 사람들 머릿속과 여기저기 흩어진 문서에만 있다면, 아주 작게 시작해 보세요. 단계를 정의하고, 바퀴를 스케치해서 벽에 붙이는 것부터요. 그다음에는, 다가오는 다음 인시던트가 여러분에게 무엇을 더 스토리에 추가해야 하는지 알려 줄 것입니다.

아날로그 인시던트 스토리 컴퍼스: 조용히 ‘다음 최선의 조치’를 가리켜 주는 회전 종이 다이얼 | Rain Lag