Rain Lag

아날로그 인시던트 스토리 트레인야드 별관: 종이로 만드는 온콜 우선순위 ‘조차장’ 시스템

물리적인 종이 기반 ‘트레인야드’ 시스템으로 온콜 인시던트를 트리아지하고, 인지 부하를 관리하며, 경쟁하는 우선순위를 눈에 잘 보이고 다루기 쉽게 만드는 방법을 다룹니다.

아날로그 인시던트 스토리 트레인야드 별관: 경쟁하는 온콜 우선순위를 위한 종이 조차장 만들기

온콜을 서고 있으면, 마치 시끄러운 철도 분기점 한가운데 서 있는 기분이 들 때가 많습니다.

알림은 사방에서 쏟아지고, 이해관계자들은 제각각 다른 트랙으로 당신을 끌고 갑니다. 프로덕트 팀은 이걸 해달라고 하고, 보안 팀은 저걸 요구하고, 운영 팀은 또 전혀 다른 문제로 소리를 지릅니다. 당신의 뇌는 들어오는 요청들을 각자 맞는 선로로 ‘조차(shunt)’하려고 애쓰지만, 한창 정신없는 순간에는 그 머릿속 모델이 그대로 무너져 버립니다.

디지털 도구들이 분명 도움이 되지만, 압박이 극도로 높아지는 순간에는 최고의 대시보드조차 또 하나의 ‘해석해야 할 화면’이 되어 버립니다.

그래서 등장하는 것이 바로 아날로그 인시던트 스토리 트레인야드입니다. 경쟁하는 온콜 우선순위를 물리적이고 시각적으로, 그리고 사고하기 쉽게 만들어 주는 종이 기반 조차장(paper shunting yard) 이죠.

이 글에서는 종이로 된 트레인야드 별관을 직접 만들어 보는 과정을 통해, 다음을 다뤄 보겠습니다.

  • 추상적인 업무 수요를 구체적인 카드로 바꾸기
  • 트리아지(triage) 사고를 활용해 우선순위를 구조화하기
  • 판단이 애매할 때 간단한 의사결정 트리를 적용하기
  • 압박 속에서 인지 부하를 의도적으로 관리하기
  • 응급 트리아지와 린(Lean) 생산 방식에서 패턴을 차용하기

다 디지털인데, 왜 아날로그를 쓰나요?

요즘 인시던트 관리 스택은 매우 강력합니다. 페이징 시스템, 티켓 큐, 채팅 연동, 대시보드, e-칸반 보드까지. 하지만 진짜 병목은 결국 당신 뇌의 대역폭입니다.

물리적인 시스템이 도움이 되는 이유는 다음과 같습니다.

  • 일이 눈에 보입니다 – 필터나 탭 뒤가 아니라, 한눈에 ‘조차장’을 볼 수 있습니다.
  • 기억을 바깥으로 꺼냅니다(Externalize) – 카드와 레인(트랙)이 컨텍스트를 잡아주기 때문에, 두뇌가 전부 기억할 필요가 없습니다.
  • 모드 전환이 줄어듭니다 – 브라우저 창과 여러 툴 사이를 왔다 갔다 하지 않아도 됩니다.
  • 협업을 초대합니다 – 같은 공간에 있는 사람이라면 모두 같은 카드를 손가락으로 가리키며 이야기할 수 있습니다.

린 제조는 이걸 수십 년 전부터 알고 있었습니다. 정교한 전자 신호 시스템(e‑kanban 등)이 있어도, 실물 칸반 카드(physical kanban cards) 는 여전히 실시간 시각화와 조율에 아주 효과적입니다.

아날로그 트레인야드는 티켓 시스템이나 알림 시스템을 대체하지 않습니다. 대신 별관(annex) 처럼 동작합니다. 특히 가장 중요한 순간에, 뇌가 쓸 수 있는 빠르고 촉감 있는 저마찰의 ‘제어 패널’ 역할을 합니다.


트레인야드 비유: 경쟁하는 우선순위를 조차하기

작은 철도 조차장을 떠올려 보세요.

  • 열차(인시던트, 요청, 알림)는 여러 방향에서 도착합니다.
  • 신호 담당자는 각 열차를 어느 선로로 보낼지 결정해야 합니다.
  • 어떤 선로는 긴급 통과용, 어떤 선로는 저우선순위 대기용입니다.
  • 제약이 있습니다. 선로는 한정되어 있고, 분기기(switch)도, 시간도 제한되어 있죠.

당신의 온콜 세계가 바로 그 조차장입니다.

  • 카드는 하나의 열차(인시던트나 태스크)입니다.
  • 보드 위의 각 레인(트랙) 은 의미가 정의된 하나의 선로입니다.
  • 정보가 업데이트되거나 우선순위가 바뀔 때마다 카드를 다른 선로로 조차(shunt) 합니다.

이렇게 혼돈을 물리적인 공간에 매핑하면, 공통의 언어가 생깁니다.

“Critical 트랙에 열차가 세 대 있고, Dependencies에서 막힌 게 하나, Observation에 두 개 대기 중이에요.”

이는 다음과 같이 말하는 것보다 훨씬 처리하기 쉽습니다.

“어, Sev‑2가 한 네 개 있고, 팔로업 몇 개랑, 보안 쪽에서 온 이상한 거 하나 있어요.”


1단계: 물리적인 트레인야드 만들기

거창한 게 필요 없습니다. 다음 정도면 시작하기 충분합니다.

  • 화이트보드나 큰 종이
  • 포스트잇이나 인덱스 카드
  • 마커
  • 테이프(레인을 고정된 경계로 쓰고 싶다면)

가로 방향으로 트랙(레인) 을 몇 줄 그립니다. 그리고 단순한 심각도 숫자가 아니라, 행동을 유도하는 이름으로 레이블을 붙입니다. 예를 들어:

  1. 트랙 A – 출혈 멈추기 (Critical / 프로덕션 영향)
  2. 트랙 B – 차단 및 안정화 (High)
  3. 트랙 C – 연기 & 모니터링 (Medium/Low)
  4. 트랙 D – 안정화 후 조사 (Follow-up / 기술 부채)
  5. 트랙 E – 타 팀 대기 (Blocked / Dependency)

이 단순한 레이아웃에는 트리아지 스타일의 사고 모델이 들어 있습니다. 첫 번째 의무는 출혈을 멈추는 것, 그 다음은 피해 확산을 막는 것, 그리고 그 후에야 모니터링·정리·장기적인 수정을 다룬다는 식입니다.

또한 한쪽에 Inbound / Unsorted 같은 작은 영역을 만들어 둘 수 있습니다. 새로 들어오는 것들이 잠깐 머무는 인입 버퍼 영역입니다.


2단계: 추상적인 일을 구체적인 카드로 바꾸기

무언가가 당신의 주의를 요구할 때마다 카드 하나를 만듭니다. 가볍게 적되, 다음 정도만 넣어도 충분합니다.

  • 짧은 제목 ("Checkout 500 오류", "Security: 로그인 이상 급증" 등)
  • 소스 (PagerDuty, 고객 지원, Slack, 고객 직접 요청 등)
  • 타임스탬프
  • 선택 사항: 현재 심각도, 담당자 이니셜

나중에 컨텍스트를 떠올리기에 필요한 최소한만 적으세요. 목표는 완벽한 문서화가 아니라 속도와 가시성입니다.

현재 신경 쓰는 것이라면, 전부 카드가 있어야 합니다. 머릿속에 계속 남아 있을 정도로 중요한 것이라면, 조차장 안에 열차(카드)로 존재할 가치가 있다는 뜻입니다.

이 단계만으로도 인지 과부하가 적나라하게 드러납니다.

“세 가지 이슈만 처리 중인 줄 알았는데, 보드를 보니 여덟 개네요.”

시스템이 과부하처럼 보인다면, 실제로 당신도 과부하 상태인 겁니다.


3단계: 트리아지 스타일 사고 적용하기

응급의학에서 트리아지 시스템은 환자를 소수의 카테고리(예: 즉시 치료, 지연 가능, 경미, 기대 낮음 등)로 나눕니다. 목표는 완벽한 분류가 아니라, 불확실한 상황에서 구조화된 의사결정을 하는 것입니다.

인시던트에도 같은 방식을 적용할 수 있습니다. 간결한 우선순위 레벨과 간단한 기준을 정해 둡니다. 예를 들어:

  • P1 – 즉시 대응: 현재 고객 영향, 매출 위협, 안전/보안 위협이 있는 경우
  • P2 – 높음: 유의미한 성능 저하, 놔두면 P1으로 격상될 상황
  • P3 – 보통: 국지적이거나 경미한 영향, P1/P2가 안정될 때까지 기다려도 되는 경우
  • P4 – 연기 가능: 현재 영향 없음, 팔로업·정리·개선 작업

새 카드가 Inbound에 나타나면 빠르게 분류합니다.

  • P1인가요? → 출혈 멈추기 트랙으로 이동
  • P2인가요? → 차단 및 안정화 트랙으로 이동
  • P3/P4인가요? → 연기 & 모니터링 또는 안정화 후 조사 트랙으로 이동

핵심은 속도와 일관성이지, 완벽한 합의가 아닙니다. 정보가 더 들어오면 언제든 재분류할 수 있습니다.


4단계: 인지 부하를 줄이는 가벼운 의사결정 트리

트리아지를 해도 애매한 판단이 남기 마련입니다. 간단한 예/아니오(yes/no) 의사결정 트리를 사용하면, 이런 순간을 매번 즉흥적인 논쟁이 아닌 반복 가능한 단계로 바꿀 수 있습니다.

예시 인시던트 인입 의사결정 플로우:

  1. 지금 이슈가 고객에게 영향을 주고 있나요?
    • 예 → P1 또는 P2. 2번 질문으로.
    • 아니오 → P3 또는 P4. 4번 질문으로.
  2. 영향 범위가 넓거나 매출에 직접적인 영향을 주나요?
    • 예 → P1 (Critical), 트랙 A.
    • 아니오 → P2 (High), 트랙 B.
  3. 알려진 우회 방법(workaround)이 있나요?
    • 예 → 차단 및 안정화(트랙 B)로 보내고, 우회 방법을 커뮤니케이션합니다.
    • 아니오 → 출혈 멈추기(트랙 A)로 보내고, 완화(mitigation)에 집중합니다.
  4. 시간에 민감한 이슈인가요? (예: 컴플라이언스 마감, 취약점 등)
    • 예 → 심각도에 따라 P2 또는 P3.
    • 아니오 → P3/P4로 두고 나중에 일정에 넣습니다.

이 트리를 인쇄해 보드 옆에 붙여 두세요. 새로운 일이 들어오면, 트리를 따라 내려가면 됩니다.

“이게 어느 정도로 심각하지?”라고 막연히 고민하는 대신, 빠르고 공통된, 설명 가능한 프로세스로 바뀝니다.


5단계: 뇌를 보호하는 ‘내장된 제약 조건’ 만들기

트레인야드는 과부하를 막는 제약 조건(constraints) 을 함께 설계할 때 가장 잘 동작합니다.

간단한 규칙 예시:

  • WIP 제한(Work In Progress Limits): 각 트랙에 둘 수 있는 카드 수를 제한합니다.
    • 예: 트랙 A는 1장까지만, 트랙 B는 3장까지만. 이미 꽉 찼다면, 새 카드를 들이기 전에 기존 카드 하나를 반드시 다른 곳으로 옮겨야 합니다.
  • 싱글 포커스 플래그: 자석, 스티커, 점 등으로 현재 집중 중인 카드를 표시합니다. 한 사람당 ‘현재 포커스’는 하나를 넘지 않게 합니다.
  • 타임 박스: 각 카드에 “10:15 재평가”처럼 시간을 적습니다. 시간이 되면 계속 유지할지, 우선순위를 내릴지, 대기 상태로 옮길지 다시 평가합니다.

이런 제약들은 관료주의가 아니라 인지적 안전장치입니다. "지금은 더 이상 일을 늘리면 안 되는데"를 머릿속으로만 기억해 두는 대신, 보드가 한눈에 한계를 보여 주도록 만드는 겁니다.


6단계: 디지털 도구를 대체하지 말고, 함께 쓰기

아날로그 트레인야드는 티켓 시스템과 1:1로 완전히 동기화할 필요가 없습니다. 이것은 ‘작업용 모델’ 일 뿐, 감사·컴플라이언스를 위한 공식 산출물이 아닙니다.

실용적인 연동 패턴:

  • 카드 1장 = 주요 티켓/인시던트 ID 1개. 카드에 ID를 크게 적어 둡니다.
  • 디지털 시스템은 여전히 단일 소스 오브 레코드(source of record) 입니다. 포스트모템, 타임라인, 메트릭은 거기에 남깁니다.
  • 보드는 온콜 근무나 인시던트 브리지 동안의 ‘조율 공간’ 으로 사용합니다.
  • 한가한 시간에는 동기화 작업을 합니다. 해결된 카드를 닫고, 티켓에 필요한 메모를 추가하고, 장기 작업은 기존 백로그로 옮기는 식입니다.

고급 e‑칸반이나 인시던트 툴이 있어도, 물리적인 칸반/조차장이 특히 유용한 상황이 있습니다.

  • 상황실(situation room)이나 워룸(war room)
  • 온콜 로테이션 핸드오프 시점
  • 온콜 업무 흐름을 처음 배우는 신규 팀원 온보딩

다른 도메인에서 가져온 패턴들

이 시스템은 무(無)에서 새로 발명하는 것이 아니라, 이미 검증된 패턴을 온콜 현실에 맞게 재조합하는 것입니다.

응급 트리아지에서 가져온 것:

  • 소수의, 명확한 우선순위 레벨
  • 단순한 규칙을 활용한 빠른 의사결정
  • “먼저 사람을 죽게 만드는 것부터 치료한다”는 원칙

린 제조(Lean Manufacturing)칸반(Kanban) 에서 가져온 것:

  • 진행 중인 일(work-in-progress)의 시각적 관리
  • 명시적인 WIP 제한을 둔 풀(Pull) 방식의 흐름
  • 디지털 시스템이 있어도 유지되는 물리적 신호 카드

체크리스트 문화(항공, 의료) 에서 가져온 것:

  • 반복되는 상황에 대한 표준 운영 절차(SOP)
  • 스트레스 상황에서 빠뜨리지 않기 위한 체크리스트
  • 인수인계와 승인 과정을 위한 반복 가능한 플로우

아날로그 트레인야드는 이 셋을 합친 하이브리드입니다. 온콜 상황에 최적화된 시각적 트리아지 보드라고 할 수 있습니다.


트레인야드로 온콜 근무 한 타임 운영하기

일반적인 온콜 블록이 어떻게 흘러갈지 예를 들어 보겠습니다.

  1. 근무 시작 시점

    • 기존 카드와 각 트랙을 함께 리뷰합니다.
    • 해결된 항목은 닫거나 아카이브합니다.
    • 팀과 함께 WIP 제한과 기본 규칙을 다시 확인합니다.
  2. 근무 중

    • 새로운 알림/요청이 들어오면: 카드를 만들고, 의사결정 트리를 따라 분류한 뒤, 적절한 트랙에 올려둡니다.
    • “지금 내가 실제로 동시에 처리 중인 것”의 단일 소스로 보드를 활용합니다.
    • 상황 변화에 따라 카드를 옮깁니다: Critical → 안정화(Contain & Stabilize) → 조사 또는 Done.
  3. 커뮤니케이션

    • 누군가 “지금 뭘 처리 중이야?”라고 물으면, 보드를 보며 하나씩 설명합니다.
    • 눈에 보이는 우선순위를 근거로, 왜 어떤 건 지금 못 하는지(“지금은 어렵습니다”) 설득력 있게 설명할 수 있습니다.
  4. 근무 종료 / 핸드오프

    • 다음 온콜 담당자에게 트랙별로 카드를 하나씩 짚어 가며 설명합니다.
    • 디지털 시스템에 빠진 컨텍스트가 있다면 보충합니다.
    • 보드를 사진으로 찍어 두어, 나중에 회고(post‑mortem) 때 참고할 수 있는 아티팩트로 남깁니다.

이렇게 하면 트레인야드는 단순한 시각 보조 도구를 넘어, 온콜 내러티브의 골격 역할을 하게 됩니다.


결론: 보이지 않는 것을 보이게 만들고, 그다음 관리하라

온콜이 어려운 이유는 시스템이 복잡해서만이 아니라, 인간의 인지 능력이 제한적이기 때문입니다. 모든 것이 동시에 주의를 요구하는 순간, 병목은 결국 사람의 머릿속에서 생깁니다.

종이 기반 인시던트 스토리 트레인야드 별관은 다음을 가능하게 합니다.

  • 경쟁하는 우선순위를 물리적이고 시각적으로 드러내기
  • 트리아지 스타일 사고로 의사결정을 구조화하기
  • 가벼운 의사결정 트리로 애매한 판단을 줄이기
  • 칸반 스타일 시각화와 WIP 제한으로 인지 부하를 관리하기
  • 응급 트리아지와 린 생산 방식에서 검증된 패턴을 차용하기

시작하는 데 특별한 도구는 필요 없습니다. 보드 하나, 테이프 조금, 카드 몇 장이면 충분합니다.

당신만의 조차장을 만드세요. 트랙에 이름을 붙이고, 트리아지 규칙을 정의하세요. 다음에 알림 폭풍이 몰아칠 때, 머릿속에서 보이지 않는 열차들을 저글링하지 않아도 될 겁니다. 대신 신호가 잘 정리된, 한눈에 보이는 종이 조차장을 운영하게 될 것이고, 그것은 높은 압박 속에서 인간의 뇌가 실제로 작동하는 방식에 딱 맞춰진 시스템이 되어 줄 것입니다.

아날로그 인시던트 스토리 트레인야드 별관: 종이로 만드는 온콜 우선순위 ‘조차장’ 시스템 | Rain Lag