Rain Lag

아날로그 인시던트 컴퍼스 로즈: 장애 한가운데서 팀을 다시 움직이게 만드는 종이 기반 내비게이션 스케치

종이로 그린 단순한 “컴퍼스 로즈”와 아날로그 내비게이션 도구가, 중대 장애 도중 디지털 도구가 먹통이 되었을 때 어떻게 상황 인식을 복구하고, 의사결정 마비를 뚫고, 인시던트 대응을 계속 전진시키는지 살펴봅니다.

소개

현대적인 인시던트 대응은 대시보드, 런북, 메시징 도구, 풍부한 Observability 위에 구축되어 있습니다. 하지만 바로 그 도구들이 가장 필요한 대규모 장애 시점에 느려지거나, 불안정해지거나, 아예 사용할 수 없게 되는 일이 벌어집니다.

그 순간 팀들은 숨겨져 있던 약점을 마주하게 됩니다.

  • 갑자기 사라진 디지털 콘텍스트에 과도하게 의존하고 있었다는 점
  • 고위험·대규모 인시던트를 현실적인 조건에서 연습해 본 적이 거의 없다는 점
  • 분석 루프나 산만한 대화에 갇혀, 자신 있는 실행 대신 제자리걸음을 한다는 점

이럴 때 의외로 강력해지는 게 있습니다. 바로 아날로그 내비게이션 도구입니다. 그중에서도 종이나 화이트보드에 빠르게 그려보는 단순한 **“인시던트 컴퍼스 로즈(incident compass rose)”**는, 장애의 지도를 작고 공유 가능한 형태로 압축해 팀이 상황 인식을 되찾고 다시 앞으로 나아가도록 돕는 도구가 될 수 있습니다.

이 글에서는 아날로그 도구가 여전히 중요한 이유, 의사결정 마비가 인시던트 대응을 어떻게 망가뜨리는지, 그리고 명확한 플레이북과 프레임워크를 뒷받침으로 한 구조화된 "컴퍼스 로즈" 스케치가 장애 한가운데서 팀의 발목을 어떻게 풀어주는지 살펴봅니다.


왜 대형 인시던트에서 상황 인식이 무너지는가

효과적인 인시던트 대응은 상황 인식(situational awareness) 에 달려 있습니다. 지금 무엇이 어디에서 일어나고 있고, 이 순간 무엇이 중요한지에 대한 공유된 이해입니다.

복잡하고, 고위험이며, 대규모인 인시던트에서는 이 상황 인식이 끊임없이 공격받습니다.

  • 시스템이 비대칭적으로 실패합니다. 한 리전의 모니터링은 죽었는데 다른 리전은 멀쩡하게 그린 상태를 유지하고, 어떤 로그는 늦게 도착하고 다른 로그는 쏟아집니다.
  • 정보가 조각나 있습니다. 어떤 엔지니어는 메트릭을, 다른 사람은 고객 티켓을, 또 다른 사람은 인프라 알림만 봅니다.
  • 인지 부하가 폭발합니다. 알림, 채팅 스레드, 온콜 교대, 고객 커뮤니케이션 등을 동시에 처리해야 합니다.

평소에는 디지털 도구들이 이 조각들을 꿰어 맞추는 역할을 합니다. 하지만 그 도구들이 망가지면, 팀은 사실상 지도를 잃어버린 것과 같습니다.

공유된 지도가 사라지면 다음과 같은 전형적인 실패 패턴이 나타납니다.

  • 같은 점검을 여러 사람이 반복 수행
  • 서로 엇갈리는 방향으로 일하거나, 영향이 작은 부분에 리소스를 소진
  • 혼란스럽거나 모순된 상태 업데이트

가벼운 아날로그 "내비게이션 도구"는 이런 상황에서 지도를 다시 만들고 공유하는 백업 수단이 됩니다.


왜 기존 훈련으로는 팀이 충분히 단련되지 않는가

대부분의 조직은 어느 정도 인시던트 훈련을 합니다. 테이블탑 연습, 포스트모텀 리뷰, 가끔은 게임데이도 합니다.

문제는 이 연습들이 대개 다음과 같다는 점입니다.

  • 너무 깔끔합니다. 시나리오가 지나치게 선형적이고, 로그는 완벽하며, 진짜로 예측 불가능한 일은 거의 일어나지 않습니다.
  • 규모가 너무 작습니다. 하나의 서비스나 미시적인 장애에만 집중하고, 여러 시스템이 한꺼번에 무너지는 대규모 장애를 다루지 않습니다.
  • 사회적으로 너무 안전합니다. 실제와 비슷한 압박감이 없어서, 사람들이 진짜 장애에서 겪게 될 심리적 스트레스와 모호함을 마주하지 않습니다.

그 결과, 팀은 인시던트 대응의 가장 지저분한 부분—시스템·도구·가정이 동시에 흔들리는 불확실성 속 운영—에 대해 충분히 연습되지 않은 상태가 됩니다.

현실적인 연습에는 다음 요소들이 포함되어야 합니다.

  • 모니터링 공백 또는 오도하는 대시보드 시뮬레이션
  • 주요 커뮤니케이션 채널의 장애 또는 과부하(예: 메인 채팅 다운, 폰/무전기 같은 우회 채널 사용)
  • 명시적인 시간 압박과 비즈니스 임팩트 부여

종이 컴퍼스 로즈 같은 아날로그 도구는 이런 현실적인 드릴에서 특히 가치가 큽니다. 팀이 머릿속 모델을 바깥으로 꺼내어, 디지털 시스템이 망가져도 통하는 방식으로 공유하게 만들기 때문입니다.


아날로그 인시던트 컴퍼스 로즈란 무엇인가

항해에서의 컴퍼스 로즈(compass rose) 를 떠올려 보세요. 방향과 방위를 단순한 도형으로 표현한 다이어그램입니다. 인시던트 버전은, 장애 동안 팀의 방향을 잡아주는 단일 중앙 스케치입니다.

화이트보드나 종이 위에 원이나 사각형을 그리고, 운영에 중요한 "축"을 나누어 라벨을 붙입니다. 예를 들면:

  • 남–북: 코어 인프라 → 애플리케이션 레이어
  • 동–서: 내부 시스템 → 고객 facing 시스템
  • 중앙: 인시던트의 알려진 진앙지 (예: "US‑East 데이터 플레인 지연")

그 주위에 다음과 같은 내용을 주석으로 적어 나갑니다.

  • 확인된 장애와 이상 징후
  • 추정되는 블라스트 레디우스(blast radius, 영향 범위)
  • 핵심 의존성과 병목 지점
  • 각 영역을 현재 조사 중인 오너 / 팀

이 스케치는 곧 아날로그 내비게이션 차트가 됩니다. 이것 하나만으로도:

  • 문제가 어디에 있는지에 대한 팀의 인식을 정렬시키고
  • 무엇을 누가 조사 중인지를 한눈에 보여주며
  • 아무도 보지 않는 빈 구역을 드러냅니다.

기술적으로 단순하지만, 전쟁터의 안개를 걷어내는 데 매우 강력합니다.


장애 도중에 컴퍼스 로즈를 스케치하는 방법

완벽한 템플릿이 필요하지 않습니다. 빠르고, 읽기 쉽고, 모두가 공유할 수 있으면 됩니다. 다음과 같은 간단한 패턴을 사용할 수 있습니다.

  1. 환경에 맞는 축을 그립니다.
    흔한 예시는 다음과 같습니다.

    • 인프라 ↔ 앱
    • 내부 ↔ 외부 (고객 facing)
    • 컨트롤 플레인 ↔ 데이터 플레인
    • 리전 A ↔ 리전 B
  2. 에피센터(진앙지)를 표시합니다.
    중앙에 1차 증상을 적습니다. 예: "EU 체크아웃 5xx 스파이크", "US‑East 인증 지연".

  3. 정상/장애/미지 영역을 표시합니다.

    • 확실히 깨진 컴포넌트는 빨간색
    • 확실히 정상인 컴포넌트는 초록색
    • 상태가 불확실하거나 의심스러운 부분은 노랑 또는 물음표
  4. 쿼드런트(분면) 할당을 합니다.
    각 쿼드런트 혹은 세그먼트에 해당 영역을 담당하는 팀/역할을 라벨링합니다. 예: "SRE – 네트워크 엣지", "Payments – 다운스트림 API", "DB 팀 – 프라이머리 클러스터".

  5. 타임스탬프가 있는 메모를 추가합니다.
    주요 표시 옆에는 짧은 시간 표시 메모를 남깁니다. 예: "13:07 – 기능 플래그 X 비활성화", "13:11 – 롤백 시작".

  6. 모두가 볼 수 있게 유지합니다.

    • 대면 상황: 워룸 중앙의 화이트보드
    • 원격 상황: 카메라를 화이트보드에 고정하거나, 5–10분 간격으로 사진을 공유

이 정도의 단순한 스케치만으로도, 대시보드나 복잡한 도구에 의존하지 않는 **“우리는 어디에 와 있고, 다음은 무엇인가?”**라는 공통 아티팩트를 만들어 줍니다.


의사결정 마비: 왜 위기일수록 팀이 멈춰 서는가

고위험 장애에서는 의사결정 마비가 매우 흔하게—그리고 예측 가능하게—발생합니다. 여러 심리적 요인이 한꺼번에 작용합니다.

  • 상황을 더 나쁘게 만들까 두려움. 시니어 엔지니어조차 페일오버, 롤백, 트래픽 드롭 같은 강한 조치를 취하기를 주저합니다. 실패 시 리스크가 너무 크게 느껴지기 때문입니다.
  • 정보 편향(information bias). 사람들은 행동에 나서기 전에 "데이터 한 조각만 더"를 찾으려 하지만, 그 추가 정보가 실질적인 가치를 거의 더하지 않는 경우가 많습니다.
  • 책임 분산(diffusion of responsibility). 콜에 전문가가 많을수록, 실제로 힘든 결정을 책임지고 내리려는 사람은 줄어듭니다.
  • 지위/평판에 대한 우려. 자신의 결정이 잘못될 경우 비난받거나, 무능해 보일까 걱정합니다.

이 마비 상태를 방치하면 리스크는 기하급수적으로 커집니다.

  • 팀이 논쟁하는 사이 고객 영향은 점점 커지고
  • 알림 피로(alert fatigue)와 인지 과부하는 더 심해지며
  • 낮은 수익의 분석 작업에 소중한 시간을 쏟게 됩니다.

불확실성을 완전히 없앨 수는 없지만, 시스템과 프로세스를 설계하는 방식을 통해 압박 속에서도 의사결정이 일어나도록 만들 수 있습니다.


구조와 플레이북으로 의사결정 마비를 뚫는 방법

잘 설계된 플레이북(playbook)응답 프레임워크(response framework) 는 의사결정 마비의 해독제입니다. 판단력을 없애지는 않지만, 문제의 범위를 줄여서 앞으로 나아갈 수 있게 만들어 줍니다.

핵심 레버는 다음과 같습니다.

1. 사전에 정의된 플레이북

플레이북에는 다음이 명확히 적혀 있어야 합니다.

  • 인시던트 역할: 인시던트 커맨더(Incident Commander), 운영 리드, 커뮤니케이션 리드, SME(Subject-Matter Expert)
  • 에스컬레이션 경로: 언제, 어떻게 추가 팀이나 리더십을 호출할지
  • 디폴트 액션: 리전 장애, 인증 성능 저하, 데이터 손상 위험 등 흔한 패턴에 대한 기본 조치

목표는 많은 결정을 애드혹이 아니라 절차화하여, 위기 한복판에서 프로세스를 새로 발명하지 않도록 하는 것입니다.

2. 체크리스트

체크리스트는 복잡하고 모호한 작업을 작고 이진적인 단계의 연속으로 바꿉니다.

  • "모든 리전에 대해 스코프 확인 완료? (Y/N)"
  • "데이터 무결성 리스크 평가 완료? (Y/N)"
  • "안전한 롤백 시도 완료? (Y/N)"

이런 리스트는 기본적인 것을 빠짐없이 점검하도록 돕고, *"이 정도면 충분히 확인했다, 이제 행동할 때다"*라고 말하기 쉽게 만듭니다.

3. 역할 명확화

명확한 역할 정의는 책임 분산을 막습니다.

  • 인시던트 커맨더(IC): 기술적 디테일이 아니라 우선순위와 최종 의사결정을 책임짐
  • 스크라이브 / 기록 담당: 로그를 남기고 컴퍼스 로즈를 업데이트
  • 테크 리드 / SME: 옵션을 제시하고 트레이드오프를 드러냄

이 구조가 갖춰지면, 아날로그 컴퍼스 로즈에는 명확한 오너가 생깁니다. 지도를 최신 상태로 유지하고, 이를 토대로 방향을 잡는 역할입니다.

4. 타임박싱과 에스컬레이션 규칙

타임박싱은 분석 루프를 끊는 데 필수입니다.

  • "10분 동안 조사해보고, 명확한 원인이 없으면 리전 B로 페일오버한다."
  • "응답 시간이 X 이상 상태가 5분 지속되면, 성능은 떨어지더라도 안전한 디그레이드 모드로 전환한다."

이런 사전 합의된 임계값은, 원래는 어려운 결정을 어느 정도 자동 트리거 수준으로 바꿔 줍니다. 그래서 개개인이 그 순간 모든 심리적 부담을 홀로 짊어지지 않아도 됩니다.


컴퍼스 로즈와 기존 프레임워크를 결합하기

컴퍼스 로즈는 표준 플레이북 안에 녹아들 때 가장 강력합니다. 일회성 신기술이 아니라 프로세스의 일부여야 합니다.

예를 들어 다음과 같이 절차를 정의할 수 있습니다.

  • 1단계: 중대 인시던트가 선언된 지 5분 이내에, 인시던트 커맨더는 스크라이브를 지정한다.
  • 2단계: 스크라이브는 참여자들로부터 초기 입력을 받아 아날로그 컴퍼스 로즈를 만든다.
  • 3단계: 10–15분마다 IC는 지도를 소리 내어 리뷰한다.
    • 무엇이 확실히 깨졌는가?
    • 무엇이 의심 상태인가?
    • 어디가 아직 미조사 영역인가?
  • 4단계: 지도에서 드러난 빈 구역을 기반으로 새로운 작업을 할당하고, 페일오버·트래픽 셰이딩 같은 결정을 정당화한다.

이 지도는 다음을 고정해 주는 공유 운영 그림(shared operating picture) 이 됩니다.

  • 체크리스트: "이 세 개 쿼드런트는 이미 검증했고, 아직 의심 가는 곳은 여기뿐이다."
  • 역할 할당: "인프라 팀은 북쪽, 앱 팀은 남쪽을 담당."
  • 타임박스 의사결정: "지도에 10분 동안 새로운 정보가 추가되지 않았다. 다음 단계의 완화 조치를 에스컬레이트한다."

결론

풍부한 텔레메트리와 강력한 디지털 도구가 흔한 시대에는, 진짜 장애 한가운데서 그 도구들이 얼마나 취약해질 수 있는지를 종종 잊습니다. 대시보드가 오작동하고, 채팅이 버벅이고, 모니터링이 부분적으로만 보이는 순간—백업 내비게이션 수단이 없는 팀은 방향 감각을 잃고 멈춰 섭니다.

단순한 아날로그 인시던트 컴퍼스 로즈—종이나 화이트보드 위의 스케치 하나—는 무엇보다 중요한 것을 되찾아 줍니다. 바로 인시던트의 공간적·운영적 콘텍스트에 대한 공유된 시각적 이해입니다. 여기에 명확한 플레이북, 체크리스트, 역할 정의, 타임박싱된 에스컬레이션 규칙을 더하면 다음을 가능하게 합니다.

  • 상황 인식을 빠르게 복구하고
  • 의사결정 마비와 과도한 분석을 완화하며
  • 구조적이고 책임 있는 방식으로 대응을 계속 전진시킵니다.

정말로 "장애에 강한" 팀을 만들고 싶다면, 더 나은 대시보드에만 투자해서는 충분하지 않습니다. 대시보드를 잃어버리는 연습을 해야 합니다. 디지털 콘텍스트가 축소된 상황을 일부러 만들고, 팀이 실시간으로 아날로그 컴퍼스 로즈를 그리며 업데이트하도록 요구하는 드릴을 돌려 보세요. 그러면 훈련, 프로세스, 문화의 빈틈이 드러날 것이고, 동시에 다음 진짜 폭풍 속을 헤쳐 나갈 강력하고 로우테크한 도구를 팀에 쥐여 줄 수 있을 것입니다.

아날로그 인시던트 컴퍼스 로즈: 장애 한가운데서 팀을 다시 움직이게 만드는 종이 기반 내비게이션 스케치 | Rain Lag