Rain Lag

아날로그 인시던트 지도 제작자의 책상: 도구가 너무 많은 시대의 손그림 신뢰성 맵

복잡한 장애 상황에서 손으로 신뢰성 맵을 그리는 것이 시스템의 실제 동작을 드러내고, 공감대를 강화하며, 자동화 도구를 ‘덜’이 아니라 ‘더’ 유용하게 만드는 이유를 다룹니다.

아날로그 인시던트 지도 제작자의 책상: 도구가 너무 많은 시대의 손그림 신뢰성 맵

현대 인시던트 대응 환경은 온통 도구로 가득합니다. 대시보드, 트레이스, 로그, 토폴로지 그래프, AI 기반 런북까지. 그런데 정말 난잡한 장애가 터졌을 때, 숙련된 대응자들이 가장 먼저 집어 드는 건 의외로 이런 로우테크 도구입니다.

볼펜 하나.

그리고 빈 종이 한 장.

이건 향수가 아닙니다. 손으로 그리는 "신뢰성 맵(reliability map)"은 도구로는 얻기 어려운 것을 줍니다. 바로 지금 이 인시던트에서 시스템이 실제로 어떻게 동작하고 있는지에 대한 명확하고, 공유 가능한, 인간 중심의 관점입니다. 도구가 너무 많은 걸 알고 있어서 — 데이터가 압도적이거나, 쪼개져 있거나, 오히려 오해를 부를 때 — 아날로그 다이어그램은 인과관계를 다시 세우고, 블라스트 레이디언스를 파악하며, 사람들의 협업을 조율하는 데 도움을 줍니다.

이 글에서는 인시던트 대응자가 왜 다시 아날로그 지도 제작자의 책상을 되찾아야 하는지, 그리고 손으로 그리는 신뢰성 맵이 자동화 도구를 대체하는 대신 어떻게 보완해 주는지 살펴봅니다.


2026년에 굳이 뭔가를 ‘그려야’ 하는 이유

당신의 도구가 말해주는 건 시스템의 이야기이지, 의 이야기가 아니기 때문입니다.

모니터링과 트레이싱 시스템은 코드, 호스트, 네트워크에서 무슨 일이 일어났는지를 보여줍니다. 하지만 이건 보여주지 못합니다.

  • 사람들은 이 시스템이 어떻게 동작한다고 생각하는지
  • 그 정신 모델이 실제와 어디에서 다른지
  • 인시던트 한가운데서 누가 어떤 결정을 맡고 있는지
  • 정보와 책임이 실제로 어떻게 흘러가는지

손으로 그리는 신뢰성 맵은 이 인간적인 레이어를 드러냅니다.

보기 좋지 않을 수도 있습니다. 공식 문서도 아닙니다. 인시던트가 진행되는 동안 실시간으로 변해 가는 작업용 산출물이고, 무엇보다도 팀의 공유된 이해를 그때그때 담아냅니다.


신뢰성 맵 vs. 아키텍처 다이어그램

아키텍처 다이어그램은 아마 이미 있을 겁니다. 보통은 서비스, 데이터베이스, 큐, 프론트엔드 같은 컴포넌트에 초점을 둡니다.

신뢰성 맵은 대신 관계, 흐름, 장애 도메인(failure domain) 을 강조합니다.

종이에 그릴 때는 의도적으로 이런 것에 집중합니다.

  • 블라스트 레이디언스(blast radius): 무엇이 같이 장애 나고, X가 망가져도 무엇이 살아남는가?
  • 의존성(dependency): 누가 누구를 호출하고, 종속 시스템이 완전히 죽지 않고 살짝 성능 저하(degrade)만 되어도 무슨 일이 생기는가?
  • 복구 경로(recovery path): 나머지가 살아나려면 무엇을 먼저 살려야 하는가?

신뢰성 맵은 자주 이런 관점에서 다시 그린 아키텍처 다이어그램처럼 보입니다.

“이 부분이 죽거나 이상 행동을 하면, 무엇이 같이 깨지고 — 우리는 어떻게 빠져나올 수 있지?”

몇 가지 실용적인 팁입니다.

  • 리전, 클러스터, 샤드 같은 주요 장애 도메인별로 영역(zone/박스) 을 그립니다.
  • 단순 연결선이 아니라 화살표로 ‘흐름’을 표현합니다. 데이터 방향, 제어 경로, 백프레셔(backpressure)까지.
  • 화살표 옆에 중요한 불변 조건(invariant) 을 적어 둡니다. 예: "at-least-once", "idempotent", "requires quorum", "eventual consistency" 등.

이런 신뢰성 관점의 아키텍처 뷰가 바로 대응자들이 페일오버를 할지, 롤백을 할지, 기능 디그레이드를 할지, 부분 장애를 그냥 흡수할지를 결정할 때 필요한 정보입니다.


실시간으로 그리기: 지도와 현실이 어긋나는 지점

가장 유용한 아날로그 맵은 사후에 깔끔하게 정리한 예쁜 다이어그램이 아닙니다. 인시던트 진행 중에 그려지는 엉성한 스케치입니다.

실시간으로 스케치를 시작하면 곧바로 이런 것들이 드러납니다.

  • 문서화의 빈틈: “잠깐, 이 서비스를 누가 호출하더라?”
  • 숨은 런타임 동작: 재시도, 폴백, 캐시, 서킷 브레이커.
  • 새로 드러나는 의존성: 모니터링, 피처 플래그, 설정 시스템, CI/CD 같은 메타 서비스.

예를 들어, 종이에 "Payments Service" 박스를 그리고 "Postgres"로 화살표를 그립니다. 그러자 누군가 말합니다. “실제로는 먼저 Redis에 가서 idempotency 체크하고, 그 Redis는 크로스 리전이야.” 그러는 순간 머릿속의 블라스트 레이디언스가 완전히 달라집니다. 인시던트 전략도 따라서 바뀝니다.

이렇게 그림과 실제 시스템이 충돌하는 ‘아하’ 순간이 진짜 보물입니다. 문서화된 아키텍처가 실제 런타임 동작을 가리고 있는 지점이 정확히 어디인지 보여주니까요.

종이 위에 이런 것을 명시적으로 드러내세요.

  • 인시던트 도중에 새로 발견한 컴포넌트나 흐름은 다른 색이나 주석으로 구분합니다.
  • 팀이 잘 모르는 부분은 "?"로 표시합니다. 그 불확실성 자체가 액션 아이템입니다.

시스템만이 아니라 ‘인시던트 대응’ 자체를 그리기

도구들은 서비스와 인프라를 모델링합니다. 신뢰성 맵은 한 걸음 더 나아가 대응 과정 자체를 모델링할 수 있습니다.

종이 위에 인시던트의 엔드 투 엔드 흐름을 그려 보세요.

  1. 탐지(Detection): 누가, 혹은 무엇이 알람을 올렸는가? 페이저, SLO 위반, 고객 티켓, 내부 보고?
  2. 트리아지(Triage): 그다음 누구에게 페이징되는가? 어떤 채널로? 처음 보는 정보는 무엇인가?
  3. 에스컬레이션 경로: 대응자가 막혔을 때, 누가 이들을 풀어 줄 수 있는가?
  4. 의사결정 포인트: 롤백/페일오버/고객 영향이 있는 완화 조치를 누가 결정하는가?
  5. 종료 및 포스트모템: 인시던트는 언제 끝나며, 후속 작업을 누가 이끌어 가는가?

이걸 그리고 나면 이런 것들이 눈에 들어옵니다.

  • 오너십 공백: “이 단계는 누가 책임지는지 모른다.”
  • 핸드오프 리스크: “Ops에서 Product로 넘어갈 때 중요한 컨텍스트가 빠진다.”
  • 도구의 블라인드 스팟: “이 대시보드가 필요한 사람들은 인시던트에 페이징조차 안 되고 있다.”

툴은 보통 권한, 라우팅 규칙, 각종 통합 설정에 이런 워크플로를 암묵적으로 녹여 둡니다. 아날로그 맵은 이 대응 경로를 눈에 보이게 만드는 작업을 강제합니다. 개선의 출발점은 항상 ‘가시성’이니까요.


시각적 타임라인과 인과 사슬

장애 상황에서는 팀이 관측 데이터에 익사하기 쉽습니다. 수천 개의 로그, 수십 개의 알람, 수많은 트레이스 샘플. 문제는 데이터 접근성이 아니라 인과관계에 대한 이해입니다.

손으로 그리는 타임라인 + 인과 사슬(causal chain) 은 팀의 초점을 잡아 주는 앵커가 됩니다.

  • 가로축은 시간.
  • 세로 방향에는 주요 시스템 이벤트(배포, 설정 변경, 스케일링, 페일오버)와 고객이 체감하는 증상(에러 스파이크, 지연 증가, 타임아웃)을 배치합니다.
  • 이들을 화살표로 연결해, 그럴듯한 인과 관계를 표시합니다.

맵을 다듬어 가며 이렇게 표시할 수 있습니다.

  • 확정된 원인(confirmed cause)
  • 가능한 기여 요인(possible contributor)
  • 제외된 요인(ruled out)

또한 증상(symptom) 과 근본적인 메커니즘(mechanism) 을 구분합니다.

  • 증상: “체크아웃에서 500 에러 발생”
  • 메커니즘: “파티션으로 인한 write quorum 실패”

이렇게 하면 알람이 뜰 때마다 매트릭 하나하나를 원인이라고 착각하고 쫓아가는 "알람 두더지잡기" 패턴을 피할 수 있습니다. 아날로그 타임라인은 항상 이 질문으로 되돌려 줍니다.

“무엇이 어떤 순서로 바뀌었고, 그 변화가 어떻게 전파됐을까?”


분산 시스템 기본기에 뿌리내린 맵

가장 강력한 신뢰성 맵은 단순한 박스-화살표 그림을 넘어, 분산 시스템이 실제로 어떻게 실패하는지를 함께 담고 있습니다.

스케치를 할 때 컴포넌트와 흐름을 다음 개념들과 연결해 보세요.

  • 합의(Consensus): 어디에서 합의가 필요한가? (예: Raft/Paxos 기반 설정, 리더 선출) 이 부분은 파티션과 쿼럼 손실에 취약하다고 표시합니다.
  • 복제(Replication): 누가 리더이고, 누가 팔로워인가? 비동기/동기 복제 중 무엇인가? 이 정보가 복구 경로와 데이터 손실 리스크를 결정합니다.
  • 부분 동기(Partial synchrony): 네트워크는 가끔 느리고, 가끔 파티션되고, 결코 완전히 예측 가능하지 않다고 가정합니다. 타임아웃, 재시도, 백오프가 어디서 동작하는가?
  • 멱등성(Idempotency)과 내구성(Durability): 어떤 연산은 안전하게 재시도할 수 있고, 어떤 연산은 exactly-once에 가깝게 처리하거나 보상 트랜잭션이 필요한가?

이걸 맵 위에 이렇게 주석으로 적어 둡니다.

  • "3/5 레플리카 쿼럼 필요"
  • "비동기 복제; 5분 이내 페일오버 시 데이터 손실 리스크"
  • "클라이언트가 최대 60초까지 지수 백오프로 재시도"

이런 메모는 맵을 장애 예측 도구로 바꿔 줍니다. 이제 이런 질문을 할 수 있습니다.

  • “이 리더가 고립되면, 뭐가 여전히 동작하지?”
  • “복제가 30초 이상 지연되면, 누가 오래된 데이터를 보게 되지?”
  • “이 큐가 완전히 죽진 않고 느려지기만 하면, 어떤 백프레셔가 바깥으로 번질까?”

단순히 시스템을 그리는 게 아니라, 그 장애 모드(failure mode) 를 함께 스케치하는 셈입니다.


스케치에서 ‘살아 있는’ 멘탈 모델로

인시던트 중에 그린 신뢰성 맵은 본질적으로 휘발성입니다. 장기적인 가치는 인시던트가 끝난 뒤에 무엇을 하느냐에서 나옵니다.

아날로그의 혼돈을 지속 가능한 인사이트로 바꾸려면:

  1. 인시던트 기록에 원본 스케치 사진을 남기고 아카이브합니다.
  2. 너무 과하게 예쁘게 만들지는 않되, 사람이 읽기 좋게 정리된 버전으로 다시 그립니다. 여기에는 다음이 포함되어야 합니다.
    • 최종적으로 합의된 인과 사슬
    • 새로 밝혀진 의존성과 런타임 동작
    • 정리된 책임 구분과 핸드오프 지점
  3. 포스트모템에서 리뷰합니다.
    • 이 맵에서 우리를 놀라게 한 지점은 무엇이었는가?
    • 어떤 불확실성이 대응 속도를 늦췄는가?
    • 문서화된 아키텍처와 어디에서 달랐는가?
  4. 여기서 얻은 내용을 바탕으로 시스템 다이어그램과 런북을 업데이트합니다.

시간이 지나면, 이렇게 축적된 신뢰성 맵 라이브러리는:

  • 당신의 환경에서 인시던트가 실제로 어떻게 전개되는지를 반영하고,
  • 신규 대응자를 위한 교육 자료가 되며,
  • 여러 팀과 역할에 걸친 공유 멘탈 모델을 제공합니다.

이렇게 아날로그 스케치는 스트레스 상황에서의 시스템 행동에 대한 집단적·살아 있는 이해로 승화됩니다.


디지털 스택 속 아날로그의 자리 만들기

대시보드와 드로잉 중 하나를 고를 필요는 없습니다. 목표는 대체가 아니라 조화입니다.

아날로그 맵핑을 실무에 녹이는 몇 가지 방법입니다.

  • 인시던트 ‘카토그래퍼(cartographer)’ 역할 지정: 큰 인시던트에서는 실시간으로 공유 맵을 유지·갱신하는 사람을 명시적으로 맡깁니다.
  • 오버 더 숄더 카메라: 화이트보드나 노트북을 향해 웹캠을 두고 인시던트 채널로 스트리밍합니다.
  • 맵 체크포인트: 20~30분마다 잠시 멈추고 이렇게 확인합니다. “지금 가진 증거와 우리가 그린 맵이 아직 일치하나?”
  • 툴 정렬(Alignment): 인시던트 이후, 아날로그 맵에서 드러난 내용을 모니터링·토폴로지 도구 설정에 반영합니다.

그림을 그리는 행위는 팀이 시끄러운 데이터를 일관된 스토리로 압축하도록 강제합니다. 그러면 도구는 그 스토리를 뒷받침하는 증거 생성기가 되고, 무차별 텔레메트리 소방호스가 아니게 됩니다.


결론: 도구가 너무 많은 걸 알 때

고위험 인시던트에서 현대 도구의 실패 모드는 무지가 아니라 과잉입니다. 주어진 시간 안에 의미 있게 해석할 수 있는 양보다 훨씬 많은 데이터가 있습니다.

아날로그 인시던트 지도 제작자의 책상은 이런 과부하에 대한 해독제입니다.

관계, 장애 도메인, 인과 사슬에 초점을 맞춘 손그림 신뢰성 맵을 그리고, 이를 분산 시스템 기본기에 뿌리내리면 다음을 얻을 수 있습니다.

  • 시스템이 실제로 어떻게 동작하는지에 대한 공유 멘탈 모델
  • 오너십과 의사결정 경로에 대한 더 명확한 이해
  • 다음 인시던트를 더 잘 다루게 해 주는, 축적 가능한 지식

다음에 페이저가 울리고, 대시보드가 일제히 빨갛게 물들면, 바로 도구부터 파고들기 전에 잠시 멈춰 보세요.

펜을 집어 드세요. 맵을 그리기 시작하세요. 도구는 그 맵을 풍부하게 만드는 데 쓰되, 대신할 수는 없게 하세요.

그 스케치가 그날 당신이 만든 것 중 가장 신뢰할 만한 산출물이 될지도 모릅니다.

아날로그 인시던트 지도 제작자의 책상: 도구가 너무 많은 시대의 손그림 신뢰성 맵 | Rain Lag