Rain Lag

연필과 실로 만드는 인시던트 지도: 손으로 구축하는 촉각형 프로덕션 리스크 레이더

의도적으로 로우테크인 연필·실 기반 “인시던트 레이더”가 어떻게 숨은 프로덕션 리스크를 드러내고, SLO를 구체적으로 느껴지게 만들며, 인시던트 리뷰를 크로스 기능 조직의 공동 학습 세션으로 바꿀 수 있는지 소개합니다.

소개

대부분의 팀은 수많은 대시보드를 가지고 있지만, 정작 공유된 이해는 턱없이 부족합니다.

세계 최고 수준의 옵저버빌리티, 실시간 알림, 아름답게 디자인된 SLO 뷰를 다 갖추고도 비슷한 유형의 인시던트에 계속 발목을 잡힐 수 있습니다. 숫자와 차트는 필수지만, 그게 곧바로 “시스템이 실제로 어떻게 실패하는지”에 대한 공통된 멘탈 모델로 이어지지는 않습니다.

여기서 등장하는 것이 바로 **연필과 실로 만드는 인시던트 지도(pencil‑and‑string incident map)**입니다. 의도적으로 로우테크를 선택한, 손으로 만질 수 있는 방식의 프로덕션 리스크 시각화 도구죠. 말 그대로 사람들이 그 앞에 둘러서서 손가락으로 가리키고, 논쟁하고, 함께 생각할 수 있는 물리적 레이더라고 보면 됩니다.

이 접근법은 기존 도구를 대체하지 않습니다. 대신, 종이와 실, 포스트잇을 사용해 엔지니어, PM, 비기술 이해관계자까지 한자리에 모여 인시던트가 어떻게 신뢰성 목표, 기술 부채, 시간의 흐름과 얽혀 있는지 함께 탐색할 수 있는 공유 공간을 만들어 줍니다.


연필‑실 인시던트 지도란 무엇인가?

핵심은 시스템과 그 리스크를 크게 펼쳐 놓은 물리적 다이어그램입니다.

보통 다음과 같이 시작합니다.

  • 대형 종이 한 장 또는 화이트보드
  • 시스템과 경계를 그릴 연필/마커
  • 관련 인시던트를 연결할 실 또는 털실
  • 인시던트, 니어미스(near-miss), 리스크를 나타낼 포스트잇 또는 인덱스 카드

그다음, 레이더 형태의 레이아웃을 만듭니다.

  • 중심부(center) 는 핵심 시스템 또는 주요 제품 면(예: 메인 사용자 플로우)을 의미할 수 있습니다.
  • 동심원(rings) 은 시간, 시스템 상의 거리, 리스크 심각도 중 하나를 바깥쪽으로 갈수록 커지게 표현합니다.
  • 섹터(sectors) 는 기능 영역이나 서비스(예: 결제, 인증, 데이터 파이프라인)를 나타낼 수 있습니다.

인시던트나 니어미스는 지도 위의 하나의 카드가 됩니다. 실은 동일한 근본 원인, 공통된 의존성, 혹은 같은 신뢰성 목표(SLO)를 공유하는 이벤트들을 묶어 줍니다. 시간이 지날수록 이 보드는 시스템이 어떻게 실패해 왔는지, 어디에서 허용 범위를 벗어나기 시작했는지를 보여주는 촉각적인 시각 히스토리가 되어 갑니다.

이 지도에서 중요한 건 정밀도가 아니라, 대화입니다.


하이테크 환경에서 왜 굳이 로우테크를 쓰나?

“그래프 DB, 서비스 맵, 실시간 트레이스도 있는데, 왜 종이와 실에 시간을 쓰지?”라는 질문이 나올 수 있습니다.

그 이유는 정보를 표현하는 방식이 곧 대화의 방식을 규정하기 때문입니다.

1. 느린 속도가 깊이를 만든다

사람들이 직접 손으로 적고, 포스트잇을 붙이고, 실을 묶어야 할 때, 생각이 자연스럽게 느려지고 깊어집니다.

  • 이 문제는 진짜 어디서 시작되었지?
  • 누구에게 영향을 줬지?
  • 이 사건과 연결된 다른 것들은 뭐지?

이 작은 마찰이 오히려 좋습니다. 질문은 더 풍부해지고, 대충 얼버무리는 설명은 줄어듭니다.

2. 모두가 참여할 수 있다

대부분의 리스크 대시보드는 다음과 같은 사람들을 위해 최적화되어 있습니다.

  • 툴을 잘 아는 사람
  • 데이터 모델을 이해하는 사람
  • 전문 용어에 익숙한 사람

연필‑실 지도는 이 진입 장벽을 낮춥니다. 읽고, 쓰고, 손가락으로 가리킬 수만 있으면 누구나 참여할 수 있습니다. PM, 고객지원, 심지어 임원까지도 다음과 같은 방식으로 기여할 수 있습니다.

  • 블라인드 스폿 찾기 ("우리는 이 파트너 통합 이슈를 계속 무시하고 있네요.")
  • 인시던트와 비즈니스 임팩트를 연결하기
  • 무엇을 “허용 가능한” 리스크로 볼지에 대한 가정에 이의를 제기하기

3. 공유된 초점이 생긴다

벽에 걸린 큰 보드는 곧 물리적 집결 지점이 됩니다. 사람들은 그 앞에서:

  • 나란히 서서
  • 건설적으로 반대 의견을 내고
  • 손짓과 공간적 표현을 사용해 ("이 구역이 너무 붐비기 시작했네요.")

이런 식으로 함께 생각할 수 있습니다.

각자 화면만 공유하며 메트릭을 보는 상황에서는 이런 몸을 동반한 공통 집중을 만들기가 훨씬 어렵습니다.


“타임‑제로” 리스크와 “에이징” 리스크를 함께 보기

이 레이더의 강력한 점 중 하나는 두 종류의 리스크를 한눈에 드러낸다는 것입니다.

  1. 타임‑제로(time-zero) 리스크 – 설계, 배포, 프로세스에 애초에 내장되어 있는 문제들

    • 예: 레이트 리미팅 없이 출시된 서비스
    • 예: 자동 롤백이 없는 배포 프로세스
  2. 에이징(aging) 리스크 – 시스템이 돌아가는 동안 서서히 쌓이는 문제들

    • 예: 아무도 건드리기 싫어하는 핵심 라이브러리의 기술 부채
    • 예: 환경 간 설정(config) 드리프트
    • 예: “임시”로 만든 수동 런북이 영원히 자동화되지 않고 남아 있는 경우

지도에서는 이 둘을 시각적으로 구분할 수 있습니다.

  • 포스트잇 색, 펜 색을 다르게 사용합니다.
  • 타임‑제로 리스크는 해당 기능·서비스의 기원(origin) 쪽에 더 가깝게 배치합니다.
  • 에이징 리스크는 가장자리(edge) 쪽, 즉 시간이 흐르며 삐걱거리기 시작하는 지점 근처에 둡니다.

시간이 지나면 자연스럽게 패턴이 보이기 시작합니다.

  • 특정 팀이 런칭한 기능 주변에 타임‑제로 리스크가 몰려 있는 클러스터
  • 특정 레거시 서비스 주변에 에이징 리스크가 집중된 구역
  • 인시던트 원인이 신규 기능이 아니라, 드리프트와 방치에서 점점 더 많이 비롯되는 시스템 영역

그러면 더 좋은 질문을 던질 수 있습니다.

  • 우리는 설계 리뷰나 런치 게이트를 강화해야 하는가?
  • 어디에서 유지보수·리팩토링 투자 수준이 부족한가?

SLO와 에러 버짓을 “숫자”가 아닌 “이야기”로 만들기

대부분의 SLO와 에러 버짓은 숫자로 커뮤니케이션됩니다.

  • 가용성 99.9%
  • 요청 에러율 < 1%
  • P95 레이턴시 < 250ms

중요하지만, 매우 추상적입니다.

인시던트 지도를 사용하면 이 숫자들을 구체적인 스토리와 연결할 수 있습니다.

방법은 다음과 같습니다.

  1. 각 인시던트나 니어미스에 대해, 영향을 받은 SLO를 적습니다.
  2. 인시던트 카드에서 해당 SLO 영역(보드 상의 SLO 섹션)으로 실을 연결합니다.
  3. 선택적으로, 간단한 태그를 추가합니다.
    • “2시간 만에 에러 버짓 30% 소진”
    • “EU 지역 고객에게만 가시적인 임팩트”

시간이 지나면 다음과 같은 모습이 보입니다.

  • 특정 SLO 주변에 인시던트 카드와 실이 촘촘히 둘러싸인 핫스팟
  • 거의 건드려지지 않는 SLO — 지나치게 보수적이거나 비즈니스 핵심도가 낮을 수 있습니다.

이렇게 하면 SLO는 추상적인 SLI가 아니라 이야기의 앵커가 됩니다.

  • “우리가 99.9%를 못 맞추고 있다는 게 포인트가 아닙니다. 이 인시던트 클러스터 때문에 고객이 결제 플로우를 불안하게 느끼고 있는 거예요.”
  • “이번 분기를 포함해 세 분기 연속 같은 의존성 때문에 이 에러 버짓을 초과 소진하고 있습니다.”

이처럼 스토리 중심으로 프레이밍하면 비기술 이해관계자와 논의하기도 훨씬 쉽고, 우선순위 결정이 훨씬 현실에 기반해 이뤄집니다.


지도를 살아 있는 아티팩트로 만들기

일회성 워크숍도 물론 의미 있지만, 살아 움직이는 지도(living map) 가 되면 진짜 힘을 발휘합니다.

비결은 지도를 지속적으로 업데이트하는 것입니다.

  • 인시던트나 니어미스 발생 후
  • 포스트 인시던트 리뷰(사후 분석) 시간에
  • 게임데이, 카오스 엔지니어링 연습의 일부로

각 세션에서 하는 일은 단순합니다.

  1. 새 인시던트를 추가합니다.
  2. 다음과 실로 연결합니다.
    • 관련된 과거 인시던트
    • 관련 SLO 섹터
    • 이미 알고 있는 에이징 리스크
  3. 지도 위에 바로 완화 조치와 개선 내용을 표시합니다.

몇 달이 지나면 이 보드는 플레이북·런북·리스크 레지스터가 혼합된 하이브리드 같은 모습이 됩니다.

  • 어느 영역을 적극적으로 강화했는지 한눈에 볼 수 있고,
  • 반복되는 실패 패턴을 포착할 수 있으며,
  • 아키텍처와 리스크 프로필이 어떻게 변해 왔는지 추적할 수 있습니다.

해당 도메인에 새로 합류한 팀원은 지도를 걸어 다니며 배우는 것처럼 더 빠르게 이해할 수 있습니다.

“여기가 예전에 캐스케이딩 리트라이가 발생하던 부분이고, 이렇게 리팩토링해서 해결했어요. 그래도 여전히 트래픽 스파이크에는 긴장하고 있는 영역이 이쪽입니다.”

이 지도는 몇몇 사람 머릿속이나 여기저기 흩어진 문서가 아니라, 조직 전체가 공유하는 집단 기억이 됩니다.


간단한 퍼실리테이션 패턴

복잡한 프로세스가 필요하지는 않습니다. 60–90분 정도로 진행할 수 있는 가벼운 패턴을 소개합니다.

1. 레이더 세팅하기

  • 주요 도메인(예: Auth, Payments, Infra, Data)을 위한 섹터를 그립니다.
  • 동심원을 시간(예: 지난달, 지난 분기, 작년) 또는 리스크 심각도 단계로 표시합니다.
  • SLO나 핵심 신뢰성 목표를 위한 공간을 따로 확보합니다.

2. 원자료 모으기

참여자들에게 다음을 가져오라고 요청합니다.

  • 최근 인시던트 (보통 지난 3–6개월)
  • 공식 Sev 레벨까지 가지는 않았지만 “아찔했던” 니어미스
  • “밤에 잠 못 자게 하는 것들”: 평소 걱정하고 있는 리스크

각 사례는 다음 정보를 담은 노트 한 장이 됩니다.

  • 짧은 제목
  • 날짜
  • 임팩트 요약
  • 추정 혹은 확정된 원인

3. 배치하고 연결하기

그룹으로 함께 다음을 수행합니다.

  • 각 카드를 적절하다고 느끼는 섹터와 링에 배치합니다.
  • 실을 사용해 다음을 연결합니다.
    • 서로 관련 있는 인시던트들
    • 인시던트와 SLO 영역
    • 인시던트와 이미 알려진 에이징 리스크

그리고 계속 질문합니다. 왜 여기 놓는지, 이 연결은 무엇을 의미하는지.

4. 테마와 액션 후보 찾기

조금 떨어져서 전체 지도를 바라봅니다.

  • 클러스터는 어디에 모여 있는가?
  • 텅 빈 섹터는 어디인가? (관측이 부족한 영역일 수 있음)
  • 연결이 조밀한 SLO는 어디인가?

여기서 소수의 구체적인 베팅(투자 후보) 을 도출합니다.

  • 특정 영역의 자동화 투자
  • 명확히 짚인 리팩토링·리디자인 과제
  • 타임‑제로 리스크를 줄이기 위한 새로운 리뷰/런치 게이트

이 결정사항을 지도 근처에 기록해, 누구든 지도를 보러 왔다가 인시던트 → 리스크 패턴 → 투자 결정의 연결 고리를 바로 볼 수 있게 합니다.


촉각형 레이더로 리스크 감소를 이끄는 방법

이 과정을 반복하면, 지도는 자연스럽게 투자 우선순위를 알려주는 나침반이 됩니다.

  • 자동화: 수동 런북 단계가 많거나 사람 실수가 반복되는 영역
  • 하드닝(hardening): 여러 인시던트에서 블라스트 레이디우스를 증폭시키는 서비스
  • 설계 변경: 타임‑제로 리스크가 계속 재발하는 핵심 플로우 (예: 비멱등성, 위험한 기본값)

이제 인시던트를 개별 이벤트가 아니라 공유된 시각적 리스크 지형 위의 데이터 포인트로 다루게 됩니다. 촉각적인 표현은 트레이드오프를 훨씬 더 구체적으로 느끼게 합니다.

  • “여기에 투자하지 않으면, 이 클러스터는 계속 커질 가능성이 큽니다.”
  • “이 SLO에 실을 세 번이나 더 붙였는데도, 구조적인 변화는 하나도 없네요.”

이렇게 될 때 인시던트 리뷰와 게임데이는 형식적인 의식이 아니라 의도적인 리스크 관리 활동으로 전환됩니다.


결론

연필‑실 인시던트 지도는 의도적으로 단순합니다.

  • 화려한 툴 없음
  • 복잡한 데이터 파이프라인 없음
  • 완벽한 모델링도 지향하지 않음

바로 그렇기 때문에 잘 작동합니다.

사람들의 속도를 일부러 늦추고, 공유된 물리적 아티팩트 주변에 모이게 하며, 리스크를 스프레드시트가 아닌 지형(landscape) 으로 보이게 함으로써, 더 깊은 대화와 더 명확한 우선순위를 이끌어 냅니다.

시간이 흐르면 이 촉각형 레이더는 시스템이 어떻게 실패하고, 배우고, 진화해 왔는지를 보여주는 살아 있는 기록이 됩니다. 이는 옵저버빌리티 스택을 보완해 줄 뿐 아니라, 팀 정렬(alignment)과 학습 문화까지 강화합니다.

인시던트 리뷰가 맥이 빠지거나, SLO가 너무 추상적으로 느껴진다면 큰 종이 한 장, 실 몇 가닥, 포스트잇 한 줌을 꺼내 보세요. 손을 뻗어 직접 만질 수 있게 되는 순간, 얼마나 많은 리스크가 눈에 보이기 시작하는지 놀랄 수 있습니다.

연필과 실로 만드는 인시던트 지도: 손으로 구축하는 촉각형 프로덕션 리스크 레이더 | Rain Lag