Rain Lag

아날로그 인시던트 스토리 연(鳶) 월: 종이로 실패를 날리며 ‘리스크가 시스템을 어떻게 당기는지’ 몸으로 느끼기

종이로 만든 인시던트 ‘연’과 실을 벽에 매달아 보이지 않는 리스크를 눈에 보이고 손으로 만질 수 있는 형태로 바꾸는 방법. SRE와 디지털 도구를 보완하는 강력한 물리적 매핑 실천법을 소개합니다.

아날로그 인시던트 스토리 연(鳶) 월: 종이로 실패를 날리며 리스크가 시스템을 어떻게 당기는지 느끼기

디지털 대시보드, 런북, 인시던트 타임라인은 강력한 도구입니다. 하지만 이들에는 공통적인 약점이 있습니다. 모두 유리 뒤에 있습니다. 스크롤로 대강 훑고 지나가 버릴 수 있고, 금방 잊혀집니다. 리스크는 여전히 추상적입니다.

인시던트 스토리 연 월(Incident Story Kite Wall) 은 이 점을 바꿉니다.

벽 한 면 가득 인시던트와 실패를 나타내는 종이 ‘연’을 붙이고, 그 연들을 리스크가 시스템 전체를 어떻게 잡아당기는지 보여주는 실로 서로 이어놓는 모습을 떠올려 보세요. 그 앞에 걸어가 직접 옮겨 보고, 관계를 두고 토론하고, 눈앞에서 패턴이 드러나는 걸 볼 수 있습니다.

이 글에서는 아날로그 연 월이 팀에 어떤 도움을 줄 수 있는지 살펴봅니다.

  • 복잡한 인시던트를 모두가 볼 수 있는 공유된 문제 공간으로 외재화하기
  • 개별 실패가 어떻게 연결되고 리스크가 어떻게 전파되는지 보기
  • 인시던트 매핑 기법과 SRE 원칙을 손으로 만질 수 있는 형태로 적용하기
  • 의존성과 비즈니스 중요도를 로우테크 지식 그래프처럼 표현하기
  • 디지털 도구를 보완하는 빠르고 마찰이 적은 실험용 매체로 활용하기

왜 디지털 세상에서 아날로그를 쓸까?

복잡한 시스템은 복잡한 방식으로 실패합니다. 도구와 타임라인 안에만 갇혀 있으면 이런 일이 벌어지기 쉽습니다.

  • 시스템이 아니라 한 구성 요소에만 집착한다.
  • 인시던트들 사이의 가로지르는 패턴을 놓친다.
  • 각자 다른 조각만 보고 있어서 서로 말이 안 통한다.

시각적이고 아날로그인 도구는 문제 공간을 외부로 꺼내 놓는 것으로 이걸 도와줍니다. 이슈를 종이에 쓰고, 벽에 붙이고, 실로 연결하면:

  • 시스템의 동작이 한 공간에 눈으로 보입니다.
  • 모호함이 집어서 옮길 수 있는 구체적인 객체로 바뀝니다.
  • 사람들이 리스크를 손가락으로 직접 가리키며 논쟁할 수 있게 됩니다.

연 월은 안티‑디지털이 아닙니다. 기존 인시던트 관리 스택을 보완하는 생각 도구(thinking tool) 입니다.


인시던트 스토리 연 월이란 무엇인가?

연 월의 핵심은 단순합니다.

  • 연(Kites): 인시던트, 기여 요인, 리스크 핫스팟을 나타내는 종이 또는 카드
  • 실(Strings): 인과관계, 의존성, 전파, 영향 관계를 보여주는 물리적 연결선
  • 벽(The Wall): 시스템의 리스크 스토리가 펼쳐지는 공유 공간(화이트보드, 코르크보드, 실제 벽 등)

각 연에는 보통 다음 정보를 담습니다.

  • 인시던트 ID / 이름
  • 관련된 시스템 또는 서비스
  • 트리거 이벤트(무엇이 촉발했는지)
  • 임팩트(예: 레이턴시 저하, 데이터 손실, 매출 손실)
  • 주요 기여 요인(기술적 요인 + 조직적 요인)

그리고 나서 연들 사이를 연결하기 시작합니다.

  • 이 배포가(leads to) 저 데이터베이스 오버로드로 이어진다.
  • 이 잠복 버그가(amplifies) 저 의존성 장애를 증폭시킨다.
  • 이 모니터링 공백이(hides) 고객이 느낄 때까지 장애를 숨긴다.

얼마 지나지 않아, 서로를 잡아당기는 실에 매달린 종이 실패들의 숲이 생깁니다.


인시던트 매핑: 혼돈에 구조를 부여하기

아무 구조 없이 연만 잔뜩 붙이면 그저 알록달록한 혼돈일 뿐입니다. 여기서 인시던트 매핑(Incident Mapping) 기법(예: Kepner‑Tregoe)이 힘을 발휘합니다.

Kepner‑Tregoe 같은 기법은 다음을 요구합니다.

  • 무엇이 실제로 일어났는지일어날 수 있었지만 일어나지 않은 것을 구분하기
  • 단일 "루트 코즈"가 아니라 여러 기여 조건(contributing conditions) 을 찾기
  • 세부 사항을 테마(theme)인과 사슬(causal chain) 로 묶기

이 개념을 그대로 벽에 반영할 수 있습니다.

  • 색상으로 테마를 구분합니다. (예: 용량, 설정, 프로세스, 사람)
  • 모양이나 아이콘으로 이벤트 / 조건 / 통제수단(controls)을 구분합니다.
  • 실의 스타일(실선, 점선, 화살표)로 다른 관계를 표현합니다.
    • 실선: 직접적인 인과관계
    • 점선: 상관관계 또는 의심 단계
    • 화살표: 영향의 방향

시간이 지나면, 연 월은 지저분한 콜라주에서 인시던트 다이내믹스의 지도로 진화합니다. 문제들이 어떻게 발생하고, 퍼지고, 탐지되는지를 보여주는 물리적 그래프가 됩니다.


SRE 원칙을 연 월에 가져오기

Site Reliability Engineering(SRE)의 핵심은 신뢰성을 측정하고, 이해하고, 개선하는 것입니다. 연 월은 이 작업을 담아내는 살아 있는 아티팩트가 됩니다.

SRE 원칙은 이렇게 연결됩니다.

1. SLI, SLO, 그리고 임팩트

각 인시던트 연에는 다음을 적습니다.

  • 어떤 SLI(Service Level Indicator) 에 영향을 줬는지 (레이턴시, 가용성, 에러율, 데이터 신선도 등)
  • 어떤 SLO(Service Level Objective) 를 위협하거나 위반했는지

연들을 영향받은 SLO별로 시각적으로 묶어 보면:

  • 사용자에게 한 약속 중 어떤 것이 가장 취약한지
  • 어디서 반복적으로 에러 버짓(error budget) 을 소모하는지 보입니다.

2. 에러 버짓과 리스크 허용도

에러 버짓을 실제로 소모한 인시던트 에는 눈에 띄는 표시(형광펜, 스티커, 굵은 테두리 등)를 합니다. 그러면 리스크 허용도가 눈앞에 드러납니다.

  • 우리가 어떤 리스크는 사실상 묵시적으로 받아들이고 있는지 보입니다.
  • 이 실은 짧게 줄여야(완화해야) 할지, 아예 끊어야(범위 축소) 할지 이야기할 수 있습니다.

3. 피드백 루프와 탐지 공백

작은 "센서" 마커를 추가해 다음을 표시합니다.

  • 인시던트가 어떻게 탐지되었는지 (알람, 고객 신고, 대시보드, 부수 효과 등)
  • 탐지가 사용자 임팩트 이전/진행 중/이후 중 언제 일어났는지

그러면 이런 패턴이 드러납니다.

  • 원인은 많은데 탐지 포인트가 거의 없는 연: 블라인드 스팟
  • 여러 서비스를 가로지르는 실은 많은데, 그에 대응하는 모니터링 연결이 없는 경우: Observability 부채

4. 지속적 개선

연 월을 활용해 반복적인 SRE 리추얼을 운영할 수 있습니다.

  • 월간 신뢰성 리뷰를 연 월 앞에서 진행하기
  • 특정 테마(예: 설정, 배포, 데이터 품질) 중심의 사후 인시던트 회고
  • 연 월이 보여주는 인사이트를 기반으로 신뢰성 업무의 우선순위 정하기

연 월은 이때 실패에서 출발한 물리적 칸반 보드 처럼 작동합니다. 가상의 리스크가 아닌 실제 인시던트를 기반으로 개선 작업이 정의됩니다.


로우테크 지식 그래프처럼 의존성과 데이터 흐름 모델링하기

디지털 시스템에는 복잡한 그물망이 있습니다.

  • 서비스 간 의존성
  • 데이터 파이프라인과 변환 과정
  • 인프라 레이어
  • 비즈니스 프로세스와 고객 여정

많은 조직에서 이 정보는 산발적인 위키, 오래된 다이어그램, 혹은 누군가의 머릿속에 흩어져 있습니다.

연 월은 이를 가벼운 아날로그 지식 그래프 처럼 다룹니다.

  • 핵심 서비스나 도메인 을 벽의 중앙 근처에 배치합니다.
  • 결제, 인증, 서드파티 API 같은 외부 의존성 은 바깥쪽에 둡니다.
  • 인시던트 연을 관련 서비스/의존성과 실로 연결 합니다.
  • 데이터 흐름 은 연과 서비스 사이에 방향성이 있는 실이나 화살표로 나타냅니다.
  • 비즈니스 중요도 는 크기, 색 농도, 위치(예: 위쪽일수록 중요)를 바꿔서 표현합니다.

시간이 지나면 이런 것들이 보입니다.

  • 실이 유난히 많이 몰리는 서비스: 신뢰성 병목
  • 시스템 사이에 길게 이어진 연들의 사슬: 전파 리스크가 큰 구간
  • 다른 것과 거의 연결되지 않은 ‘고아’ 연: 빠진 지식 이나 불완전한 모델링 의 신호

이렇게 리스크 관계가 눈에 보이고 액션 가능한 형태 가 됩니다.

  • "이 서비스 하나가 죽으면 어떻게 되지?" 라고 물을 때, 실을 실제로 따라가 볼 수 있습니다.
  • 국소적인 변경이 어떻게 전사적인 영향 으로 이어질지 상상만이 아니라 추적 할 수 있습니다.

손으로 만지는 힘: 움직임을 통한 협업

아날로그로 전환했을 때 가장 큰 이점 중 하나는 몸을 쓰는 협업(embodied collaboration) 입니다.

엔지니어와 이해관계자들이 함께 연 월 앞에 서 있으면:

  • 사람들이 연을 직접 옮기며 새로운 멘탈 모델 을 제안합니다.
  • "이 인시던트를 여기 말고 이쪽이랑 연결해 보면 어때요?" 같은 이견이 나오면, 그냥 실을 옮겨 보고 결과를 같이 봅니다.
  • 비‑엔지니어도 도구 사용법을 몰라도, 손가락으로 가리키고 질문하고 관계를 제안하며 논의에 참여할 수 있습니다.

이렇게 배치하고, 옮기고, 연결하는 행위 자체가:

  • 시스템이 어떻게 동작하는지에 대한 공유 이해 를 촉진하고,
  • 숨은 가정을 드러냅니다. ("잠깐, 이 서비스가 저 데이터베이스랑 직접 통신한다고 생각했어요?")
  • "누가 잘못했나" 가 아니라 "우리가 무엇을 놓치고 있었나" 에 집중하는 분위기를 만들어 심리적 안전감도 키웁니다.

법무, 고객 지원, 프로덕트, 엔지니어링이 함께 인시던트를 리뷰해야 하는 크로스펑셔널 회고 에서 특히 강력합니다.


디지털 도구를 대체하지 않고 보완하기

연 월은 다음을 대체하기 위한 것이 아닙니다.

  • 인시던트 관리 플랫폼
  • 로그, 메트릭, 트레이스
  • 티켓 시스템과 문서화 도구

대신, 중간에 비어 있던 공간을 메워 줍니다.

  • 마찰이 적습니다. 인시던트를 추가하고, 옮기고, 다시 연결하는 데 몇 초밖에 걸리지 않습니다.
  • 탐색적(exploratory) 입니다. 버전 관리를 신경 쓰며 다이어그램을 수정하지 않아도, 인과관계와 리스크에 대한 여러 관점을 쉽게 시도 해 볼 수 있습니다.
  • 공간 기억(spatial memory) 이 작동합니다. 사람들은 "어디에 뭐가 있었는지" 와 "어떻게 연결되어 있었는지" 를 몸으로 기억합니다.

건강한 실천은 두 세계를 연결합니다.

  • 각 연에는 관련 디지털 소스 오브 트루스(포스트모템 문서, 인시던트 티켓 등)를 참조로 적어 둡니다.
  • 큰 개편을 한 뒤에는 연 월을 사진으로 남겨 스냅샷을 아카이브 합니다.
  • 연 월에서 얻은 인사이트를 아키텍처 다이어그램, 런북, 온콜 트레이닝에 다시 반영합니다.

이렇게 아날로그 벽은 살아 있는 실험실, 디지털 도구는 여전히 시스템 오브 레코드(system of record) 로 남습니다.


시작하기: 간단한 레시피

이걸 도입한다고 해서 거창한 프로그램이 필요한 건 아닙니다.

  1. 함께 모일 수 있는 공간의 벽 을 한 면 정합니다.
  2. 지난 3–6개월의 인시던트 를 모읍니다. (특히 임팩트가 크거나, 이해하기 어려웠던 것들 위주로)
  3. 인시던트당 연 하나 를 만들고 다음을 적습니다.
    • 이름 / ID
    • 발생 날짜와 지속 시간
    • 임팩트 요약
    • 주요 기여 요인
  4. 핵심 서비스와 도메인 을 먼저 벽에 고정해 앵커로 삼습니다.
  5. 인시던트를 서비스와 서로에게 실로 연결 합니다.
    • "이 인시던트가 저 인시던트에 기여했다."
    • "이 의존성이 둘 다에 관여했다."
  6. 색과 모양으로 의미를 추가 합니다. (테마, 심각도, SLO 등)
  7. 모두 함께 60–90분 정도 연 월을 걸어 다니며 질문 합니다.
    • 실이 가장 촘촘한 곳은 어디인가?
    • 반복되는 테마를 가진 인시던트는 무엇인가?
    • 무엇을 잘못 건드리거나 잘라내는 게 가장 두려운가?
  8. 그 자리에서 3–5개의 개선 아이디어 를 도출하고, 구체적인 작업과 책임자를 정합니다.

이 과정을 매달 혹은 분기마다 반복하세요. 연 월이 살아 움직이도록 두는 게 중요합니다.


결론: 리스크의 당김을 몸으로 느끼기

현대 시스템은 평소에는 복잡함을 잘 숨기다가, 문제가 터지면 그제야 본색을 드러냅니다. 인시던트가 터지면 우리가 보는 건 로그 한 줄, 메트릭 스파이크, 짧은 인시던트 타임라인 조각뿐인 경우가 많습니다.

인시던트 스토리 연 월은 이 조각들을 하나의 공유된 스토리 로 엮어 줍니다. 종이로 된 실패들을 실에 매달아 날려 보이면:

  • 숨겨진 의존성과 리스크 전파 경로를 눈에 보이게 만들고
  • 인시던트 매핑 기법으로 지저분한 사건들을 구조화하며
  • SRE 원칙을 눈으로 보고 손으로 만질 수 있는 무언가에 앵커링 하고
  • 역할이 다른 사람들 사이의 협업과 공유 이해 를 키우고
  • 디지털 도구를 빠르고 탐색적인 매체 로 보완할 수 있습니다.

무엇보다, 연과 실로 이루어진 거미줄 앞에 서면 리스크가 시스템을 어떻게 당기는지 몸으로 느끼게 됩니다. 문제가 생길 때마다 실이 팽팽해지는 그 감각은 어느 대시보드에서도 얻기 어렵습니다. 바로 그 점이, 아날로그 연 월이 더 탄탄하고 회복력 있는 시스템을 만드는 데 그렇게 강력한 도구가 되는 이유입니다.

아날로그 인시던트 스토리 연(鳶) 월: 종이로 실패를 날리며 ‘리스크가 시스템을 어떻게 당기는지’ 몸으로 느끼기 | Rain Lag