아날로그 인시던트 스토리 룸: 종이로 엮어 하나의 리스크 태피스트리를 짜는 법
인프라 SRE 팀이 시각적 메타포, 아날로그 도구, 구조화된 매핑을 활용해 흩어진 인시던트 정보를 하나의 일관된 ‘리스크 태피스트리’로 엮어 학습, 협업, 예방을 개선하는 방법.
아날로그 인시던트 스토리 룸: 종이로 엮어 하나의 리스크 태피스트리를 짜는 법
안전 공학과 신뢰성 공학에서 리스크를 어떻게 상상하느냐는 우리가 그 리스크를 어떻게 다루느냐를 조용히 결정합니다. 우리는 인시던트를 단지 모델과 다이어그램으로 묘사만 하는 것이 아니라, 그 모델을 통해 생각합니다. 우리가 쓰는 메타포(은유)는 인시던트 리뷰를 할 때 머릿속에 깔려 있는 기본 가구가 됩니다.
가용성과 신뢰성, 공용 플랫폼 건강의 최전선에 있는 인프라 SRE 팀에게 이 “정신적 가구”는 특히 중요합니다. 인시던트가 티켓, 로그, 타임라인에만 남는다면, 우리는 그것들을 조직이라는 큰 직물 속에 엮인 실이 아니라, 서로 관계없는 작은 오류로만 보게 될 위험이 있습니다.
여기서 **“아날로그 인시던트 스토리 룸(Analog Incident Story Loom)”**과 **“리스크 태피스트리(risk tapestry)”**라는 아이디어가 등장합니다. 물리적이고 시각적인, 그리고 구조화된 기법을 사용해 수많은 작은 실패들을 하나의 공유된 시스템 리스크 그림으로 엮어내는 방식입니다.
안전과 신뢰성에서 메타포가 중요한 이유
안전 공학에서는 오래전부터 다양한 모델과 메타포를 사용해 왔습니다.
- 스위스 치즈 모델(Swiss Cheese Model) – 여러 방어층에 난 구멍들이 한 줄로 나열될 때 사고가 발생한다.
- 도미노 모델(Domino Models) – 하나의 사건이 다음 사건을 도미노처럼 연쇄적으로 넘어뜨린다.
- Drift into Failure(실패로의 표류) – 여러 압력이 누적되면서 시스템이 서서히 위험한 상태로 밀려간다.
이것들은 단지 교육용 도구가 아니라, 실제로 팀이 다음을 어떻게 수행하는지를 형성합니다.
- “무엇이 잘못됐는가”를 어떻게 프레이밍하는지
- 원인을 어디서 찾는지 (개인 실수 vs 시스템적 패턴)
- 예방을 어디에 투자할지 어떻게 결정하는지
주된 사고 모델이 “단일 루트 원인(root cause)”이라면, 당신은 하나의 고장 난 지점을 찾는 데 집중하게 됩니다. 반대로 “복수의 기여 요인들”을 가정한다면, 사람·프로세스·기술 전반에서 반복되는 패턴을 찾게 됩니다.
리스크 태피스트리 메타포는 팀이 후자에 가까워지도록 방향을 틀어 줍니다. “루트 원인이 뭐야?” 대신, *“여기에는 어떤 실들이 있고, 그것들이 어떻게 서로 엮여 있지?”*라고 묻게 만드는 것입니다.
흩어진 실들에서 하나의 리스크 태피스트리로
대부분의 인프라 SRE 조직에서 실패는 다음과 같이 나타납니다.
- 개별 인시던트 티켓
- 시점별 그래프와 알림
- 애드혹 Slack 채널
- 인시던트 후속 문서와 대시보드
각 아티팩트는 하나의 **실(thread)**입니다. 일어난 일을 부분적으로, 제한된 컨텍스트 안에서 보여 주는 조각입니다. 각각은 나름대로 유용하지만, 시스템 리스크의 패턴은 종종 인시던트 사이의 틈에 숨어 있습니다.
- 서로 다른 서비스에 흩어져 있는 동일 유형의 설정 오류
- 반복적으로 의존하는 하나의 취약한 공통 의존성
- 분기·연 단위로 서서히 약해지는 운영 관행
리스크 태피스트리의 아이디어는 이렇게 정리됩니다.
- 실을 모은다. 인시던트, 니어 미스(near-miss), 이상 징후, “거의 터질 뻔한 그 일”까지 모두.
- 그것들을 물리적으로 펼쳐 둔다. (종이, 보드, 카드, 포스트잇 등) 한 번에 여러 개를 한눈에 볼 수 있도록.
- 하나의 시각적 그림으로 엮는다. 유사한 조건, 반복되는 결정, 공통 실패 모드를 서로 연결한다.
결과물은 그냥 또 하나의 다이어그램이 아닙니다. 당신의 시스템, 팀, 조직이 실제로 어떻게 실패하는지를 보여 주는 공유되고 손에 잡히는 이야기입니다.
디지털 시대에 왜 아날로그가 중요한가
이 모든 작업을 디지털 화이트보드나 인시던트 관리 도구에서 처리하고 싶어질 수 있습니다. 물론 그런 도구들도 유용합니다. 하지만 특히 의미를 만들어 가는 초기 단계에서는 아날로그가 가진 고유한 힘이 있습니다.
- 물리적 제약이 집중을 강제한다. 화이트보드나 벽에는 한계가 있습니다. 무한히 데이터를 붙일 수 없습니다. 중요한 이벤트, 관계, 조건에 우선순위를 매겨야 합니다.
- 몸을 쓰는 협업(embodied collaboration). 사람들은 보드 앞에 서서 카드를 옮기고, 선을 그리고, 항목을 묶으면서 실시간으로 이야기를 함께 만들어 갑니다. 이는 문서에 댓글을 다는 것보다 훨씬 빠르게 공유된 이해를 쌓게 해 줍니다.
- 속도를 늦추면 생각은 깊어진다. 아날로그 방식은 속도를 살짝 늦춰 줍니다. 그 틈에 “잠깐, 이 의존성은 세 개 인시던트에 다 등장하네”라든지, “이 유형의 실패가 생기면 항상 같은 사람이 호출되고 있네” 같은 걸 포착할 수 있습니다.
아날로그 인시던트 스토리 룸은 이 과정을 구조화해 주는 도구일 뿐입니다. 종이와 펜으로 리스크 태피스트리를 짜는 반복 가능한 실천법이고, 그 뒤에 디지털로 캡처하는 단계가 이어집니다.
나만의 아날로그 인시던트 스토리 룸 만들기
특별한 소프트웨어가 필요하지 않습니다. 필요한 것은 규칙, 기호, 상자, 선, 그리고 학습에 진심인 팀입니다.
1. 범위와 기간을 정한다
무엇을 엮을지 결정합니다.
- “지난 6개월간의 모든 P1/P2 인시던트”
- “지난 1년 동안 스토리지 플랫폼에 영향을 준 모든 인시던트”
- “이번 분기 인프라 전반에서 발생한 모든 설정 관련 인시던트”
이렇게 해야 태피스트리가 감당할 수 없는 콜라주가 되는 것을 막을 수 있습니다.
2. 범례(legend) 만들기: 기호와 색상
간단하면서도 모두가 공유할 수 있는 시각적 언어에 합의합니다.
- 도형
- 직사각형: 주요 인시던트 또는 큰 이벤트
- 원: 조건 또는 기여 요인
- 마름모: 의사결정 지점 또는 핵심 선택
- 색상
- 빨간색: 직접적인 실패 (장애, 데이터 손실, 성능 붕괴)
- 주황색: 안전 여유 감소 (니어 미스, 용량 리스크 등)
- 파란색: 조직적 요인 (인력, 프로세스, 툴링)
- 초록색: 완화책 및 방어선
이 범례를 보드 한쪽 구석에 써 둡니다. 일관성이 매우 중요합니다. 이것이 바로 리스크 태피스트리의 문법입니다.
3. 먼저 개별 스토리를 매핑한다
범위 안의 각 인시던트마다 하나의 미니 맵을 만듭니다.
- 인시던트 자체를 빨간 직사각형으로 배치합니다.
- 그 전에 있었던 이벤트들을 간단한 타임라인 형태로 추가합니다.
- 주변에 기여 조건(파란색, 주황색 원)을 배치합니다.
- 영향이나 순서를 보여 주기 위해 화살표를 그립니다.
이 단계에서는 각 인시던트를 하나의 독립된 짧은 이야기(비네트)처럼 다룹니다.
4. 이제 ‘짜기’ 시작: 인시던트 간 연결 추가
이제 “여러 개의 이야기”에서 하나의 태피스트리로 넘어갑니다.
- 모든 인시던트 미니 맵을 큰 보드나 벽에 붙입니다.
- 다음과 같은 반복되는 요소를 찾아봅니다.
- 동일한 의존성 장애
- 항상 오류를 유발하는 동일한 수동 런북 단계
- 반복해서 빠지는 동일한 테스트, 또는 같은 온콜 공백
- 각 반복 요소를 기준으로 인시던트들 사이에 선을 그립니다.
- 강하고 반복적인 관계: 두꺼운 실선
- 가능성이 있거나 약한 관계: 점선
이제 질문은 *“이 인시던트의 원인은 뭐였지?”*가 아니라, *“왜 이 인시던트들이 이렇게 비슷하게 보이게 되었을까?”*라는 패턴의 문제로 바뀝니다.
5. 컨텍스트 레이어 추가하기
진짜 시스템적 관점을 얻으려면 더 넓은 조건들을 얹어야 합니다.
- 조직적 압력: 마감, 채용 동결, 대규모 마이그레이션
- 구조적 제약: 레거시 컴포넌트, 공유 라이브러리, 팀 간 의존성
- 문화적 요인: “영웅적인 디버깅” 문화, 특정 시스템 변경에 대한 두려움, 관측 가능성(Observability)에 대한 공감대 부족
이런 것들을 여러 인시던트가 동시에 연결되는 더 큰 파란 도형으로 표현합니다. 이 단계에서 개별적인 지역 실패가 어떻게 조직 전체의 조건에 뿌리를 두고 있는지가 보이기 시작합니다.
6. 캡처·디지털화·주석 달기
아날로그 세션이 어느 정도 완성됐다고 느끼면 다음을 합니다.
- 보드를 고해상도 사진으로 남깁니다.
- 이를 디지털 다이어그램 도구(예: Miro, FigJam, Lucidchart 등)에 옮깁니다.
- 주석을 답니다. 예: “이 클러스터는 데이터베이스 페일오버 자동화에 충분히 투자하지 않았음을 시사한다.”, “이 세 개 인시던트는 특정 도메인 X에 대해 단 한 명의 SRE에게 과도하게 의존하고 있음을 보여 준다.”
아날로그 룸은 생각하는 공간이고, 디지털 아티팩트는 그것을 기억하고 공유하는 공간입니다.
이것이 인프라 SRE 팀에 주는 도움
인프라 SRE 팀은 보통 다음을 책임집니다.
- 코어 네트워킹과 스토리지
- CI/CD 및 배포 파이프라인
- 인증·인가 및 핵심 보안 서비스
- Observability, 로깅, 공용 툴링
이들은 모두 기반 시스템입니다. 한 번 실패하면 영향 범위(블라스트 레디우스)가 크고, 뿌리 구조도 복잡한 경우가 많습니다.
리스크 태피스트리 접근법은 SRE 업무에 여러 방식으로 힘을 실어 줍니다.
-
더 나은 패턴 인식
각 인시던트를 단발성 이벤트로 보지 않고, 실패의 “패밀리”를 보기 시작합니다.- “인증(Auth) 의존성 문제는 항상 늦게 발견되고, 이미 압박이 심한 상황에서 터진다.”
- “스토리지 포화 문제는 특정 릴리즈 패턴과 강하게 상관되어 있다.”
-
더 강한 학습 문화
인시던트 리뷰는 “타임라인 읽고 액션 아이템 정하고 끝”이 아니라, 이야기를 함께 짜는 세션이 됩니다. 1차 목표가 이해 자체가 됩니다. -
더 정밀한 투자 결정
패턴이 눈에 보이면 플랫폼 레벨 개선을 설득하기가 쉬워집니다.- 셀프서비스 회복력(resilience) 기능 구축
- 공용 라이브러리 하드닝(hardening)
- 팀 간 통합 테스트 개선
-
신규 팀원을 위한 공유된 멘탈 모델
리스크 태피스트리는 고대역폭 온보딩 도구가 됩니다. “이 시스템이 실제로 어떻게 실패하고, 왜 그런지”를 한눈에 보여 줍니다.
공통 메타포로 만드는 크로스팀 협업
인프라 SRE는 거의 절대 혼자 일하지 않습니다. 상시로 다음과 협업합니다.
- 플랫폼 엔지니어링 팀 (내부 개발자 플랫폼, 골든 패스 등)
- 프로덕트 SRE 또는 서비스 팀
- 보안, 컴플라이언스, 거버넌스 조직
이 그룹들은 보통 서로 다른 용어, 도구, 우선순위를 가지고 있습니다. 공유된 시각적·은유적 언어, 즉 리스크 태피스트리 같은 개념은 일종의 로제타 스톤 역할을 합니다.
모두가 같은 다이어그램을 보면서 이렇게 말할 수 있게 됩니다.
- “여기 있는 실들은 우리가 책임지는 영역입니다.”
- “이 클러스터는 우리 책임이 서로 겹치는 지점입니다.”
- “이 파란 도형들은 우리가 함께 마주하는 조직적 제약입니다.”
…이렇게 되면 대화는 비난이나 영역 다툼에서 공동 문제 해결로 옮겨갑니다. 예를 들어 플랫폼 엔지니어링 팀은 특정 플랫폼 기능을 제공함으로써 태피스트리 상의 특정 유형의 빨간 도형(장애)을 통째로 제거할 수 있는 위치를 더 명확히 볼 수 있습니다.
인시던트 스토리 룸을 실제 실천에 녹여 넣기
이를 위해 조직 구조를 다시 짤 필요는 없습니다. 다음과 같은 형태로 파일럿을 시작할 수 있습니다.
- 주요 인시던트를 대상으로 하는 분기별 리스크 태피스트리 워크숍
- 특정 반복 실패 모드(예: DB 페일오버, 인증 장애)에 대한 딥다이브 세션
- 온보딩 연습: 최근 인시던트 몇 개로 작은 태피스트리를 만들어 신규 SRE에게 시스템의 실패 양상을 가르치는 용도
간단한 시작용 체크리스트는 다음과 같습니다.
- 서로 관련 있는 인시던트 5~10개를 고른다.
- 넓은 화이트보드가 있는 회의실을 잡는다.
- 포스트잇, 마커, 테이프, 인시던트 타임라인 출력물을 준비한다.
- 함께 범례(도형, 색상, 화살표)를 정의한다.
- 각 인시던트를 매핑한 뒤, 서로 엮는다.
- 사진을 찍고, 디지털화하고, 주요 패턴과 후보 액션을 요약한다.
시간이 지나면 시각적 문법을 다듬고, 템플릿을 표준화하고, 정기적인 신뢰성 리뷰에 인사이트를 녹여 넣을 수 있습니다.
결론: 고립된 실패에서 공유된 리스크 직물로
복잡한 시스템에서 실패는 거의 고립되어 발생하지 않습니다. 기술, 프로세스, 문화의 더 깊은 패턴이 표출된 결과일 때가 많습니다. 우리가 의식하든 못하든, 사용하는 모델과 메타포는 이런 패턴을 바라보는 방식을 규정합니다.
아날로그 인시던트 스토리 룸과 리스크 태피스트리 관점을 도입하면, 인프라 SRE와 연관 팀들은 다음을 해낼 수 있습니다.
- 흩어진 인시던트 조각들을 일관된 시스템 서사로 엮어내기
- 숨겨진 패턴을 눈에 보이고, 이야기 가능한 형태로 만들기
- 신뢰성 투자를 공유된 시각적 증거에 기반해 결정하기
- SRE, 플랫폼 엔지니어링 등 여러 조직을 가로지르는 공통 리스크 언어를 구축하기
우리가 운영하는 시스템에 비하면 종이, 펜, 화이트보드는 매우 로우테크하게 보일 수 있습니다. 그러나 생각하는 도구로서 그 레버리지는 상당히 높습니다. 더 나은 신뢰성으로 가는 가장 빠른 길이, 가끔은 터미널에서 잠시 눈을 떼고, 종이 실들이 붙은 벽 앞에 함께 모여, 시스템이 어떻게 실패하는지—그리고 앞으로는 어떻게 “더 나은 방식으로” 실패하게 만들지—이야기를 엮어 보는 것일 수 있습니다.