Rain Lag

아날로그 인시던트 스토리 타이드풀: 작은 실패가 거대한 장애 파도로 커지는 걸 책상 위 해변에서 미리 보는 법

유추적(비유적) 사고, 타이드풀(tidepool), 그리고 블레이멀리스 포스트모템이 어떻게 SRE가 작은 실패를 ‘미래 장애의 초반 파동’으로 인식하게 해 주는지 살펴봅니다. 파도가 실제 프로덕션을 덮치기 전에 말이죠.

당신 책상 위의 아날로그 타이드풀

당신 책상 위에 아주 작은 해변이 하나 있다고 상상해 보세요.

모래와 바닷물이 아니라, 대시보드, 로그, 알람, 인시던트 티켓, 그리고 Slack 스레드들로 이루어진 해변입니다. 작은 파동들이 계속 밀려옵니다. 여기서는 지연(latency) 스파이크가 한 번, 저기서는 간헐적으로 깨지는 테스트가 하나, 평소보다 조금 더 가파르게 떨어지는 에러 버짓(error budget) 차트가 보입니다.

각각은 정말 사소해 보입니다. 파도라기보다는 잔물결에 가깝죠.

하지만 이들을 시간을 두고, 함께 바라보면 훨씬 풍부한 무언가가 드러납니다. 바로 **인시던트 스토리로 가득 찬 타이드풀(tidepool)**입니다. 그리고 이 타이드풀을 올바르게 읽어내는 법을 익히면, 그런 작은 실패들, 전조, 아슬아슬하게 지나간 위기들이 어떻게 전면적인 장애 파도로 자라나는지 보이기 시작합니다.

이게 바로 인시던트 데이터와 운영 히스토리를 아날로그 타이드풀로 다루는 사고방식입니다. 개별 이벤트가 아니라, 그 사이에서 살아 움직이는 패턴이 주인공이 되는 살아 있는 환경으로 보는 것이죠.

이 글에서는 왜 **비유와 유추(analogies)**가 복잡한 시스템을 이해하는 데 핵심적인지, 수십 년간 축적된 유추 추론 연구가 SRE 업무에 어떻게 직접 연결되는지, 그리고 흩어진 인시던트를 하나의 예측 가능한 해안선으로 엮어내는 문화와 실천 방법을 살펴보겠습니다.


인시던트 리뷰에 ‘비유’가 꼭 있어야 하는 이유

비유는 컨퍼런스 발표를 꾸미는 예쁜 수사 정도가 아닙니다. 인지 과학자 **키스 홀요크(Keith Holyoak)**는 수십 년간의 연구를 통해 유추적(비유적) 추론이 인간 지능과 창의성의 핵심 메커니즘임을 보여 왔습니다.

우리는 비유를 통해:

  • 낯선 영역을 익숙한 영역에 빗대어 이해하고
  • 겉모습은 달라도 깊은 관계 구조의 유사성을 포착하며
  • 한 맥락에서 얻은 해법을 다른 맥락으로 옮겨 씁니다.

홀요크의 연구는 **심리학, 신경과학, 인공지능, 심지어 시(詩)**에 이르기까지 폭넓게 걸쳐 있으며, 비유가 지능의 부산물이 아니라 지능을 움직이는 엔진 그 자체임을 보여 줍니다. “이번 장애, 지난 분기 캐시 터졌을 때랑 느낌이 비슷한데?”라고 말하는 순간, 당신은 허공 잡는 소리를 하는 게 아니라 매우 가치 있는 인지 활동을 하고 있는 셈입니다.

복잡한 시스템에서는 표면적인 디테일이 끊임없이 바뀝니다. 서비스가 바뀌고, 데이터센터가 바뀌고, 코드 경로가 바뀌고, 온콜 근무자도 바뀝니다. 하지만 실패의 관계 구조—원인이 어떻게 상호작용하는지, 어떤 신호들이 어떻게 나타나는지, 어떤 결정이 결과를 어떻게 비트는지—는 자주 반복됩니다.

바로 여기서 비유가 빛을 발합니다.

비유를 통해 SRE 팀은 무슨 일이 일어났는가에서 한 발 더 나아가, 이번 인시던트는 무엇과 닮았는가를 말할 수 있습니다.

그리고 이 전환, 즉 인시던트를 고립된 사건이 아니라 어떤 패턴에 속한 한 사례로 보는 관점이 혼돈을 학습으로 바꾸는 지점입니다.


유일무이한 장애에서 익숙한 패턴으로

인시던트 대응에서 흔히 보이는 안티 패턴 하나는, 모든 장애를 완전히 예외적인 일-off 사건으로 취급하는 것입니다.

  • “진짜 희한한 코너 케이스였어요.”
  • “이건 다시는 안 일어날 거예요.”
  • “이전이랑은 완전 다른 유형이에요.”

가끔은 사실일 수도 있습니다. 하지만 우리가 느끼는 것만큼 자주 그런 건 아닙니다.

SRE 팀이 인시던트를 유추적으로(비유적으로) 보기 시작하면, 관점이 이렇게 바뀝니다.

  • “이번에 정확히 어디가 고장 났지?”에서
  • “이건 어떤 ‘실패 패밀리’에 속하는 사건이지?”로.

예를 들어:

  • 실패한 데이터베이스 페일오버
  • 잘못 구성된 피처 플래그 롤아웃
  • 잘못 설계된 캐시 무효화 전략

이 셋은 얼핏 보면 완전히 별개로 보입니다. 하지만 유추적으로 보면 세 가지 모두 **“되돌릴 수 있다는 위험한 가정(unsafe reversibility assumptions)”**이라는 공통 패턴의 사례일 수 있습니다. 즉, “언제든 쉽게 롤백할 수 있다”고 가정했지만, 현실은 전혀 그렇지 않았던 지점들이죠.

한번 이 패턴에 이름을 붙이고 알아보기 시작하면, 그 순간부터는 개별 인시던트를 고치는 수준을 넘어, 앞으로 생길 같은 부류의 실패 전체에 대해 시스템을 강화하게 됩니다.


당신의 인시던트 타이드풀: 파도가 만들어지는 걸 지켜보기

당신의 시스템을 해안선으로, 운영 히스토리를 타이드풀로 생각해 보세요.

  • 인시던트는 바위에 부딪혀 부서지는 눈에 띄는 파도입니다.
  • 각 **near miss(아슬아슬하게 넘어간 사건)**는 거의 파도로 커질 뻔했지만, 일찍 사그라진 물결입니다.
  • 경고 신호는 물결의 미세한 변화—조류가 달라지고, 거품 무늬가 바뀌는 현상입니다.

안전 공학(safety science)에서는 다음과 같은 개념들로 이를 설명합니다.

  • Accident precursors(사고 전조) – 큰 실패와 구조적으로 닮은 작은 문제들
  • Accident pathogens(사고 병원체) – 시스템 어딘가에 잠복해 있다가 나중에 사고를 촉발하는 조건들
  • Near misses(아슬아슬하게 비켜간 사고) – 큰 영향이 발생하기 전에 잡히거나 스스로 해소된 사건
  • Warning signs(경고 신호) – 정상 범위를 벗어나기 시작했음을 알려 주는 초기 신호들

이 모든 것은 큰 장애를 둘러싼 작은 사건들의 생태계를 설명하는 용어입니다.

이 타이드풀 속의 “작은 생물들”을 전혀 들여다보지 않으면, 우리는 큰 파도가 해안에 부딪힐 때에야 비로소 존재를 인식하게 됩니다. 반대로 이들을 관찰하기 시작하면 다음과 같은 것들이 보이기 시작합니다.

  • 사건들이 사슬처럼 엮여 가는 모습
  • 의존성이 점점 조여지는 과정
  • 시스템에 스트레스가 축적되는 양상

목표는 모든 작은 실패를 없애는 것이 아닙니다. 그건 불가능합니다. 목표는 그 작은 실패들이 시간이 지나며 어떻게 ‘스스로 조직화’되어 장애 파도를 만들어 내는지 보는 것입니다.


사고 경로(Accident Pathway): 장애는 벼락이 아니라 연쇄

대부분의 장애는 단일한 치명적 실패 지점에서 시작되지 않습니다. 대신 **사고 경로(accident pathway)**를 따라 진행됩니다. 크고 작은 사건, 의사결정, 시스템 상태가 조금씩 쌓이고 얽히다가 어느 순간 한계선을 넘는 것입니다.

어떤 사고 경로는 이렇게 생겼을 수 있습니다.

  1. 3년 전에는 합리적이었던 설정 기본값이 그대로 방치된다.
  2. 새로운 서비스가 그 기본값이 여전히 안전하다고 가정한 채 설계된다.
  3. 그 의존성을 충분히 이해하지 못한 상태에서 SLO가 정의된다.
  4. 트래픽 스파이크가 발생해, 오랫동안 잠복해 있던 약점이 드러난다.
  5. 이를 완화하려는 조치가 다른 의존성과 나쁘게 상호작용한다.
  6. 복합적인 효과가 연쇄 반응을 일으키며 대형 인시던트로 이어진다.

6번만 보면 우리는 “마지막에 깨진 것”만 탓하게 됩니다. 하지만 사고 경로를 통째로 보면 **“이번 장애는 몇 년에 걸쳐 만들어진 결과”**라는 더 정확한 이야기가 드러납니다.

시스템을 타이드풀처럼 다룬다는 것은 곧:

  • 최종 크래시만 기록하는 게 아니라, 앞쪽 단계들도 함께 수집해 연결하고,
  • “이런 경로를 예전에 어디서 본 적이 있지?”라고 묻게 되며,
  • 기술 스택이나 서비스가 달라도, 과거 인시던트에서 유사한 사고 경로를 찾는다는 뜻입니다.

바로 여기서 유추적 사고가 실질적인 선제 대응 능력으로 바뀝니다.


블레이멀리스 포스트모템은 타이드풀 현장 조사다

블레이멀리스(blameless)하고 구조화된 포스트모템은 곧 **타이드풀 현장 조사(fieldwork)**입니다.

“누가 잘못했나?”를 묻는 대신, 이렇게 물어봅니다.

  • 여기서 어떤 패턴들이 보이는가?
  • 더 일찍 어떤 신호들을 갖고 있었나?
  • 이미 존재하던 전조나 병원체는 무엇이었나?
  • 이전의 어떤 인시던트와 닮아 있는가?

건강한 포스트모템 문화는 다음과 같은 특징을 가집니다.

  • 인간의 실수를 범죄화하지 않고, 일상적이고 자연스러운 것으로 인정합니다.
  • 시스템 설계, 인센티브 구조, 정보 흐름에 초점을 맞춥니다.
  • 단순 타임라인을 넘어, 맥락과 이야기가 담긴 풍부한 내러티브를 기록합니다.
  • “이거, 예전에 그 사건이랑 좀 비슷한데요…”라는 말을 장려합니다.

마지막 요소가 특히 중요합니다. 바로 이 지점에서 홀요크의 수십 년 연구가 실제 SRE 실무와 만나게 됩니다. 사람들이 안전하게 말할 수 있는 환경에서는, 복잡한 사건을 이해하기 위해 자연스럽게 비유와 스토리를 사용합니다. 우리의 할 일은 그런 비유들을 걸러내는 게 아니라, 포착하고 구조화하는 것입니다.


나만의 아날로그 인시던트 스토리 타이드풀 만들기

아날로그 타이드풀을 만들기 위해 새로운 툴 카테고리가 필요한 건 아닙니다. 필요한 것은 비유와 패턴이 떠오를 수 있게 해 주는 습관과 구조입니다.

다음과 같은 실천을 고려해 보세요.

1. 컴포넌트 말고 ‘패턴’으로 인시던트를 태깅하기

“데이터베이스”, “네트워크” 같은 컴포넌트 태그를 넘어서, 이런 태그를 추가합니다.

  • unsafe_reversibility (되돌릴 수 있다는 위험한 가정)
  • silent_degradation (눈에 잘 안 띄는 성능·품질 저하)
  • unverified_assumption (검증되지 않은 가정)
  • orphaned_dependency (주인 없는/관리 안 되는 의존성)

시간이 지나면 이런 **관계 기반 태그(relational tags)**를 통해 서로 다른 서비스에 걸쳐 형성되는 파도를 볼 수 있습니다.

2. Near miss를 일급 시민으로 대우하기

다음과 같은 사건에 대해 가볍게라도 포스트 인시던트 노트를 남깁니다.

  • 거의 실패할 뻔한 롤백
  • 필요 이상으로 시끄러웠던 알람
  • “간신히 살렸다” 수준의 수동 개입

그리고 이렇게 적어 둡니다. “만약 이 선을 넘었다면, 어떤 더 큰 실패와 닮았을까?”

3. 비유 중심(analog-driven) 리뷰 세션 운영하기

정기적인 주기로(월간 혹은 분기별):

  • 소수의 인시던트와 near miss를 골라 모으고
  • 의도적으로 묻습니다. “이건 무엇과 닮았나요?”
  • 스토리를 **실패 패밀리(families of failure)**로 묶습니다.

타이드풀을 들여다보며 “이건 어떤 종(species)이지?” 하고 이름 붙이는 작업이라고 생각하세요.

4. 스토리를 재사용 가능한 휴리스틱으로 만들기

반복되는 패턴에서 다음과 같은 ‘경험 법칙’을 뽑아냅니다.

  • “롤백 가능성이 핵심인 변경은, 반드시 부하가 걸린 상태에서 롤백 테스트를 한다.”
  • “새로운 의존성은 반드시 실패 모드 분석(failure mode analysis) 문서를 동반한다.”

이런 휴리스틱은 과거 스토리와 미래 설계 사이를 잇는 다리입니다.


작은 실패를 지켜보는 조용한 힘

시스템을 아날로그 타이드풀로 보는 일은 드라마를 추구하는 일이 아닙니다. 조용하지만 꾸준한 관찰의 문제입니다.

우리는:

  • 서로 다른 인시던트 속에서 반복되는 관계 구조를 읽어내고,
  • “이번엔 완전히 다른 케이스야”라고 우기기보다, 비유를 초대하며,
  • 블레이멀리스 포스트모템을 통해 범인을 찾기보다는 사고 경로를 지도화하고,
  • 전조, 병원체, near miss, 경고 신호에 의도적으로 주목합니다.

시간이 지나면 보상은 눈에 잘 띄지 않지만, 매우 깊은 변화로 돌아옵니다.

우리는 파도가 만들어지기 전에 그 기척을 느끼기 시작합니다.

인시던트는 더 이상 무작위 폭풍이 아니라 익숙한 날씨 패턴처럼 보입니다. 위험한 가정이 풍기는 냄새를 알아차립니다. 의존성이 한계에 다다를 때의 리듬을 듣게 됩니다. 작년에 큰 장애로 이어졌던 사고 경로의 익숙한 윤곽을 미리 알아보고, 이번에는 그 전에 방향을 틀 수 있습니다.

이것이 바로 아날로그 인시던트 스토리 타이드풀의 가치입니다. 이것은 특정 대시보드도, 단일 지표도, 한 장짜리 런북도 아닙니다. 세상을 보는 방식입니다.

그리고 일단 작은 실패들을 ‘미래 장애의 초기 파동’으로 보기 시작하면, 해안선이 언제나 그래왔듯이, 파도가 진짜로 중요한 것에 부딪히기 전에 그 에너지를 모양내고, 부드럽게 만들고, 방향을 돌려 놓을 수 있게 됩니다.

책상 앞에 앉아, 당신의 알람, 티켓, 포스트모템을 바라보세요.

이건 그냥 운영 노이즈가 아닙니다. 당신만의 타이드풀입니다.

물을 지켜보기 시작하세요.

아날로그 인시던트 스토리 타이드풀: 작은 실패가 거대한 장애 파도로 커지는 걸 책상 위 해변에서 미리 보는 법 | Rain Lag