Rain Lag

연필로 그린 장애 플래니터리움: 혼돈 대신 사건을 별자리로 만드는 법

흩어진 장애를 별자리, 성도, 천문학 메타포로 엮어 현대적인 학습 중심 신뢰성 문화와 실천으로 전환하는 방법을 다룹니다.

연필로 그린 장애 플래니터리움: 혼돈 대신 사건을 별자리로 만드는 법

신뢰성(reliability) 업무는 종종 폭풍우 치는 밤하늘 아래 서 있는 느낌을 줍니다. 알람은 번개처럼 쉴 새 없이 울리고, 티켓은 빗물처럼 쏟아지며, 모든 장애는 매번 새롭고, 급하고, 이전 장애와는 전혀 연결되지 않은 것처럼 보입니다.

그런데 만약 장애를 ‘별’처럼 다룬다면 어떨까요?

고립된 고통의 점이 아니라, 이름 붙이고, 지도에 그리고, 항해에 활용할 수 있는 별자리의 일부로 보는 겁니다. 무작위 점들로 가득한 혼란스러운 밤하늘 대신, 종이에 별을 찍고, 선을 긋고, 정리해 낸 연필로 그린 장애 플래니터리움을 갖게 되는 것이죠. 생각할 수 있고 논의할 수 있는 구조화된 하늘입니다.

이것이 바로 의도적인 메타포, 구조화된 포스트모템(postmortem), 그리고 지속적인 장애 해석(incident sensemaking)의 힘입니다. 단순히 혼돈에 반응만 하는 것이 아니라, 하늘을 읽는 법을 배우는 것입니다.


흩어진 장애에서 ‘사건 별자리’로

대부분의 팀은 장애를 서로 상관없는 긴급 상황의 연속으로 경험합니다.

  • 지난주에 튄 502 에러 스파이크
  • 어제 느려진 결제(체크아웃) 플로우
  • 오늘 아침 밀려 있는 백그라운드 잡

각각 급히 처리하고, 복구하고, 티켓을 닫습니다. 그리고 모두 다시 프로젝트 업무로 전력 질주합니다.

하지만 줌아웃해서 멀리서 보면, 이런 ‘랜덤’해 보이는 장애들이 사실은 눈에 익은 패턴을 이루곤 합니다.

  • “숨은 의존성(Hidden Dependency)” 별자리: 동일한 서드파티 서비스 장애가 겉으로는 서로 다른 증상으로 반복해서 나타나는 패턴
  • “느린 롤아웃(Slow Rollout)” 별자리: 카나리 분석이 약하거나 아예 없어서 발생하는 다수의 배포 관련 장애 패턴
  • “부족 지식(Tribal Knowledge)” 별자리: 한 명만 잘 아는 레거시 컴포넌트 때문에 매번 같은 영역에서 혼란이 반복되는 패턴

장애를 별자리로 본다고 해서 실패가 마법처럼 사라지지는 않습니다. 달라지는 것은 생각하는 레벨입니다.

  • 더 이상 “이 한 번의 장애를 다시는 일어나지 않게 하려면?” 만 묻지 않고,
  • “이 장애는 어떤 패턴의 일부인가? 그 패턴이 우리 시스템과 조직에 대해 무엇을 말해 주는가?” 를 묻게 됩니다.

별자리는 개별 실패를 의미 있고 재사용 가능한 이야기로 바꿉니다.


포스트모템: 부검이 아니라 ‘성도(星圖)’

장애가 별이라면, 포스트모템은 그 별을 담은 **성도(스타 맵)**입니다.

여전히 많은 팀이 포스트모템을 이렇게 다룹니다.

  • "큰" 장애 뒤에 형식적으로 작성하는 관료적 문서
  • “루트 원인(root cause)”과 “오너(owner)”를 지목하기 위한 의식
  • 폴더 어딘가에 쌓였다 잊히는 1회성 회고

대신 포스트모템을 체계적인 성도 작성 작업으로 생각해 보세요.

  • 장애를 정확하게 기록합니다. (하늘의 어디에서 나타났는지)
  • 이름을 붙입니다. (이야기와 전략에서 참조할 수 있도록)
  • 다른 별들과 함께 그립니다. (어디에 모이고, 무엇과 연결되는지 보이도록)

좋은 장애 포스트모템은 단지 이렇게 끝나지 않습니다.

"캐시를 잘못 설정해서 30분 장애가 났다. 수정했고 테스트를 추가했다."

좋은 포스트모템은 다음과 같습니다.

  • 단지 “무슨 일이 실제로 일어났는가”가 아니라, 사람들이 언제 무엇을 보고 무엇을 믿었는지에 대한 내러티브
  • 장애가 이렇게 전개되도록 만든 조직적 조건과 맥락에 대한 기록
  • 장기적인 실패 카탈로그 안에 라벨링된 하나의 점

시간이 지나면 이 카탈로그는 **신뢰성 스타 아틀라스(star atlas)**가 됩니다. 쿼리하고, 비교하고, 학습할 수 있는 참조 자료죠.

  • "대시보드가 없어서 온콜 대응자가 막혔던 사건들만 보여줘"
  • "팀 간 배포 조율 문제와 연관된 장애를 묶어줘"
  • "지난 분기에 새로 드러난 별자리는 무엇인가?"

이때 포스트모템은 더 이상 부검서가 아니라, 항해를 위한 도구가 됩니다.


맨눈 일화에서 계측된 관측성(Observability)으로

천문학은 처음부터 망원경으로 시작하지 않았습니다. 사람들은 먼저 맨눈으로 밤하늘을 올려다보며 이야기를 만들었습니다.

여러분의 신뢰성 실천도 비슷한 길을 걸어왔을 가능성이 큽니다.

  • 초기에 장애는 주로 **일화(anecdote)**로 설명됩니다. "DB가 느려진 것 같아요."
  • 디버깅은 영웅주의, 직감에 의존합니다. 어디를 봐야 하는지 ‘감’으로 아는 한 사람이 다 해결하는 식입니다.
  • 손에 있는 “데이터”는 불완전하고, 늦게 오고, 믿기 어렵습니다.

천문학은 시간이 지나며 육분의(sextant), 망원경, 전파 수신기 같은 계측 도구를 더해 민속 지식에서 구조화된 관측으로 이동했습니다.

현대의 신뢰성 팀에도 도구가 있습니다.

  • 로그, 메트릭, 트레이스, 프로파일은 우리의 망원경
  • **SLO(Service Level Objective), 에러 버짓(error budget)**은 항해도
  • 자동 알람, 이상 탐지는 조기 경보 레이더

목표는 다음과 같은 상태에서:

  • "새벽 3시쯤에 뭔가 이상한 일이 있었던 것 같아요."

다음과 같은 상태로 옮겨가는 것입니다.

  • "이 서비스의 특정 변경으로 인해 SLO 번 레이트(burn rate)가 급상승했고, 이 의존성 체인 전체의 트레이스로 추적 가능합니다."

당신의 오브저버빌리티(observability) 스택은 현대식 관측소입니다. 하지만 이것이 진정한 힘을 발휘하는 것은 ‘별을 그리는 일’과 짝을 이룰 때입니다. 데이터를 패턴으로, 패턴을 공유된 이해로 바꾸는 것이죠.


장애 분석을 ‘지속적인 하늘 스캐닝’으로 보기

많은 조직은 장애 분석을 일회성 의식으로 취급합니다.

  1. 장애 발생
  2. 불 끄기(복구)
  3. 의무적인 포스트모템 미팅
  4. 액션 아이템 생성
  5. 모두 잊고 제 할 일로 복귀

이건 마치, 운석이 집을 들이받았을 때만 하늘을 올려다보는 것과 같습니다.

더 탄력적인 접근 방식은 장애 관련 일을 지속적인 하늘 스캐닝(sky-scanning) 실천으로 보는 것입니다.

  1. 스캐닝(Scanning) – 근접 사고(near-miss), 작은 알람, 설명되지 않는 메트릭 출렁임 등 작은 신호를 지속적으로 관찰
  2. 센스메이킹(Sensemaking)"우리가 보고 있는 것을 설명할 만한 이야기는 무엇인가? 비슷한 걸 본 사람은 누구인가?" 를 묻기
  3. 프레이밍(Framing) – 장애를 용량(capacity), 협업/조율(coordination), 의존성 리스크(dependency risk) 등 더 넓은 카테고리에 위치시키기
  4. 리프레이밍(Reframing) – 새로운 장애와 새로운 정보를 바탕으로 이전 결론을 다시 검토하기

이렇게 하면 당신의 실천은 다음에서:

  • 개별 사건 이후에만 열리는 단절된 회의들의 나열에서

다음으로 전환됩니다.

  • 실제 프로덕션 환경에서 시스템이 어떻게 행동하는지를 계속 업데이트해 나가는 살아 있는 지도

분기마다 한 번 밤하늘을 squint(눈을 가늘게 뜨고) 보던 사람에서, 상시 운영되는 관측소를 돌리는 사람으로 바뀌는 셈입니다.


메타포로 신뢰성 문화를 다시 그리기

메타포는 장식이 아닙니다. 우리가 무엇을 가능하다고 여기는지를 규정합니다.

같은 툴, 같은 장애량을 가진 두 팀도 메타포에 따라 전혀 다른 문화를 가질 수 있습니다.

  • 비난과 두려움의 메타포: 신뢰성은 법정, 포스트모템은 재판, 장애는 개인의 실패
  • 탐험의 메타포: 신뢰성은 항해, 포스트모템은 성도, 장애는 복잡한 우주를 이해하기 위한 데이터 포인트

탐험·천문·지도 메타포를 채택하면 이런 메시지를 전달하게 됩니다.

  • 복잡계에서 장애는 당연히 발생하는 것이지, 도덕적 실패가 아니다.
  • 목표는 학습이지, "누가 망가뜨렸는지 찾는 것"이 아니다.
  • 모두가 관측자이며, 지도를 함께 만드는 사람이지, 이름이 불릴까 두려워 숨는 피의자가 아니다.

"Incident investigation" vs. "blameless learning review(비난 없는 학습 리뷰)", "star map" vs. "RCA(Root Cause Analysis) 문서" 같은 언어 선택은 사소해 보일 수 있지만, 시간이 지나면 사람들이 회의에 들어오는 태도 자체를 바꿉니다.

메타포를 의도적으로 사용하세요.

  • 반복되는 패턴에 별자리 이름을 붙이세요.
  • 장애 카탈로그를 스타 아틀라스, 스카이 맵이라고 부르세요.
  • 아직 경험하지 않은 장애 영역을 **아직 지도에 없는 미지의 구역(uncharted regions)**으로 이야기하세요.

구조화되고 재사용 가능한 템플릿: 당신의 ‘별자리 좌표 격자’

천문학자는 별을 종이에 아무렇게나 끄적이지 않습니다. 격자, 좌표, 기준 체계를 사용합니다.

똑같이 여러분도 구조화되고 재사용 가능한 포스트모템 템플릿을 도입할 수 있습니다. 매번 즉흥적으로 문서를 만드는 대신, 공통 패턴을 정의하는 겁니다.

예를 들어 이런 구조가 있을 수 있습니다.

  • Context & Conditions (맥락과 조건) – 장애 당시 어떤 일이 있었나? (배포, 트래픽 변화, 실험, 조직 변화 등)
  • Timeline & Observations (타임라인과 관측) – 누가 언제 무엇을 보았나? 각 단계에서 사람들은 무엇을 믿고 있었나?
  • Detection & Signals (탐지와 신호) – 어떻게 감지했나? 어떤 신호가 없었거나, 헷갈리게 만들었나?
  • Coordination & Communication (조율과 커뮤니케이션) – 팀 간 상호작용은 어땠나? 핸드오프나 혼선은 어디에서 생겼나?
  • Contributing Factors (복수의 기여 요인) – 단일 "루트 원인"이 아니라, 기술적·조직적·맥락적 요인들
  • Similar Stars (비슷한 별들) – 이 장애가 속한 관련 사건, 패턴, ‘별자리’ 링크
  • Learnings & Hypotheses (학습과 가설) – 무엇을 배웠으며, 무엇을 시험해 보거나 바꿀 것인가?

모든 장애를 이런 유사한 구조로 담기 시작하면:

  • 신호 품질이 좋아집니다. – 일관된 형태라 쿼리와 비교가 쉬워집니다.
  • 학습이 누적됩니다. – 많은 사건을 모아 상위 레벨의 테마를 볼 수 있습니다.
  • 별 카탈로그가 실제로 쓸모 있어집니다. – 랜덤 PDF 무덤이 아니라, 찾아보고 활용할 수 있는 자료가 됩니다.

이게 바로 당신의 **별자리 좌표 격자(constellation grid)**입니다. 어지러운 하늘을, 분석과 역사적 회고가 가능한 구조로 바꾸는 방법입니다.


신뢰성 전략: 위에서 떨어지는 지도 대신 ‘공유된 하늘’

전통적인 신뢰성 전략은 때때로 지나치게 경직됩니다.

  • 중앙 팀이 표준과 정책을 정의하고,
  • 나머지 팀들은 그것을 "이행"하지만, 실제 리스크에 대한 이해에는 잘 참여하지 못합니다.

천문학에서 영감을 받은 접근은 신뢰성을 같은 하늘을 바라보는 관측자들의 생태계로 봅니다.

  • 각 팀이 장애 관측, 근접 사고, 맥락 정보를 지속적으로 제공
  • 패턴은 단일 기획자가 아니라 여러 관점이 합쳐지며 드러남
  • 전략적 의사결정은 슬라이드 덱 속 상상 속 리스크가 아니라, 실제 관측된 별자리에 의해 이끌림

이렇게 하면 전략은 더 잘 적응하게 됩니다.

  • 새로운 별자리(예: 반복적인 멀티 리전 장애)가 나타나면 전략도 그쪽으로 피벗할 수 있고,
  • 사라져 가는 별자리(예: 오래된 모놀리식 시스템 관련 이슈)는 투자 우선순위에서 비중을 줄일 수 있습니다.
  • 팀마다 **에이전시(agency)**가 생깁니다. 단순히 주어진 계획을 따르는 존재가 아니라, 지도를 함께 그려 나가는 공저자가 됩니다.

신뢰성은 집단적인 항해 행위가 됩니다.


당신의 ‘연필로 그린 플래니터리움’을 현실로 만드는 방법

이걸 시작하기 위해 거대한 플랫폼 개편이 필요한 것은 아닙니다. 연필과 종이 같은 마음가짐으로도 충분히 시작할 수 있습니다.

  1. 당신의 별자리에 이름을 붙이세요
    반복되는 실패 패턴에 이름을 붙이기 시작하세요. 기억에 남는 이름을 쓰고, 대화 속에서 실제로 사용하세요.

  2. 스타 맵을 표준화하세요
    재사용 가능한 장애 포스트모템 템플릿을 도입하고, 크고 작은 사건 모두에 적용되도록 하세요.

  3. 스타 카탈로그를 만드세요
    모든 장애 분석을 하나의 검색 가능한 시스템에 저장하세요. 패턴, 시스템, 기여 요인으로 태깅하세요.

  4. 관측 장비에 투자하세요
    점진적으로 오브저버빌리티를 개선해 더 넓은 하늘을 보세요. 더 나은 트레이스, 더 유용한 대시보드, 더 명확한 SLO를 마련하세요.

  5. 하늘 스캐닝을 상시화하세요
    최근 장애와 근접 사고를 정기적으로 짧게 리뷰하는 자리를 만드세요. 단순 "해결"이 아니라 패턴에 초점을 맞추세요.

  6. 탐험 메타포를 강화하세요
    사용하는 언어, 의식, 보상 체계에서 비난이 아니라 학습·호기심·공동 항해를 강조하세요.


결론: 당신만의 하늘을 읽는 법

장애는 결코 완전히 사라지지 않을 것입니다. 복잡한 시스템은 언제나 우리를 놀라게 할 것입니다.

하지만 혼돈스럽고 두려운 밤하늘 아래에서만 일할 필요는 없습니다. 장애를 별로, 포스트모템을 성도로, 오브저버빌리티를 현대식 망원경으로 다루기 시작하면, 흩어진 실패들을 통찰의 별자리로 바꿀 수 있습니다.

시간이 흐르면, 당신의 연필로 그린 장애 플래니터리움은 조직 전체가 함께 사용하는 살아 있는 아틀라스가 됩니다. 밤이 어둡다는 사실을 부정하는 것이 아니라, 그 어둠 위에 그려진 패턴을 읽는 법을 배우는 방식으로, 모두가 함께 신뢰성이라는 바다를 항해하게 됩니다.

연필로 그린 장애 플래니터리움: 혼돈 대신 사건을 별자리로 만드는 법 | Rain Lag