Rain Lag

아날로그 장애 스토리 나침반 시계: 다음 장애가 시작될 곳을 미리 가리키는 책상 위의 다이얼

상상 속 책상 위 다이얼을 통해 오늘날 장애 대응 도구에 무엇이 빠져 있는지, 그리고 왜 지난 장애를 기록하는 것에서 끝나지 않고 ‘다음 장애’를 가리키는 시스템이 필요한지를 살펴봅니다.

아날로그 장애 스토리 나침반 시계: 다음 장애가 어디서 시작될지 가리켜주는 책상용 다이얼

운영 워 룸(operations war room)에 들어갔더니, 테이블 한가운데 묵직한 황동 탁상시계가 놓여 있다고 상상해 보세요.

시간을 알려주는 시침과 분침 대신, 정교하게 가공된 바늘 하나만 있습니다. 시계 둘레에는 이렇게 적혀 있습니다: Database, Auth Service, Payment Gateway, Network Edge, CI/CD, Third-Party APIs 등등.

몇 분에 한 번씩 바늘이 살짝 움직이더니 멈춰 서고, 다음 장애를 일으킬 가능성이 가장 높은 서브시스템을 가리킵니다.

이게 바로 **아날로그 장애 스토리 나침반 시계(Analog Incident Story Compass Clock)**입니다. 실제로 존재할 수 없기 때문에 오히려, 오늘날 우리가 만드는 장애 관리(incident management) 도구들에 얼마나 큰 결핍이 있는지를 드러내는 상상의 도구입니다.

우리는 장애를 처리하는 일에는 꽤 능숙해졌습니다. 하지만 장애를 예측하는 데에는 여전히 형편없습니다.

이 글은 그 상상의 책상용 다이얼을 비유 삼아, 현대적인 장애 관리 시스템이 무엇을 놓치고 있는지, 그리고 긴급 구조, 동적 인터페이스, 고신뢰 시스템 엔지니어링에서 어떤 아이디어를 가져와야 실제로 다음 실패를 가리키는 도구를 만들 수 있는지 이야기합니다.


현재의 장애 관리: 물류·운영은 강하지만, 통찰은 약하다

오늘날 대부분의 장애 관리 플랫폼은 **운영과 관리(operations and administration)**를 중심으로 설계되어 있습니다.

  • 장애(incident) 생성
  • 대응 인력 할당
  • Zoom이나 브리지 콜 개설
  • 상태 및 타임라인 추적
  • 포스트모템 및 컴플라이언스를 위한 로그 정리

이 모든 기능은 필수적입니다. 하지만 거의 모든 도구가 공통으로 가진 블라인드 스폿이 있습니다. 바로 이미 벌어지고 있는 장애의 스토리만 묘사할 뿐, 이제 막 전개되려는 다가오는 스토리는 보여주지 못한다는 점입니다.

물류–통찰 격차(Logistics–Insight Gap)

“누가 온콜이고, 지금 상태는 어떠한가?”와 “다음에 어디가 터질 것인가?” 사이에는 큰 간극이 있습니다.

  • 도구들은 워크플로 오케스트레이션(페이징, 티켓팅, 커뮤니케이션)에는 뛰어납니다.
  • 실시간으로 근본 원인을 이해하도록 돕는 도구는 훨씬 적습니다.
  • 다음 장애가 어디서 시작될지 예측해 주는 도구는 거의 없습니다.

대시보드는 레이턴시, 에러율, CPU 사용률을 보여줍니다. 장애 관리 도구는 누가 어떤 문제를 처리 중인지 보여줍니다. 하지만 이 둘을 하나의 이야기로 엮어주는 것은 무엇일까요? 이런 방향성을 말해 주는 나침반은 어디에 있을까요?

“이 추세가 계속되면, 다음 실패는 Auth Service에서 시작될 가능성이 가장 높습니다.”

스토리 나침반 시계가 허무맹랑하게 느껴지는 이유는, 데이터를 종합해 방향성 있는 예측으로 바꿔 주는 시스템이 존재하지 않기 때문입니다. 우리는 데이터 조각들은 가지고 있지만, 스토리를 만들어내는 엔진은 없습니다.


고위험 분야가 잘하고 있는 것들

무엇이 빠져 있는지 이해하려면, 전통적인 소프트웨어 운영 세계 밖을 잠깐 보는 게 도움이 됩니다.

1. 긴급 구조: 동적이고 미션 중심적인 인터페이스

현대의 긴급 구조팀은 정적인 지도, 종이 매뉴얼, 무전기를 번갈아 들여다보지 않습니다. 그들은 동적 인터페이스를 사용해, 상황에 따라 필요한 정보를 필요한 순간에 띄워 줍니다.

  • 현장으로 가기 위한 내비게이션
  • 주요 건물에 대한 사전 정보(Pre-plan): 평면도, 소화전 위치, 위험 물질 정보 등
  • 맞춤 지도 레이어: 통제 구역, 과거 출동 기록, 주요 기반시설 위치 등

이런 인터페이스는 일반적인 대시보드가 아닙니다. 위치, 자원, 컨텍스트를 하나의 **작전 그림(operational picture)**으로 통합한, 미션 특화 뷰입니다.

이게 바로 우리 스토리 나침반 시계의 디지털 아날로그(비유)입니다. 무언가 벌어지면, 대응 인력은 단순히 “문제가 있다”는 사실만이 아니라, 어디서, 무엇이, 어떻게 일어나고 있는지 바로 확인할 수 있습니다.

2. MDT(Mobile Data Terminal): 목적 지향적·완전 통합 도구

경찰차, 소방차, 구급차에 탑재된 모바일 데이터 터미널(MDT)은 목적 지향 도구가 일상 업무 흐름에 깊이 통합될 때 얼마나 강력한지 보여 줍니다.

  • 출동, 상태 업데이트, 내비게이션, 리포팅에 특화된 인터페이스
  • CAD(Computer-Aided Dispatch, 출동 지령 시스템)와의 직접 통합
  • 위치, 시간, 행동 로그의 자동 기록

장애 대응 관점에서 보면, MDT는 “브라우저 탭 하나 더”와는 정반대입니다. 업무 흐름 속에 깊숙이 박혀 있어서, 기술은 뒤로 사라지고 미션이 전면에 드러납니다.

3. LNG 운반선과 신뢰성 공학: 예측적 사고

액화천연가스(LNG) 운반선의 재액화 시스템은, 실패가 치명적일 수 있는 환경에서 운영됩니다. 여기서 신뢰성 평가는 부수 기능이 아니라 시스템의 핵심입니다.

이런 시스템은 처음 설계부터 운영까지 예측적·신뢰성 중심 사고로 다뤄집니다.

  • 고장 모드를 체계적으로 모델링합니다.
  • 단순 시간 기준이 아니라 발생 가능성과 영향도를 기반으로 유지보수를 계획합니다.
  • 운영자는 시스템이 어디가 가장 취약한지, 다음 문제가 어디서 일어날 가능성이 높은지를 이해하고 있습니다.

다시 말해, 그들은 머릿속과 분석 도구 안에 실패를 향한 나침반을 가지고 있습니다. 완벽한 예언자는 아니지만, 다음에 무엇이 망가질지에 대한 훈련된·구조화된 추론이 가능합니다.


실제 ‘장애 스토리 나침반’이 해야 할 일

이제 비유를 현실에 조금 더 가깝게 가져와 보겠습니다. 만약 진짜로 장애를 위한 디지털 “스토리 나침반”을 만든다면, 무엇을 할 수 있어야 할까요?

1. 모든 관련 데이터를 한곳에 모으기

긴급 구조 전용 소프트웨어가 잘 작동하는 이유는 다음과 같습니다.

  • 지도, 건물 도면, 과거 출동 기록, 자원 상태 등 관련 데이터를 모두 끌어와
  • 하나의 통합된 뷰에 보여주기 때문입니다.

소프트웨어 운영에서 스토리 나침반은 이렇게 동작해야 합니다.

  • 메트릭, 로그, 트레이스, 배포 이력, 피처 플래그 변경, 설정(config) 변경(diff) 등 수집
  • 과거 장애 이력과 잘 알려진 핫스팟 반영
  • 서비스 간 의존 관계와, 실패가 어떻게 전파되는지 연결

여러 개의 도구를 열심히 넘겨보는 대신, 대응 인력은 시스템 건강 상태에 대한 하나의 통합된 그림을 볼 수 있어야 합니다.

2. 그 순간 필요한 ‘미션 크리티컬’ 컨텍스트를 자동으로 띄우기

모든 데이터가 항상 유용한 것은 아닙니다. 핵심은 상황에 따른 컨텍스트 기반 노출입니다.

  • 인증(Auth) 장애가 나면, 사용자 로그인 플로우, 토큰 서비스, 상위(Upstream) ID 제공자를 강조
  • 결제 오류 스파이크가 나면, 결제 게이트웨이 의존성, 부정 거래(Fraud) 체크, 최근 가격/세금 설정 변경을 강조

긴급 구조의 맞춤 지도 레이어처럼, 인터페이스는 장애 유형에 따라 실시간으로 적응해야 합니다.

3. 단순 상태 스냅샷이 아닌, 그럴듯한 ‘스토리’를 말해주기

상상의 나침반 시계가 특별한 이유는, 지금 무엇이 고장 났는지를 보여주는 게 아니라 이 스토리가 어디로 흘러갈지를 암시하기 때문입니다.

실제 시스템은 이렇게 할 수 있습니다.

  • 과거 장애를 학습해 전형적인 **실패 경로(failure pathway)**를 파악합니다.
    예: “캐시 대량 만료 → DB 부하 급증 → 사용자 서비스 타임아웃”
  • 현재 신호를 이 경로와 상관 분석합니다.
  • 다음에 실패할 가능성이 높은 지점을, 예언이 아니라 가설(hypothesis) 목록으로 제시합니다.
    • “이 패턴을 보인 과거 장애의 60%는 Payment 서비스로 확산되었습니다.”
    • “DB CPU가 10분간 90% 이상이면, Checkout 레이턴시 증가가 예상됩니다.”

이는 LNG 신뢰성 분석과 같은 의미의 “예측”입니다. 구조화된 확률적 사고일 뿐, 마술이 아닙니다.

4. 일상 워크플로에 깊이 통합되기

폭풍이 몰아칠 때만 꺼내 보는 나침반은 장난감일 뿐, 진짜 도구가 아닙니다.

가치 있는 스토리 나침반이라면 다음을 만족해야 합니다.

  • 배포, 부하 테스트, 정기 헬스 체크 같은 일상 운영 상황에서도 항상 보이도록
  • 용량 계획, 유지보수 계획, 아키텍처 변경 방향에 실제로 영향을 주도록
  • Slack, Teams, 온콜 앱 등 기존 채널에 자연스럽게 녹아들도록 — 긴급 구조의 MDT처럼, 업무 흐름에 박혀서 쓰이도록

예측과 신뢰성 중심의 사고가 일상적인 습관으로 자리 잡을 때, 팀의 직관은 정교해지고, 도구는 시간이 지날수록 더 정확해집니다.


상상의 시계에서 실용적인 로드맵으로

실제 SRE 책상 위에 황동 다이얼을 올려둘 일은 아마 없을 것입니다. 하지만, 현실적인 단계들을 통해 우리만의 스토리 나침반을 만들기 시작할 수는 있습니다.

  1. 의존성 그래프를 그리세요.
    어떤 시스템이 어떤 시스템에 의존하는지, 그리고 실패가 어떻게 전파되는지 파악합니다.

  2. 장애 관련 데이터를 중앙집중화하세요.
    메트릭, 로그, 장애 이력, 배포 이력을 최소한 서로 크로스 링크해서, 하나의 뷰에서 볼 수 있게 만드는 것만으로도 큰 진전입니다.

  3. 만성적인 핫스팟을 식별하세요.
    과거 장애 이력을 분석해 반복적으로 문제를 일으킨 지점을 찾습니다. 이것이 여러분 나침반의 첫 “대략적인 눈금”입니다.

  4. 컨텍스트 기반 뷰를 추가하세요.
    네트워크, 인증, 데이터, 서드파티 등 주요 장애 카테고리마다 중요한 신호가 무엇인지 정의하고, 그에 맞는 대시보드나 런북을 만듭니다.

  5. 간단한 예측부터 실험하세요.
    작게 시작하세요.
    “X가 오르고 Y가 떨어질 때, 보통 Z가 다음에 망가진다.”
    이런 패턴을 알림, 추천, 주석(Annotation) 형태로 시스템에 녹여 넣습니다.

이 한 걸음 한 걸음이, 황당무계해 보이던 스토리 나침반 시계를 점점 덜 황당하게 만들어 줍니다.


결론: 페이저(호출기) 너머를 가리키기

아날로그 장애 스토리 나침반 시계는, 실제 만들 수 있는 장치의 설계도가 아니라 우리가 무엇을 잃어버렸는지에 대한 이야기입니다.

오늘날 대부분의 장애 도구는 **조정과 기록(코디네이션·레코드 키핑)**에 최적화되어 있습니다. 하지만 이해와 통찰, 예측에는 거의 투자되어 있지 않습니다. 반면 긴급 구조, LNG 운반선 같은 고위험 분야는 동적인 컨텍스트, 통합된 데이터, 예측적 신뢰성을 중심에 두고 생각해야 한다는 것을 보여줍니다.

당신의 장애 플랫폼이 지금 깨진 것이 무엇인지와 누가 온콜인지 정도만 알려 준다면, 그것은 나침반이 아니라 **항해일지(logbook)**에 가깝습니다.

다음 세대의 장애 시스템은 이 이상을 해야 합니다.

  • 관련 신호를 모두 집계하고,
  • 상황에 맞게 인터페이스를 변화시키며,
  • 실패 스토리가 어디로 흘러갈 가능성이 높은지 팀이 함께 추론할 수 있도록 도와줄 것입니다.

황동 다이얼이 꼭 필요한 것은 아닙니다.

필요한 것은, 장애를 단절된 사건들의 모음이 아니라 하나의 연결된 내러티브로 바꾸고, 그 내러티브에 방향성을 부여하는 도구와 실천(practice)입니다. 그때 비로소 우리는 장애에 반응만 하는 것을 멈추고, 장애를 피해서 항해하기 시작할 수 있습니다.

아날로그 장애 스토리 나침반 시계: 다음 장애가 시작될 곳을 미리 가리키는 책상 위의 다이얼 | Rain Lag