Rain Lag

아날로그 장애 스토리 플래닛보드 플라네타리움: 다음 장애 궤도를 예측하는 종이별의 벽

로우테크 종이별 벽 하나로 장애 회고를 데이터 기반 시스템으로 바꾸어, 다음 대형 장애를 예측·예방하는 방법.

아날로그 장애 스토리 트레인보드 플라네타리움: 다음 장애 궤도를 예측하는 종이별의 벽

당신의 장애 데이터가 스프레드시트가 아니라 밤하늘처럼 보인다면 어떨까요?

사무실 한쪽 벽을 떠올려 보세요. 종이별, 궤도선, 손으로 그린 별자리들로 가득한 벽. 각 별 하나가 하나의 장애, 각 궤도는 하나의 시스템, 각 별자리는 반복되는 실패 패턴입니다. 타임라인이자 지도이고, 동시에 이야기이기도 합니다. 이것이 바로 아날로그 장애 스토리 트레인보드 플라네타리움입니다. 물리적이고 시각적인 방식으로 시스템이 어떻게 실패하는지 이해하고, 그로부터 배우며, 다음 장애를 미리 예측하도록 돕는 도구입니다.

대시보드와 자동화에 집착하는 시대에, 이런 방식은 다소 구식처럼 들릴 수 있습니다. 하지만 그게 바로 핵심입니다. 아날로그로 전환하면, 조직이 속도를 늦추고, 더 깊이 생각하며, 디지털 도구가 필터와 차트 뒤에 숨겨 버리는 패턴을 실제 눈으로 볼 수밖에 없게 됩니다.

이 글에서는 이 아날로그 "플라네타리움"을 데이터 기반·구조화된 장애 회고 및 지속 개선 도구로 설계하고 활용하는 방법을 단계별로 소개합니다.


왜 장애에 아날로그 플라네타리움인가?

장애는 대개 갑자기 하늘에서 떨어지지 않습니다. 보통 이런 것들로부터 서서히 드러납니다.

  • 사소한 근접 사고(near miss)
  • 로그와 알림 속의 약한 신호들
  • 해소되지 않은 기술 부채
  • 조직 차원의 시야 사각지대

대부분의 장애 리뷰는 장애 발생 직전 몇 시간에만 초점을 맞춥니다. 플라네타리움은 시야를 강제로 넓혀 이렇게 보게 만듭니다.

  • 여러 월과 여러 시스템에 걸친 장기 패턴
  • 개별 실수가 아닌 시스템적 원인
  • 기술적 결함뿐 아니라 조직적 역학 관계

디지털 도구를 대체하겠다는 게 아닙니다. 그 도구들을 보완하는, 모두가 함께 둘러볼 수 있는 촉각적이고, 스토리텔링이 가능하며, 패턴을 찾기 쉬운 표면을 만드는 것입니다.


1단계: 스토리보드가 아니라 데이터보드로 만들기

플라네타리움은 그냥 감상과 감정만 적어 두는 보드가 아닙니다. 한눈에 장애 히스토리를 보여주는 데이터 기반 아티팩트여야 합니다.

벽에는 무엇을 붙이나?

장애 하나당 종이별 하나를 만듭니다. 각 별에는 다음 정보를 담습니다.

  • 발생 일시와 지속 시간
  • 영향받은 시스템 / 서비스
  • 심각도(severity) 레벨
  • 고객 영향도 (예: 영향을 받은 트래픽 비율 %)
  • 주요 기여 요인 (예: 설정 오류, 용량 문제, 의존성 문제, 휴먼 팩터 등)
  • 탐지 경로 (알림, 고객 신고, 내부 신고 등)

벽에 붙일 때는 가령 이렇게 배치합니다.

  • 가로축: 시간(발생 시점 순)
  • 세로축: 시스템/도메인
  • 또는, 중심부에 가장 핵심 시스템을 두고, 심각도에 따라 중심으로부터의 거리를 다르게 배치

시간이 지나면, 벽 위에 사건들이 모여 **하나의 은하(galaxy)**처럼 보입니다.

중요한 것은, 각 별이 모두 실제 데이터를 바탕으로 한다는 점입니다. 데이터는 기존 장애 관리/트래킹 시스템에서 가져오고, 이 벽은 그 데이터를 보여 주는 시각화 레이어일 뿐입니다.


2단계: 각 장애 리뷰를 ‘미션 브리핑’처럼 준비하기

플라네타리움은 각 장애 리뷰가 의도적이고, 구조화되어 있으며, 시간 제한이 있을 때 가장 큰 힘을 발휘합니다.

리뷰 전에 준비해야 할 것들

  1. 명확한 목표

    • 특정 시스템의 반복 장애를 줄이려는 것인가?
    • 탐지(디텍션) 공백을 분석하려는 것인가?
    • 인간/조직적 요인을 이해하려는 것인가?
  2. 관련 데이터

    • 장애 타임라인과 메트릭(레이턴시, 에러율 등)
    • 같은 시스템 또는 같은 실패 모드로 발생했던 과거 장애들
    • 이번 장애와 관련된 근접 사고와 사소한 알림들
  3. 역할 정의

    • 퍼실리테이터(Facilitator): 시간 관리, 심리적 안전 유지, 논의 초점 관리
    • 스크라이브(Scribe): 인사이트와 결정 사항을 종이와 툴에 기록
    • 도메인 전문가들: 관련 시스템에 대한 컨텍스트 제공
    • 옵서버(Observer): 다른 팀에서 참여해 시야를 넓혀 줌
  4. 플라네타리움 업데이트

    • 이번 장애에 해당하는 새 별을 추가
    • 과거 유관 장애에 해당하는 별에 얇은 윤곽선 또는 연결선으로 표시

사람들이 방에 들어왔을 때, 벽을 보고 이렇게 느껴야 합니다.

"이건 누굴 탓하는 자리가 아니다. 이 장애가 다른 장애들과 어떤 궤도 안에 있었는지를 이해하는 미션 브리핑이다."


3단계: 모든 목소리가 ‘별’이 되도록 회고를 퍼실리테이션하기

벽은 배경일 뿐입니다. 진짜 중요한 일은 그 장애에 대해 어떻게 이야기하느냐입니다.

좋은 퍼실리테이션 구조는 대략 이렇습니다.

  1. 톤 세팅

    • 비난 금지, 망신 주기 금지.
    • 개인이 아니라 시스템·프로세스·환경 조건에 집중.
  2. 공유된 스토리 다시 짜기

    • 타임라인을 함께 따라가며 사건을 재구성.
    • 벽을 활용해 이번 장애를 과거 장애들과 연결해 보기.
  3. 모든 목소리 초대하기

    • 적극적으로 질문하기: "우리가 놓친 건?", "뭐가 의외였나요?", "어디가 헷갈렸나요?"
    • 담당 팀이 아닌 사람들에게도 발언 기회를 열어 두기.
  4. 교훈을 행동으로 전환하기

    • 인사이트 하나마다 "그래서 어떤 의미인가? (So what?)", "그럼 이제 무엇을 할 것인가? (Now what?)"를 묻기.
    • 인사이트를 구체적인 프로세스 개선으로 바꾸기. 예:
      • 런북(runbook) 업데이트
      • 알림 튜닝
      • 소유권(Ownership) 명확화
      • 온콜/엔지니어링 팀 대상 트레이닝 제작

리뷰가 끝난 후에는 벽을 다시 업데이트합니다.

  • 별에 교훈 학습, 조치 완료, 열려 있는 리스크를 나타내는 기호를 태깅합니다.

4단계: 사고 삼각형으로 하늘을 읽고, 조기 경보를 포착하기

사고 삼각형(Accident Triangle, Safety Triangle) 이론에 따르면, 하나의 큰 사고 뒤에는 항상 훨씬 더 많은 수의 다음과 같은 것들이 존재합니다.

  • 근접 사고(near miss)
  • 경미한 사고
  • 보고조차 되지 않은 이상 징후

플라네타리움에는 큰 장애만 올리지 마십시오. 다음도 함께 기록합니다.

  • 자동으로 복구된 사소한 알림
  • 부분적인 성능 저하나 부분 장애
  • 본격적인 장애로 이어지지는 않았지만 고객이 보고한 문제

형태나 색으로 구분해 보세요.

  • 큰 별: 주요 장애(major incident)
  • 작은 별: 경미한 장애(minor incident)
  • : 근접 사고/약한 신호

시간이 지나면, 특정 시스템 주변에 근접 사고가 몰리는 클러스터가 보일 것입니다. 그곳이 바로 다음 대형 장애가 터질 가능성이 높은 곳입니다.

각 리뷰 때마다 이런 질문을 습관처럼 던지세요.

  • "이 장애 이전에 어떤 근접 사고들이 있었나?"
  • "비슷한 약한 신호가 다른 곳에서도 보이고 있나?"

사고 삼각형을 적용하면 플라네타리움은 단순한 추모비가 아니라 예측 지도가 됩니다.


5단계: 스토리 프레이밍 분석 – 어떻게 이야기를 하느냐가 미래를 바꾼다

장애는 단순한 기술 이벤트가 아니라, 우리가 무슨 일이 왜 일어났다고 ‘서술’하느냐에 관한 이야기입니다.

**프레이밍 분석(framing analysis)**은 장애를 어떻게 서술하고 있는지 의식적으로 들여다보는 작업입니다.

예를 들어:

  • 내러티브가 개인 탓에 초점을 두고 있는가? ("앨리스가 설정을 잘못해서…")
    • 아니면 시스템 포커스인가? ("단일 변경이 검증 없이 반영될 수 있는 프로세스였다…")
  • 영웅담을 강조하고 있는가? ("밥이 새벽 3시에 모든 걸 살려냈다")
    • 아니면 회복탄력성과 자동화 개선에 초점을 두고 있는가? ("다음부터 밥이 그런 일을 다시 하지 않도록 자동화를 개선했다")
  • 아주 드문 엣지 케이스에 집착하고, 더 흔한 구조적 문제는 외면하고 있지는 않은가?

벽에서는 이런 것들을 시각적으로 다룰 수 있습니다.

  • 각 별 옆에 짧은 내러티브 라벨을 붙입니다. (예: "CI가 우리를 배신한 날", "결제 모듈의 숨은 의존성")
  • 정기적으로 이 라벨들을 훑어보며 질문합니다. "이 이야기들이 말해 주는, 우리가 어떤 조직인지에 대한 메시지는 무엇인가?"

프레이밍을 의식적으로 바꾸면, 이런 전환이 일어납니다.

"누가 망쳤나?" → "무엇이 이런 방식의 실패를 가능하게 했나?"


6단계: SMART-FOCUS로 체계적으로 장애 분석하기

직관에만 의존하지 않으려면, SMART-FOCUS 같은 구조화된 렌즈를 사용하는 것이 좋습니다.

SMART-FOCUS: Sociotechnical Model Analysis of Responses, Threats, Failures, Opportunities, Control, Utility, and Sustainability

(사회기술 모델을 기반으로 대응(Responses), 위협(Threats), 실패(Failures), 기회(Opportunities), 통제(Control), 유용성(Utility), 지속가능성(Sustainability)을 분석하는 프레임워크)

주요 장애마다 다음 항목을 차례대로 점검합니다.

  • S – Sociotechnical Model (사회기술 모델): 사람, 도구, 조직 구조는 어떻게 상호작용했는가?
  • R – Responses (대응): 실제로 탐지, 에스컬레이션, 완화가 어떤 식으로 이루어졌는가?
  • T – Threats (위협): 외부/내부 위협 요인은 무엇이었나? (트래픽 급증, 서드파티 장애, 비즈니스/조직적 불일치 등)
  • F – Failures (실패): 구체적으로 어떤 기술적·프로세스적 실패가 있었나?
  • O – Opportunities (기회): 더 일찍 알아차리거나, 영향 범위를 줄일 수 있었던 기회는 무엇이었나?
  • C – Control (통제): 어떤 통제 장치가 있었는가? 그것이 우회되었나, 무시되었나, 애초에 부족했나?
  • U – Utility (유용성): 시스템과 프로세스가 설계된 대로 작동했는가? 스트레스 상황에서도 실제로 쓰기 쉬웠나?
  • S – Sustainability (지속가능성): 우리가 도입한 해결책과 프로세스는 장기적으로 지속 가능한가, 아니면 또 다른 ‘영웅적 임기응변’을 쌓고 있는가?

SMART-FOCUS 분석 결과는 별 주변에 아이콘이나 작은 포스트잇으로 붙여 둡니다. 시간이 지나면 반복되는 패턴이 눈에 들어옵니다.

  • 계속 반복되는 탐지 공백
  • 항상 수동 개입에 의존하는 취약한 통제
  • 유지 가능하지 않은 런북과 절차

이렇게 하면 벽은 단순한 기술 기록을 넘어, 사회기술 시스템 전체를 진단하는 도구가 됩니다.


7단계: 별자리에서 지속 개선으로, 루프를 닫기

이 모든 작업이 실제 운영 방식을 바꾸지 못한다면 아무 소용이 없습니다.

플라네타리움과 연결된 지속적인 개선 루프를 만듭니다.

  1. 장애에서 인사이트로

    • 주요 장애마다 검증된 인사이트를 벽과 내부 도구에 모두 기록합니다.
  2. 인사이트에서 예방 전략으로

    • 인사이트를 다음과 같은 구체 전략으로 번역합니다.
      • 모니터링·알림 체계 업데이트
      • 배포 및 변경 관리 방식 개선
      • 소유권과 에스컬레이션 경로 명확화
      • 온콜 및 엔지니어 대상 맞춤 트레이닝
  3. 전략에서 실제 실행으로

    • 어떤 개선이 실제로 배포·정착되었는지 추적합니다.
    • 관련 개선 조치가 완료되면 해당 별에 표시를 합니다. (예: 초록색 링으로 둘러싸기)
  4. 실행에서 다시 신호로

    • 다음 분기 동안 벽을 계속 관찰합니다.
    • 같은 별자리 영역에서 비슷한 유형의 장애가 계속 나타나는가?
    • 아니면 패턴이 실제로 변했는가?

이제 아날로그 플라네타리움은 살아 있는 학습 시스템이 됩니다. 모든 장애와 근접 사고가 이 밤하늘의 모양을 조금씩 바꿉니다.


마무리: 모두 합쳐 보기

아날로그 장애 스토리 트레인보드 플라네타리움은 그저 특이한 벽 장식이 아닙니다. 이것은 다음과 같은 역할을 합니다.

  • 장애 히스토리를 한눈에 보여주는 데이터 기반 지도
  • 이야기와 프레이밍 분석을 위한 스토리 표면
  • 사고 삼각형을 활용한 조기 경보 시스템
  • SMART-FOCUS로 사회기술 시스템을 들여다보는 분석 렌즈
  • 비난이 아닌 학습에 팀을 정렬시키는 지속 개선 엔진

이 모든 것을 위해 비싼 툴은 필요 없습니다.

  • 종이, 마커, 테이프, 포스트잇
  • 텅 빈 벽 하나
  • 정직하고 구조화된 성찰을 하겠다는 조직의 의지

복잡하고 분산된 시스템의 세상에서 장애는 반드시 일어납니다. 우리의 임무는 장애가 없다고 믿는 것이 아니라, 각 궤도, 각 별, 밤하늘의 희미한 신호까지 모두로부터 배우는 것입니다.

팀과 함께 그 벽 앞에 서 보세요. 여러분 조직만의 장애 은하계를 올려다본 뒤, 이렇게 함께 물어보는 것입니다.

"우리는 지금 어떤 ‘실패의 우주’에 살고 있는가? 그리고 우리는 어떻게 더 나은 우주를 설계할 수 있을까?"

아날로그 장애 스토리 플래닛보드 플라네타리움: 다음 장애 궤도를 예측하는 종이별의 벽 | Rain Lag