Rain Lag

아날로그 장애 스토리 발코니: 대시보드 위로 한 걸음 올라가 실시간으로 실패를 바라보기

가장 강력한 장애 인사이트는 대시보드가 아니라, 장애가 진행되는 동안 실시간으로 펼쳐지는 인간 중심의 이야기 속에 있다. ‘발코니’ 관점이 어떻게 신뢰성, 안전, 시스템 건강도를 바꿔 놓을 수 있는지 살펴본다.

소개: 대시보드가 진짜 이야기를 가릴 때

요즘 대부분의 엔지니어링·운영 환경에서 우리는 장애를 대시보드越를 통해 경험합니다. 빨간 알림, 치솟는 그래프, 실패하는 체크, 포화 상태의 리소스들. 우리는 시스템을 계측(instrumentation)하는 데는 엄청나게 능숙해졌지만, 정작 그 시스템을 보는 것에는 놀라울 정도로 서툴러졌습니다.

역설은 이렇습니다. 수많은 메트릭에 파묻혀 있으면서도, 실제 장애가 어떻게 전개되는지는 놓칠 수 있다는 점입니다.

여기서 등장하는 개념이 바로 **아날로그 장애 스토리 발코니(Analog Incident Story Balcony)**입니다.

대시보드를 더 깊게 들여다보는 대신, 그 위로 한 걸음 올라가—즉 ‘발코니’에 서서—장애가 실시간으로 실제로 어떻게 전개되는지 지켜보는 것입니다. 사람들은 무엇을 하고, 도구는 어떻게 반응하며, 누가 누구와 이야기하고, 무엇이 무시되고, 무엇이 오해되며, 압박 속에서 어떻게 의사결정이 이루어지는지를 보는 것입니다.

이것은 장애가 발생하는 순간의 아날로그, 인간 중심의 관찰입니다. 모니터링을 대체하는 것이 아니라, 대시보드가 가려 버리는 역학, 상호작용, 구조를 드러내는 보완 관점입니다.


“장애 스토리 발코니”란 무엇인가?

분주한 무대를 내려다보는 발코니를 떠올려 봅시다. 무대 위에는 대응자들, 대시보드, Slack 채널, 티켓, 플레이북이 있습니다. 맨 앞줄에 앉아 있으면 자신의 역할—자신의 대시보드, 자신의 알림—만 보입니다. 하지만 발코니에 서면 모든 것이 어떻게 상호작용하는지가 보입니다.

발코니 관점이란, 곧 이런 의미입니다.

  • (가능하다면) 직접적인 대응 역할에서 한 발 물러나 관찰자로 선다.
  • 사람과 기술 시스템을 하나의 전체로 보고, 실시간으로 지켜본다.
  • 사건, 의사결정, 오해가 이어지는 연속적인 흐름을 하나의 스토리로 바라본다.
  • 무엇이 고장 났는지만이 아니라, 조직이 그 실패를 어떻게 경험했는지까지 포착한다.

이것은 엿보기나 마이크로 매니징이 아닙니다. 실제 장애를 **라이브 현장 연구(live field study)**로 다루는, 의도적이고 체계적인 실천입니다. 즉, 우리의 사회기술적 시스템(socio-technical system)이 실제로 어떻게 작동하는지를 관찰하는 행위입니다.

발코니에서 보면 다음과 같은 것들이 드러납니다.

  • 누가 가장 먼저 대응에 나서는지, 그리고 왜 그런지
  • 어떤 도구는 신뢰받고, 어떤 도구는 무시되는지
  • 공통된 상황 인식(shared understanding)이 형성되기까지 얼마나 걸리는지
  • 커뮤니케이션 병목이나 권한 공백이 어디에서 나타나는지
  • 기술 부채, 프로세스의 빈틈, 애매한 오너십이 스트레스 상황에서 어떻게 드러나는지

대시보드는 **신호(signals)**를 보여줍니다. 발코니는 **이야기(stories)**를 보여줍니다.


왜 메트릭과 도구만으로는 충분하지 않은가

모니터링, 알림, SLO(Service Level Objective), 런북(runbook)은 모두 필수적입니다. 하지만 이들은 추상화(abstraction) 위에 세워져 있습니다. 즉, 현실을 단순화한 표현일 뿐입니다.

이 추상화들이 종종 가려 버리는 것들은 다음과 같습니다.

  • 팀 간 역학: 이 장애를 해결하려면 누가 협력해야 하는가? 어디에서 핸드오프 마찰이 생기는가?
  • 인지 부하(cognitive load): 대응자들이 동시에 얼마나 많은 정보를 처리하고 있으며, 실제로는 무엇까지 주의를 기울일 수 있는가?
  • 우회·임기응변(워크어라운드와 임프로바이제이션): 문서에는 남지 않지만, 실제로 시스템을 지탱하는 ‘그림자 관행(shadow practices)’
  • 상충하는 목표: 예를 들어, SRE는 시스템 안정화를 우선하지만, 프로덕트 오너는 새로운 리스크를 낳을 수도 있는 빠른 롤백을 밀어붙이는 상황

요약하자면, 시스템은 대시보드의 합보다 훨씬 더 크다는 것입니다.

아날로그 발코니 관점은 메트릭이 포착하지 못하는 현실을 관찰하게 해줍니다.

“페이지 임계값은 잘 설정돼 있어요.” → 그렇다면, 왜 사람들은 시니어 엔지니어가 올 때까지 알림을 무시할까요?

“온콜 프로세스는 명확하게 정의돼 있어요.” → 그렇다면, 왜 매번 장애가 터질 때마다 같은 Slack 스레드에 “여기 오너 누구죠?”라는 메시지가 쏟아질까요?

장애가 실제로 어떻게 ‘살아지고(lived)’ 있는지를 보지 못하면, 우리는 겉으로 보이는 지표만 개선하다가 정작 시스템은 점점 더 취약해지는 방향으로 떠밀 수 있습니다.


발코니에서의 시스템 사고: 기술 부채 욕조 모델

발코니 관찰을 유용하게 만들려면, 단순한 일화 모음으로 끝나서는 안 됩니다. 개별 장애를 더 깊은 패턴과 연결하는 **시스템 사고(systems thinking)**가 필요합니다.

그중 간단하면서도 강력한 모델이 바로 **기술 부채 욕조(technical debt bathtub)**입니다.

시스템을 하나의 욕조라고 상상해 봅시다.

  • 욕조로 들어오는 물 = 새로 쌓이는 기술 부채: 서둘러 출시한 기능, 미완의 리팩터링, 오래된 디펜던시, 빠진 테스트, 불안정한 도구 등
  • 배수구(드레인) = 기술 부채를 안전하게 상환하거나 완화하는 속도: 리팩터링, 자동화, 단순화, 더 나은 옵저버빌리티(observability), 개선된 온보딩, 문서화 등
  • 물의 높이 = 시스템이 떠안고 있는 전체 부채 수준, 그리고 그에 따른 운영 리스크(operational risk)

장애가 터졌을 때, 발코니 관점은 물 높이가 어디에서 드러나는지를 보여줍니다.

  • 서비스 오너십을 두고 반복적인 혼선이 생긴다 → 조직 구조·오너십 측면의 부채
  • “이 cron job이 뭘 하는지 아무도 모른다” → 문서화·지식 관리 부채
  • 특정 엔지니어 한 사람만 이 서브시스템을 디버깅할 수 있다 → 버스 팩터(bus factor) 부채
  • 복구 절차가 수동·에러 유발적이다 → 자동화·툴링 부채

발코니에서는 “이번 장애를 어떻게 고치지?”만 묻지 않습니다. 그와 동시에 이렇게 묻습니다.

  • “이 장애는 우리 욕조에 대해 무엇을 드러냈는가?”
  • “어디에서 부채가 배수 속도보다 더 빨리 쌓이고 있는가?”
  • “어떤 부분이 조용히 ‘미래의 대형 장애’로 변해 가고 있는가?”

시스템 사고는 날것의 관찰을 구조에 대한 통찰로 바꿉니다. 그리고 바로 그 구조가 시스템의 행동을 결정합니다.


실시간 관찰은 레버리지 포인트를 찾는 과정이다

장애 상황은 신호 밀도가 매우 높은 순간입니다. 스트레스가 걸리면 시스템은 더 이상 ‘정상인 척’하지 못합니다.

이 때 실시간으로 지켜보면, 레버리지 포인트(leverage points)—즉, 작은 변화로도 흐름과 안정성에 큰 개선을 가져올 수 있는 지점—를 발견할 수 있습니다.

발코니에서 바라볼 때, 이런 것들이 눈에 들어올 수 있습니다.

  • 대응자들이 몇 분씩 “맞는 대시보드”를 찾느라 헤맨다 → 레버리지 포인트: 옵저버빌리티의 진입점을 통합·단순화한다.
  • 롤백을 할지 말지 두고 사람들이 격하게 토론한다. 이유는 CI/CD를 신뢰하지 못해서이다 → 레버리지 포인트: 배포 안정성과 배포 관련 옵저버빌리티에 투자한다.
  • 인시던트 커맨더(incident commander)가 누가 무엇을 하고 있는지 계속 놓친다 → 레버리지 포인트: 가벼운 역할 정의나 인시던트 매니지먼트 도구를 도입한다.
  • 엔지니어들이 하위 환경에서 장애를 재현하는 데 애를 먹는다 → 레버리지 포인트: 환경 간 일관성을 높이거나, 기능 플래그(feature flag) 전략을 개선한다.

이것들은 추상적인 ‘베스트 프랙티스’가 아니라, 눈앞에서 실제로 벌어진 문제에 기반한 증거 중심의 투자입니다.

현실에 뿌리를 두고 있기 때문에, 막연한 “신뢰성 개선”보다도 우선순위를 정하거나 설명하고 설득하기가 훨씬 쉽습니다.


행동 기반 안전(Behavior-Based Safety)에서 배우기: 학습, 그리고 비난하지 않기

건설, 항공, 제조처럼 리스크가 큰 산업에서는 **행동 기반 안전(Behavior-Based Safety, BBS)**이라는 실천이 자리 잡고 있습니다. 실제 작업하는 모습을 관찰하되, 처벌하기 위해서가 아니라 사람들이 실제 조건 속에서 어떻게 적응하는지 이해하기 위해서입니다.

장애 관찰에도 비슷한 원칙을 적용할 수 있습니다.

  1. 관찰과 평가를 분리하기
    사람들이 무엇을 하는지, 그리고 어떤 조건 속에서 일을 하는지에 집중합니다. 누가 ‘좋은’ 또는 ‘나쁜’ 엔지니어인지 판단하지 않습니다.

  2. 시스템적 기여 요인을 찾기
    누군가 ‘실수’를 했을 때, 이렇게 묻습니다. “이 환경의 어떤 요소가 그 실수를 더 ‘그럴듯하게’ 만들었는가?”

  3. 참여적인 방식으로 진행하기
    발코니 관찰 내용을 팀과 공유하고, 그들이 추가·수정·보완 의견을 내도록 초대합니다.

  4. 솔직함과 호기심을 장려하기
    “이 대시보드가 뭘 의미하는지 몰랐어요”, “그냥 찍어서 했는데 운이 좋았어요” 같은 말이 자연스럽게 나오도록 만듭니다. 이런 발언이야말로 시스템 개선에 있어 금광입니다.

  5. 심리적 안전(psychological safety)을 보호하기
    명확히 선언해야 합니다. 발코니 관찰은 감시가 아니라, 일 자체를 재설계해 성공이 더 쉽고 더 안전해지도록 하기 위한 것이라고.

이러한 접근을 취하면, 장애는 비난과 영웅담의 무대가 아니라 학습의 실험실이 됩니다.


관찰에서 더 나은 작업 환경과 프로세스로

발코니의 가치는 관찰이 일의 조직 방식과 지원 구조를 실제로 바꾸는 것으로 이어질 때 비로소 실현됩니다.

발코니 인사이트를 활용하는 몇 가지 실질적인 방법은 다음과 같습니다.

  • 인시던트 역할·의식(ritual) 재설계
    관찰을 통해 혼란과 중복 작업이 반복적으로 나타난다면, 인시던트 커맨더, 커뮤니케이션 담당, 운영 리드 등 명확한 역할을 도입할 수 있습니다.

  • 사람들이 실제로 일하는 방식에 맞게 도구 조정하기
    관찰 결과, 항상 두세 개 대시보드만 사용되고 나머지는 무시된다면 그 주변으로 경험을 단순화합니다. 챗이 늘 혼란스럽다면, 가벼운 인시던트 전용 채널이나 자동화를 추가할 수 있습니다.

  • 팀 경계와 오너십 리팩터링
    장애는 오너십이 불명확하거나 맞지 않는 부분을 자주 보여 줍니다. 이 관찰을 바탕으로 도메인, 책임, 온콜 로테이션을 재정렬할 수 있습니다.

  • 진짜로 도움이 되는 문서화에 투자하기
    끝도 없는 위키가 아니라, 운영에 직접 도움이 되는 산출물에 집중합니다. 예를 들어 디버그 체크리스트, 의사결정 로그, 런북에서 실제 과거 인시던트 히스토리로 이어지는 링크 등입니다.

  • 현실의 실패 양상에 맞춘 신뢰성 작업 계획
    막연한 “안정성 에픽” 대신, 관찰을 통해 반복적으로 드러난 패턴—느린 완화, 취약한 통합, 지식 사일로 등—을 정조준하는 구체적인 작업을 정의합니다.

이렇게 하면, 발코니는 단순 관람석이 아니라 더 안전하고 신뢰할 수 있는 시스템과 건강한 팀을 설계하는 스튜디오가 됩니다.


장애 스토리 발코니를 시작하는 방법

새로운 도구가 꼭 필요한 것은 아닙니다. 필요한 것은 습관입니다.

시작을 위한 몇 가지 단계는 다음과 같습니다.

  1. 주요 장애마다 발코니 관찰자 지정하기
    이 사람은 대응자가 아닙니다. 오직 한 가지 역할만 가집니다. 실시간으로 지켜보며, 타임스탬프를 남기고, 기술적·인간적인 패턴을 기록하는 것.

  2. 단순 타임라인이 아니라 ‘서사’를 기록하기
    “12:03에 알림 발생” 수준을 넘어섭니다. 누가 혼란스러워했는지, 어떤 시도를 했는지, 어떤 가정을 했는지, 무엇에 놀랐는지를 함께 기록합니다.

  3. 포스트 인시던트 리뷰에 발코니 노트를 포함시키기
    그래프와 로그와 동등한 1급 아티팩트로 다룹니다. 이렇게 묻습니다. “이 관찰들이 우리 시스템 구조에 대해 말해 주는 바는 무엇인가?”

  4. 후속 작업을 구조적 인사이트에 연결하기
    액션 아이템이 단발성 기술 증상만 때우지 않도록 합니다. 지식 집중, 불명확한 오너십, 도구 마찰 같은 **근본 역학(root dynamics)**을 겨냥하도록 합니다.

  5. 이 실천 자체를 반복·개선하기
    팀에게 질문합니다. “발코니 관점이 이번에 정말 새로운 것을 보여줬나요?”, “다음에는 어떤 부분에 더 집중해서 관찰하면 좋을까요?”

시간이 지나면, 이것은 문화의 일부가 됩니다. 우리는 단순히 장애에 대응하는 것을 넘어, 장애를 시스템이 실제로 어떻게 작동하는지 들여다보는 창으로 삼게 됩니다.


결론: 대시보드 위로 한 걸음 올라서기

대시보드, 알림, 메트릭은 필수적입니다. 하지만 그것은 어디까지나 하나의 렌즈일 뿐입니다. 신뢰성, 안전, 시스템 건강을 진정으로 이해하려면, 실패가 어떻게 전체적인 이야기로 전개되는지를 보아야 합니다.

아날로그 장애 스토리 발코니가 우리에게 제안하는 것은 다음과 같습니다.

  • 차트와 페이지 알림의 소음에서 한 발 물러서기
  • 사람, 도구, 프로세스가 실시간으로 상호작용하는 장면을 지켜보기
  • 기술 부채 욕조 같은 시스템 사고 모델을 적용해, 관찰을 더 깊은 구조와 연결하기
  • 장애를 비난의 자리가 아니라, 행동 기반 학습의 기회로 활용하기
  • 그 과정에서 얻은 인사이트로 작업 환경과 프로세스를 재설계해, 안정성과 안전, 흐름이 자연스러운 결과가 되도록 만들기

장애가 즐거운 순간이 되는 일은 없을 것입니다. 하지만 올바른 시야를 갖춘다면, 장애는 단순한 비상 상황을 넘어, 실제 환경에서 버티는 시스템을 만드는 데 가장 값진 인사이트를 주는 원천이 될 수 있습니다.

그 인사이트를 얻기 위해서는, 때로는 장애 대응 중 엔지니어에게 가장 모순적으로 느껴지는 행동을 해야 할 때도 있습니다.

더 많은 대시보드를 추가하는 일을 멈추고,

발코니에 올라서서,

이야기가 어떻게 전개되는지 지켜보는 것입니다.

아날로그 장애 스토리 발코니: 대시보드 위로 한 걸음 올라가 실시간으로 실패를 바라보기 | Rain Lag