Rain Lag

아날로그 사건 스토리 트램 차고 장부: 종이 계정으로 매일의 신뢰성 부채를 손으로 맞춰 나가기

상상의 트램 차고에서 쓰이던 종이 장부를 통해, 오늘날 엔지니어링 팀이 어떻게 매일의 신뢰성 부채를 보고·추적·정리할 수 있는지, 아날로그 스토리텔링과 디지털 관측(Observability) 도구를 섞어 설명합니다.

서론: 밤이 내린 트램 차고에서

1930년대의 트램 차고를 떠올려 보자.

마지막 전차가 자정 직전에 덜컹거리며 차고로 들어온다. 기름때가 잔뜩 묻은 정비공들은 걸레에 손을 훔친다. 천장에 매단 전등 아래 나무 책상 앞에서, 차고 서기는 두껍고 헤진 장부를 펼친다.

전차마다 한 페이지가 있다. 사건마다 한 줄이 있다.

  • 3번 노선 제동 소음, 17:40
  • 12번 차량 문 걸림, 08:15
  • B 분기점 가선(전차선) 순간 전압 강하, 19:02

어떤 문제도 “사소하다”며 넘기지 않는다. 왜냐하면, 사소한 문제를 그냥 내버려두면 내일의 고장이 되기 때문이다.

이것이 바로 **아날로그 사건 스토리 트램 차고 장부(Analog Incident Story Tram Depot Ledger)**다. 오늘날 복잡한 디지털 시스템의 신뢰성을 다루는 방식에 대한 은유다. 신뢰성은 매일, 필요하다면 손으로라도, 부채 잔액을 끝까지 맞춰야 하는 계정 항목처럼 취급해야 한다는 뜻이다.

마이크로서비스, 클라우드 플랫폼, 그리고 New Relic 같은 도구가 있는 시대에, 장부는 더 이상 가죽 표지 책이 아니다. 우리의 시스템 상태와, 작은 이상 현상 하나까지 모두 담아내는 디지털·실시간·감사 가능한 기록이다.

이제 그 오래된 트램 차고의 사고방식이 어떻게 우리가 신뢰성 부채를 이해하고, 추적하고, "정리(settle)"하는 방식을 바꿀 수 있는지 살펴보자.


신뢰성 부채: 외면할 수 없는 잔액

신뢰성 부채(reliability debt)는 다음과 같은 일이 쌓일 때 생긴다.

  • 작은 장애를 “원래 있는 잡음 정도”로 치부하고 넘겼을 때
  • 불안정한 테스트와 간헐적 오류에 대한 수정을 미뤄둘 때
  • 소폭의 지연(Latency) 증가나 미미한 가용성 저하를 무시할 때

각 이벤트를 따로 보면 별일 아닌 것처럼 보인다. 하지만 이들이 모이면, 매일 쌓이는 신뢰성 잔액이 되고, 언젠가 반드시 이자를 붙여서 갚아야 한다.

  • “요즘 앱이 좀 느려진 것 같아”라는 사용자 신뢰 하락
  • 성능 저하로 인한 장바구니 이탈, 그에 따른 매출 누수
  • 끊임없는 화재 진압과 온콜(On-call)로 인한 엔지니어 번아웃

장부를 한 번도 맞춰보지 않으면, 부채는 눈덩이처럼 불어난다.

트램 차고 서기는 단순한 규칙을 갖고 있었다. 그날의 사건은 불이 꺼지기 전에 모두 정산한다. 아무 일도 조용히 사라지게 두지 않는다. 이 사고방식—신뢰성 부채를 반드시 매일 맞춰야 하는 재무 잔액처럼 대하는 태도—가 대부분의 엔지니어링 조직에 부족한 부분이다.


아날로그 장부: 숫자가 아니라 이야기

트램 차고 장부에는 숫자와 코드만 적힌 것이 아니었다. 그 안에는 이야기가 있었다.

“12번 차량 문 걸림. 아마 먼지 축적 때문. 비 온 다음날 자주 발생—내일 고무 패킹 점검할 것.”

이 짧은 서술은 세 가지 역할을 했다.

  1. 맥락 보존 – 무엇이 아니라, 왜 그 일이 일어났는지
  2. 우선순위 판단 – 무엇이 반복될 가능성이 크고 더 큰 문제를 야기할지
  3. 공유된 기억 형성 – 신입이 장부를 읽으며 시스템의 ‘성격’을 익힐 수 있게 함

디지털 인시던트 시스템은 종종 메트릭과 알람에만 집중한 나머지, 이런 부분을 놓친다. 우리에게 필요한 것은 사람이 읽을 수 있는 사건 장부다.

  • “EU 사용자 대상 API 지연이 설정 변경 이후 급증. 롤백은 했지만, 리전 간 라우팅에 대한 회귀 테스트가 부족한 상태.”
  • “크론 잡이 누락된 시크릿 때문에 실패. 수동으로 복구했으나, 루트 원인은 버전 관리되지 않은 시크릿 교체 프로세스.”

숫자는 무슨 일이 일어났는지 알려준다. 이야기는 왜 중요한지, 다음에 어떻게 피할 수 있는지를 알려준다.


디지털 차고: 관측(Observability)은 새로운 장부

현대의 관측(Observability) 플랫폼—예를 들어 New Relic—은 트램 차고 장부의 디지털 버전이다. 이 도구들은 다음을 수행한다.

  • 모든 트램과 선로를 계측 – 서비스, 엔드포인트, 데이터베이스, 큐 등
  • 모든 사건 줄을 기록 – 에러, 스파이크, 성능 저하, 이상 징후
  • 타임스탬프와 상관관계 부여 – 시스템 전반에서 원인과 결과를 연결해서 볼 수 있게 함

펜을 든 서기 대신, 우리는 테레메트리(telemetry)를 갖고 있다.

  • 분산 트레이싱(Distributed Tracing): 어떤 “트램(서비스)”이 어디서 늦었는가?
  • 메트릭과 로그: “문이 얼마나 자주 걸렸는가?”(타임아웃, 5xx, 재시도)
  • 알림(Alerts): 어떤 문제가 합의된 임계값을 넘었는가?

그러나 도구만으로는 충분하지 않다. 사람들을 모이게 하는 개념적 장부가 여전히 필요하다.

  • 모두가 공유하는 뷰: "오늘의 신뢰성 잔액은 이 정도다. 내일이 오기 전에 정리해야 할 것은 이것들이다."

이 지점에서 대시보드와 오케스트레이션 기능이 중요해진다.


장부를 중심으로 모이기: 차고 벽의 대시보드

트램 차고에서는, 결국 모두가 장부 옆을 지나갔다. 그날 밤 작업의 기준점이었다.

현대 팀에서 그에 해당하는 것은 공유 관측 대시보드다. 멋져 보이는 차트 모음이 아니라, 의도적으로 구성된 인시던트 장부 뷰다. 여기에는 다음이 보여야 한다.

  • 오늘 발생한 사건들(심각도, 영향, 지속 시간 기준)
  • “신뢰성 부채” 항목(반복되거나 아직 해결되지 않은 문제들)
  • 가용성·매출·사용자 신뢰 사이의 직접적인 연결고리

예를 들면 다음과 같다.

  • 가용성 → 매출: “결제(Checkout) 가용성이 0.1% 감소할 때마다 일 매출이 약 X만큼 줄어든다.”
  • 지연 시간 → 전환율: “검색 응답이 200ms 느려질 때마다 전환율이 Y% 감소한다.”

이렇게 하면 신뢰성은 추상적인 엔지니어링 미덕이 아니라, 보이는 경제·경험 장부가 된다.

  • 프로덕트 팀이 보는 것: 놓치고 있는 매출 기회
  • 고객 지원이 보는 것: 티켓 증가와 사용자 불만
  • 엔지니어링이 보는 것: 운영 부담과 번아웃의 원인

대시보드는 매일 장부가 게시되는 벽이 된다. 스탠드업, 인시던트 리뷰, 계획 회의는 이 공동의 현실을 중심으로 돌아간다.


신뢰성 이벤트의 토큰화: 감사·거래 가능한 항목으로 만들기

여기에 **토큰화(Tokenization)**와 **분산원장기술(DLT, Distributed Ledger Technology)**의 개념을 겹쳐 보자. 블록체인을 과대 포장하기 위해서가 아니라, 그 개념적 장점을 빌리기 위해서다.

각 신뢰성 이벤트를 장부 속의 **개별적이고 추적 가능한 “토큰”**으로 취급한다고 상상해 보자.

  • 인시던트마다 고유한 정체성(아이디, 타임스탬프, 오너, 영향받은 서비스들)이 있다.
  • 상태를 따라 이동한다: 감지 → 트라이애지(분류·우선순위 결정) → 완화(임시 조치) → 완전 해결 → 학습/적용 완료
  • “히스토리”가 감사 가능하다: 누가 무엇을 바꾸었고, 어떤 결정을 내렸는지

이 프레이밍은 몇 가지 강력한 변화를 이끈다.

  1. 명시적인 트레이드오프
    일부 신뢰성 토큰(부채)을 의도적으로 “보유”하고, 기능 개발에 더 투자할 수 있다. 단, 무엇을 들고 있는지 알고 있는 상태에서 말이다.

  2. 영향 기반 우선순위
    애매한 백로그 정리가 아니라, 각 토큰이 사용자·매출·팀 건강에 미치는 비용을 기준으로 정렬한다.

  3. 투명한 책임 소재
    "그냥 기술적인 문제" 정도로 치부하며 리더십이 무시하기 어렵다. 사건과 그에 따른 결정이 명확하고 추적 가능하기 때문이다.

실제로 “토큰 장부”는 다음의 조합일 수 있다.

  • 모니터링/알림 시스템의 인시던트 레코드
  • 이슈 트래커(Jira 등)의 티켓
  • 메트릭·트레이스와 연결된 사후 리뷰(Post-incident Review) 문서

핵심은 각 신뢰성 이벤트를 소모성 잡음이 아니라, 라이프사이클을 가진 자산·부채로 취급하는 것이다.


가용성을 매출과 신뢰에 연결하기

가장 강력한 장부는 세 개의 열을 연결한다.

  1. 기술 상태 – 에러, 지연 시간, 가용성
  2. 비즈니스 성과 – 매출, 전환율, 이탈(Churn)
  3. 사용자 신뢰 – 만족도, NPS, 불만·민원, 소셜 반응

트램 차고도 어느 노선이 가장 많은 요금을 벌어들이고, 어떤 고장이 가장 큰 타격을 주는지 알고 있었다. 마찬가지로 여러분의 시스템도 다음을 할 수 있어야 한다.

  • 사건을 특정 사용자 여정(Checkout, 가입, 검색 등)에 매핑하기
  • 주요 장애·성능 저하마다 금전적 영향을 정량화하기
  • 정성적 피드백(지원 티켓, 불만, 이탈 사유)을 함께 수집하기

이 세 열이 “사건 장부”에서 나란히 보이기 시작하면, 대화가 달라진다.

  • 과거: “어제 밤에 5xx 스파이크가 좀 있었어요.”
  • 앞으로: “어제 밤 로그인에서 5분간 5xx 스파이크가 있었고, 활성 사용자 중 약 8%가 영향을 받았으며 추정 손실은 $X입니다. 오늘 이 부채를 어떻게 정리할지 계획은 이렇습니다.”

이 정도의 선명함이 있어야, 조직 전체가 신뢰성에 진짜로 정렬될 수 있다.


아날로그 스토리텔링과 디지털 정밀함의 결합

진짜 힘은 다음 둘 중 하나를 선택하지 않을 때 나온다.

  • 아날로그 스토리텔링(내러티브, 배운 점, 인과 관계)
  • 디지털 정밀함(메트릭, 에러 버짓, 트레이스, SLI/SLO)

대신, 의도적으로 이 둘을 섞는다.

  • 모든 주요 인시던트에는 스토리 중심의 포스트모템을 작성한다. 무엇이 일어났는지, 왜 일어났는지, 사용자에게 어떻게 느껴졌는지, 무엇을 배웠는지를 담는다.
  • 모든 이야기는 정확한 데이터에 기반한다. 문제 감지까지 걸린 시간, 완화까지 걸린 시간, 사용자 영향 규모, 매출 영향 등.
  • 매일, 정량적 장부(그래프, 알림)와 정성적 장부(메모, 결정 사항, 트레이드오프)를 함께 맞춰본다.

이 혼합된 실천은 다음을 가능하게 한다.

  • 엔지니어링·프로덕트·비즈니스 전반에 걸쳐 공유 직관을 쌓는다.
  • 보여주기 식 메트릭에만 최적화하다가, 실제 고통을 놓치는 일을 방지한다.
  • 신뢰성을 대시보드 숫자가 아니라 사람의 경험과 연결된 문제로 유지한다.

이는 트램 서기의 짧은 메모를 현대적으로 확장한 버전이다. 다만 이제 그 메모는 수십 대의 트램이 아니라 수천 개의 서비스에서 수집된 메트릭 위에 놓인다.


나만의 인시던트 스토리 장부 시작하기

이 사고방식을 도입하기 위해 스택 전체를 갈아엎을 필요는 없다. 작게 시작하면 된다.

  1. 당신의 ‘일일 신뢰성 잔액’을 정의하라
    매일 무엇을 추적할지 정한다. 인시던트, 반복 오류, SLO 위반, 페이지 호출(On-call 알람) 등.

  2. 단일·공유 ‘장부’ 뷰를 만들라
    관측 대시보드(예: New Relic)와 티켓 시스템을 묶어 다음이 보이도록 한다.

    • 오늘의 인시던트
    • 열려 있는 신뢰성 부채 항목
    • 비즈니스·사용자 영향
  3. 각 사건에 짧은 사람의 언어로 된 이야기를 붙여라
    2–3문장 정도면 충분하다. 무엇이 일어났는지, 왜 중요한지, 다음에 무엇을 할 것인지.

  4. 매일 리뷰하고 정산하라
    스탠드업 또는 짧은 운영 회의에서 다룬다. 오늘 새로 생긴 것은 무엇인지, 반복되는 것은 무엇인지, 오늘 갚을 부채는 무엇인지.

  5. 신뢰성을 결과와 직접 연결하라
    가용성/성능 지표를 매출과 사용자 만족 지표 옆에 나란히 둬서, 정산되지 않은 부채의 비용이 누구에게나 분명히 보이도록 한다.

시간이 지나면, 도구는 전부 디지털이라 하더라도 여러분만의 아날로그 사건 스토리 트램 차고 장부가 쌓여간다.


결론: 그날의 잔액을 미루지 말 것

상상의 트램 차고에서, 누구도 장부가 업데이트되기 전에는 퇴근하지 않았다. 내일의 신뢰성은 오늘 밤의 회계에서 시작됐다.

현대 시스템은 그때에 비해 상상할 수 없을 만큼 복잡해졌지만, 원칙은 변하지 않았다.

  • 의미 있는 모든 인시던트를 기록하라.
  • 신뢰성 문제를 가끔 터지는 위기가 아니라, 매일 맞춰야 하는 잔액으로 취급하라.
  • 이야기와 메트릭을 결합해 살아 있는 공유 기억을 만들어라.

관측 플랫폼을 디지털 장부로, 토큰처럼 다루는 인시던트 항목을 신뢰성 부채의 단위로 삼으면, 흩어진 운영 잡음을 일관되고 감사 가능하며 실행 가능한 실천으로 바꿀 수 있다.

팀에게 던져야 할 질문은 간단하다.

당신은 매일 하루가 끝날 때, 내일로 넘길 신뢰성 부채가 무엇인지 장부를 열어 분명히 볼 수 있는가?

만약 그렇지 않다면, 지금이 바로 불을 조금 낮추고, 대시보드 앞에 모여, 장부를 쓰기 시작할 때일지 모른다.

아날로그 사건 스토리 트램 차고 장부: 종이 계정으로 매일의 신뢰성 부채를 손으로 맞춰 나가기 | Rain Lag