Rain Lag

아날로그 인시던트 스토리 관측 선반: 온콜 한 주를 책상 위 위험 별자리로 바꾸기

단순한 아날로그 ‘관측 선반’을 통해 스트레스 가득한 온콜 업무를, 인지 부담을 늘리지 않으면서도 눈에 보이는 공유 위험·패턴·학습 신호의 별자리로 바꾸는 방법.

소개: 내 뇌가 대시보드가 되어버리는 순간

온콜 한 주를 끝내고 나면, 천천히 달려오는 기차에 치인 느낌을 받는다면 당신만 그런 게 아니다.

온콜 업무는 피로, 수면 장애, 인지 과부하와 강하게 연결되어 있다. 항공, 의료, 운송 분야는 이미 피로를 안전하게 관리하기 위한 규제 중심 가이드를 발전시켜 왔다. 테크 업계도 따라가고 있지만, 여전히 온콜을 복잡한 인간 중심 시스템이 아니라 그저 “필요한 불편함” 정도로 취급하는 경우가 많다.

그렇다면 온콜 한 주를, 그저 버티는 시간이 아니라 관측 가능한 것으로 다루면 어떨까?

이 글에서는 내가 **아날로그 인시던트 스토리 관측 선반(Analog Incident Story Observatory Shelf)**이라고 부를 개념을 소개한다. 온콜 주 동안 발생한 인시던트, 신호, 위험을 책상 크기의 물리적인 “별자리”로 구성해서, 눈으로 보고 실제로 사고할 수 있는 구체적인 시스템으로 만드는 방식이다.

이건 제품이 아니다. 하나의 패턴이다. 개별 인시던트가 아니라, 수많은 사건들에 걸쳐 팀이 패턴을 볼 수 있도록 인시던트를 물리적으로 표현하는 방법이다.


1. 온콜의 인간적 현실: 페이저와 플레이북만의 문제가 아니다

현대 인시던트 대응은 흔히 툴링 문제로만 다뤄진다. 더 나은 알림, 더 나은 대시보드, 더 나은 런북. 하지만 연구와 수십 년의 안전 공학은 조용히 이런 말을 해왔다.

핵심은 인간 요인이다.

온콜 대응은 다음 세 가지의 교차점에서 이루어진다.

  • 스트레스와 각성: 싸움-도피 반응이 발동되면, 위험과 시간을 인지하는 방식이 달라진다.
  • 인지 부하: 여러 개의 알림, Slack(슬랙) 스레드, 로그, 대시보드를 동시에 처리하면 작업 기억이 빠르게 한계에 다다른다.
  • 집단 역학: 누가 말하고, 누가 주저하며, 압박 속에서 어떻게 조율하는지가 사용하는 도구 자체보다 더 중요할 때가 많다.

규제가 있는 분야(예: 항공)는 근무 시간을 제한하고, 피로를 개인의 약점이 아니라 안전 위험으로 본다. 하지만 많은 엔지니어링 팀은 여전히 다음과 같이 일한다.

  • 연속된 온콜 주를 배치한다.
  • 고위험 인시던트와 일반 프로젝트 업무를 섞어 처리한다.
  • 영웅적인 개인 노력과 비공식적인 보완 행동에 의존한다.

한편 그레이 리터러처(grey literature)—블로그 글, 내부 구글 문서, 컨퍼런스 발표—에는 온콜 가이드가 넘쳐난다. ("1주 단위로 로테이션하라", "온콜에게는 노미팅 데이를 보장하라", "항상 백업 온콜을 두어라" 등.) 하지만 이걸 실제 실증 연구로 뒷받침하려고 보면, 큰 공백이 보인다. 우리가 “베스트 프랙티스”라고 부르는 것 대부분은 사실 작동할지도 모르는 가설에 가깝다.

이건 곧 기회다. 온콜 체계를 실험 가능한 시스템으로 취급하는 것이다.


2. 인시던트를 페이지가 아닌 이벤트 기반 시스템으로 보기

잘 설계된 인시던트 대응 시스템의 본질은 이벤트 기반(event-driven) 구조다. 출발점은 사람(온콜 엔지니어)이 아니라 **이벤트 생산자(event producer)**다.

  • 모니터링 체크
  • 애플리케이션 로그
  • 전자상거래 이벤트 (결제 실패, 장바구니 이탈 등)
  • 고객 티켓과 이메일
  • 데이터센터나 오피스의 물리 센서까지

이렇게 이질적인 신호들이 한 곳에서 다룰 수 있는 공통 데이터 모델로 정규화된다. 알림(alert), 인시던트, 티켓, 혹은 어떤 중앙 시스템의 “이벤트” 형태가 된다. 이 정규화는 매우 중요하다. 덕분에 다음과 같은 일이 가능해진다.

  • 에러율 스파이크를 최근 배포(deploy)와 연결해서 본다.
  • 고객 이메일이 로그에 보이는 장애와 같은 현상을 설명하고 있음을 파악한다.
  • “경미한” 하드웨어 센서 경보가 특정 유형의 대규모 장애 전에 항상 발생한다는 사실을 발견한다.

하지만 온콜에 있는 사람 입장에서 이 모든 건 보통 끊임없는 방해의 소나기로 느껴진다.

**관측 선반(Observatory Shelf)**의 목적은 이 모든 이벤트와 그 관계를 외부로 꺼내어 드러내는 데 있다. 그 결과:

  • 각 알림을 그때그때 짜증나는 단발성 사건으로 취급하는 대신,
  • 한 주 전체에 걸쳐 신호·대응·결과의 패턴을 보기 시작하게 된다.

3. 스트레스 속의 대시보드: 지금 있는 UI가 필요한 UI가 아닐 수 있다

인시던트 대응용으로 좋은 엔지니어링 대시보드를 설계하는 건 어렵다.

대부분의 대시보드는 모니터링에 최적화되어 있고, 스트레스 상황에서의 의사결정에는 최적화되어 있지 않다. 흔히:

  • 수십 개의 그래프와 메트릭을 보여주고,
  • 사용자가 차분하고 휴식이 충분하며 탐색할 시간이 있다고 가정하고,
  • 이미 “어디를 봐야 할지 아는” 전문가를 기준으로 튜닝되어 있다.

하지만 인시던트 중, 그 대시보드를 보는 당신의 뇌는 완전히 다르다.

  • 주의 집중 폭 감소: 12개의 패널과 30가지 색이 있는 범례를 동시에 해석하기 어렵다.
  • 작업 기억 한계: 시스템 전체가 아니라, 몇 개의 움직이는 조각 정도만 추적할 수 있다.
  • 행동 압박: 화면을 보고 있는 매 초마다 “아무것도 안 하고 있다”는 압박을 느낀다.

효과적인 인시던트 대시보드는 다음을 제공해야 한다.

  • 지금 이 순간 정말 중요한 것만 보여줄 것.
  • 언제 에스컬레이션, 롤백, 인시던트 선언을 해야 하는지 직관적으로 드러낼 것.
  • 응답자가 스스로 조각을 맞추지 않아도 되는, 단순하고 직접적인 서사("이게 변했고, 그 다음 저게 변했다")를 제공할 것.

디지털 대시보드는 필수적이다. 하지만 화면 안에서만 존재하는 정보는, 인시던트가 종료되는 순간 함께 사라진다.

아날로그 인시던트 스토리 관측 선반은 이를 보완한다. 다음과 같은 가치를 준다.

  • 무엇이 어떻게 일어났는지에 대한 지속적인 물리적 표현을 제공하고,
  • 로그나 대시보드를 다시 재생하지 않고도 시스템을 다시 체험할 수 있게 한다.

4. 아날로그 인시던트 스토리 관측 선반이란 무엇인가?

팀 작업 공간 근처의 선반, 화이트보드, 혹은 벽 한 구역을 상상해보자.

온콜 한 주 동안, 현재 온콜 담당자는 그 위에 작고 구체적인 아티팩트를 계속 추가한다.

  • 인시던트나 페이지 하나당 인덱스 카드 한 장
  • 색깔 스티커로 심각도, 영향받은 시스템, 고객 영향 정도 표시
  • 서로 관련된 이벤트를 이어주는 실이나 화살표
  • 핵심 결정 사항을 적은 포스트잇 ("배포 롤백", "DB 팀에 페이지 발송" 등)

금요일이 되면, 이 선반은 하나의 위험 스토리 별자리처럼 보이기 시작한다.

  • 특정 서비스 주변에 몰려 있는 경미한 알림 클러스터
  • 쭉 이어진 관련 이벤트들이 결국 큰 장애로 이어지는 선형 스토리
  • 이상하고, 조금은 무서웠지만 다시 반복되지는 않은 단발성 사건을 나타내는 외로운 카드 한 장

일부러 로우테크로 유지하는 데는 이유가 있다. 이 제약은 오히려 장점이다.

  • 모든 걸 다 기록할 수 없기에, 진짜 중요했던 것을 우선순위로 고르게 된다.
  • 표현물이 누군가의 개인 노트가 아니라, 공유되고 눈에 보이는 것이 된다.
  • 팀이 실제로 그 앞에 서서, 시간에 따른 시스템의 행동을 함께 볼 수 있다.

이건 기존 툴을 대체하려는 게 아니다. 목적은 이렇다.

매 온콜 주를 인시던트 시스템과 그 위험의 물리적 모델로 전환하는 것.


5. 신호 변환: 방해에서 학습 채널로

각 인시던트는 단순한 실패가 아니라, 하나의 **신호 변환(signal transformation)**이다.

  • 입력: 상태, 이벤트, 맥락 (트래픽 스파이크, 배포, 의존성 변화 등)
  • 변환: 결정, 개입, 커뮤니케이션
  • 출력: 결과, 부작용, 새로운 위험

온콜 한 주 동안 당신은 이런 변환을 수없이 경험한다.

  • 백업 작업 후 항상 스스로 해결되는 저수준 디스크 알림
  • “항상 시끄럽다”는 이유로 무시해왔던 새벽 2시 알람 (그리고 언젠가 한 번은 진짜 문제였던 그날)
  • 모니터링의 블라인드 스팟을 드러내 준, 지원 팀의 짧은 Slack 메시지 한 줄

관측 선반은 이런 것들을 가능하게 해준다.

  1. 이 신호 변환을 시각적으로 캡처하기

    • 하나의 이벤트가 어떤 결정이나 다른 인시던트로 이어졌는지 화살표로 표현한다.
    • 반복되는 패턴은 카드를 겹쳐 쌓아 표현할 수 있다.
  2. 각 신호 채널을 단순 소음이 아닌 학습 아티팩트로 다루기

    • 모니터링: 알림이 제때 포착하지 못한 것은 무엇인가?
    • 사람: 누가 가장 먼저 눈치챘는가? 누가 헷갈려 했는가?
    • 프로세스: 어떤 런북은 도움이 되었고, 어떤 런북은 무시되었는가?
  3. 팀이 함께 이 별자리를 리뷰하기

    • 타임라인을 따라가며: "여기서 무엇이 바뀌었지? 왜 이 상황이 안전하다고 믿었지?"
    • 이렇게 묻는다: "우리가 잘해서 산 건가, 운이 좋아서 산 건가?"

이렇게 하면 단일 대형 장애에 대한 포스트모템이 아니라, 온콜 한 주 전체를 대상으로 한 다중 인시던트·다중 신호 리뷰가 만들어지고, 온콜 자체가 구조화된 학습 채널로 바뀐다.


6. 온콜 컨벤션을 가설로 보기: 관측 선반으로 실험하기

앞에서 말한 “가이드와 실제 증거 사이의 공백”을 떠올려보자.

  • "1주 단위 로테이션이 최선이다."
  • "한 사람이 온콜을 서는 시간은 X시간을 넘기면 안 된다."
  • "세컨더리 온콜만 있어도 충분한 백업이다."

이건 물리 법칙이 아니라 **주장(claim)**이다. 팀 규모, 제품 위험도, 고객 민감도 같은 맥락에 따라 이 주장들은 당신 팀에겐 틀릴 수도 있다.

관측 선반은 이런 것들을 시험해볼 수 있는 실험 플랫폼이 된다.

  1. 온콜 방식에 변화를 준다.

    • 더 짧은 로테이션
    • 명시적인 피로 규칙 ("로컬 시간 자정 이후에는 배포 금지" 등)
    • 높은 위험이 예상되는 런칭 기간에는 필수 백업 온콜 배정
  2. 변화를 시각적으로 계측한다.

    • 새 규칙을 적용한 주를 선반에 명확히 표시한다.
    • 그 주에 발생한 인시던트 수, 에스컬레이션, 핸드오프 횟수를 기록한다.
    • 피로감과 스트레스 체감 정도를 간단한 1–5 점수로 카드에 적는다.
  3. 패턴을 리뷰한다.

    • 인시던트 결과가 달라졌는가?
    • 의사결정의 질이나 핸드오프의 명료도가 향상되었는가?
    • 번아웃 체감이 줄었는가, 늘었는가?

선반이라는 캔버스를 단순 장식이 아니라 증거로 다루자.

시간이 지날수록, 일부 온콜 규칙은 “경험칙(rule-of-thumb)”에서 벗어나, “우리 팀 데이터와 스토리가 뒷받침하는 컨벤션”으로 격상될 수 있다.


7. 우리 팀의 관측 선반, 이렇게 시작해보자

이걸 시도하기 위해 인시던트 프로세스를 전면 개편할 필요는 없다. 작게 시작하면 된다.

  1. 공간을 정한다

    • 팀 근처의 선반, 화이트보드, 또는 큰 포스터. (리모트 팀이라면 카메라에 잘 잡히는 벽이나, 물리 보드를 화면으로 공유하는 방식도 가능하다.)
  2. 간단한 아티팩트 규칙을 정한다

    • 인시던트나 페이지 하나당 인덱스 카드 한 장.
    • 서비스, 심각도, 시간대, 대응자 정도만 담는 최소한의 태그 세트.
  3. 발생할 때마다 추가한다

    • 온콜 엔지니어가 각 이벤트 직후 선반에 바로 추가하도록 독려한다.
    • 빠르게: 글쓰기와 태깅에 1–2분 이상 쓰지 않도록 한다.
  4. 주 단위 ‘별자리 리뷰’를 연다

    • 온콜 주 마지막에 30분 정도.
    • 시간 순서대로 선반을 함께 훑어본다.
    • 이렇게 묻는다: "무엇을 배웠나? 무엇이 의외였나? 다음 주에 무엇을 시험해볼까?"
  5. 인지 부하에 맞춰 조정한다

    • 위기가 한창일 때 선반에 기록하는 게 너무 부담스럽다면, 과감히 줄인다.
    • 이 관행의 목적은 인지 과부하를 줄이는 것이지, 보여주기용 프로세스를 늘리는 것이 아니다.

결론: 개별 페이지에서 패턴으로

온콜은 결코 쉬워지지 않을 것이다. 하지만 불투명할 필요는 없다.

인시던트 결과를 좌우하는 것이 결국 인간 요인임을 인정하고, 우리가 따르는 관행 상당수가 아직 검증되지 않은 가설이라는 사실을 직시하며, 모든 알림이 더 큰 이벤트 기반 시스템의 일부임을 받아들인다면, 온콜은 그저 쏟아지는 페이지의 연속에서 구조화된 지식의 원천으로 업그레이드될 수 있다.

아날로그 인시던트 스토리 관측 선반은 의도적으로 단순한 도구다.

  • 압도적인 온콜 한 주를 눈에 보이는 위험·신호의 별자리로 바꿔준다.
  • 개별 장애에만 시선을 두는 대신, 시스템적 패턴에 주목하게 만든다.
  • 온콜 컨벤션을 실험하고, 관찰하고, 다듬을 수 있는 공간을 제공한다.

무엇보다도, 인시던트 동안 실제 대시보드 역할을 하는 것은 도구가 아니라 팀의 집단 인지라는 사실을 전제로, 그 인지 시스템을 뒷받침해준다.

이걸 시작하기 위해 무엇을 새로 살 필요는 없다. 그저 인시던트가 머릿속과 화면 속에만 머무르지 않고 물리 세계에 머물 수 있는 공간을 하나 만들어보자. 그리고 한 발짝 물러나, 전체 하늘을 볼 수 있을 때 어떤 새로운 패턴이 드러나는지 지켜보면 된다.

아날로그 인시던트 스토리 관측 선반: 온콜 한 주를 책상 위 위험 별자리로 바꾸기 | Rain Lag