Rain Lag

아날로그 런북 셔틀버스: 종이로 된 노선도를 굴리며 라이브 인시던트를 이동시키는 법

흩어져 있는 런북을 현대적인 도구와 스마트 온콜 설계를 활용해, 특히 유틸리티·전력·인프라 분야의 중대 장애를 관리하기 위한 매끄러운 임베디드 가이드 시스템으로 바꾸는 방법.

아날로그 런북 셔틀버스: 종이로 된 노선도를 굴리며 라이브 인시던트를 이동시키는 법

상상해 보자. 거대한 관제센터 안을 돌아다니는 실제 셔틀버스가 있고, 그 안쪽 벽 전체에 출력된 런북과 네트워크 다이어그램이 빼곡히 붙어 있다. 장애가 발생하면 사람들이 가장 가까운 종이 벽으로 달려가 관련 경로를 손가락으로 따라가며, 무전기로 다음에 해야 할 일을 소리쳐 전달한다.

말도 안 되게 아날로그 같지만, 개념적으로 보면 지금도 많은 조직이 여전히 이와 비슷한 방식으로 일하고 있다. 버스 대신 사용되는 것은 수많은 위키, PDF, 구전 지식으로 이루어진 미로이고, “노선(route)”들은 서로 연동되지 않는 여러 도구 곳곳에 흩어져 있다.

노후 인프라, 이상 기후, 높아지는 고객 기대치가 공존하는 지금, 이런 방식은 더 이상 통하지 않는다. 전력·가스·수도 같은 유틸리티의 장애 관리는 이제 사실상 항공 관제와 비슷하다. 고위험, 고복잡도이며, 느리거나 분절된 대응을 용납하지 않는다.

이 글에서는 이렇게 흩어져 있는 “종이 노선도”를, 라이브 인시던트를 따라 어디든 같이 움직이는 디지털 런북 셔틀버스로 바꾸는 방법을 다룬다. 대시보드, 알림, 채팅을 가로질러, 항상 “지금 이 인시던트에 딱 맞는 플레이북”을 한 번 클릭으로 꺼내 쓸 수 있게 만드는 이야기다.


왜 기존 런북은 ‘끊겨 버린 버스 노선’처럼 느껴질까

대부분의 조직에는 이미 런북이 있다. 문제는 “런북이 없어서”가 아니라, 인시던트 에 그걸 제대로 써먹을 수 없다는 점이다.

전형적인 실패 패턴은 이렇다.

  • 런북이 위키에만 있고, 정작 위기 상황에는 아무도 안 연다. 내용은 괜찮지만, 발견 가능성이 형편없다.
  • 알림이나 대시보드와 연결되어 있지 않다. 담당자는 직접 검색하러 가야 해서, 그 사이에 몇 분씩 허비된다.
  • 플레이북이 너무 포괄적이다. “CPU를 조사하라” 수준에 머물고, “이 알림이 떴을 때 이 순서로 이 세 가지를 확인하라”는 식의 구체성이 없다.
  • 온콜 교대(핸드오프)는 주먹구구식이다. 중요한 맥락이 급한 통화 중에 대충 넘어가거나, 아예 전달되지 않는다.

유틸리티 장애 상황에서는 이런 마찰이 눈덩이처럼 불어난다. 분산된 현장 작업반, 관제실 운영자, 고객센터, 경영진까지, 모두가 지금 무슨 일이 벌어지고 있고 무엇을 해야 하는지 “동시에, 같은 그림”을 봐야 한다. 만약 장애를 해결하는 “노선도”가 어딘가 다른 곳에 세워진 버스 벽에만 붙어 있다면, 그만큼 시간과 신뢰를 잃는다.

이를 해결하려면 다음이 필요하다.

  1. 인시던트가 실제로 나타나는 도구 안에 런북을 ‘심어’ 넣을 것.
  2. 올바른 런북을 올바른 신호(알림·티켓·대시보드)에 자동으로 연결할 것.
  3. SLO와 알림 임계값을 활용해, 대응자가 다음에 무엇을 해야 할지 방향을 제시할 것.
  4. 온콜 교대를 ‘비행 계획 변경’ 수준의 미션 크리티컬 작업으로 설계할 것.

1. 인시던트 대시보드 안에 런북을 직접 임베드하라

당신의 인시던트 관리 플랫폼과 관제·모니터링 대시보드는 이제 **새로운 ‘버스의 벽’**이다. 장애가 발생하는 순간, 사람들의 시선이 가장 먼저 꽂히는 곳이 바로 여기에 있다.

런북을 실제로 유용하게 만들려면:

  • 원클릭 접근. 모든 알림, 대시보드 패널, 인시던트 티켓에는 눈에 잘 띄는 “런북” 또는 “플레이북” 버튼이 있어야 한다. 더 이상 이곳저곳 찾으러 다니게 해서는 안 된다.
  • 컨텍스트 인지형 콘텐츠. 링크를 열었을 때, 그냥 “전력 장애 카테고리” 같은 상위 페이지가 아니라, 해당 알림 클래스에 딱 맞는 구체적인 런북으로 바로 이동해야 한다. (예: “변전소 전압 이상 – 3구역 플레이북”)
  • 인라인 스니펫. 최소 처음 1~3단계는 인시던트 화면 안에 그대로 띄워 준다.
    “1단계: SCADA 계측값을 확인한다. 2단계: 시스템 X에서 차단기 상태를 확인한다.” 같은 식이다.

실제 구현은 다음과 같이 할 수 있다.

  • 알림에 태그나 메타데이터를 달아둔다. (예: service=SCADA, asset_class=substation, region=zone3)
    이 메타데이터를 각 런북과 맵핑해 둔다.
  • 인시던트 도구(PagerDuty, Opsgenie, ServiceNow, 자체 구축 플랫폼 등)에 알림 타입별로 표준화된 runbook_url 또는 런북 ID를 저장해 둔다.

목표는 이렇다. 대응자가 어떤 인시던트를 열더라도, 시스템이 마치 거대한 종이 벽을 그 사람 앞으로 직접 끌고 와서, 이미 “맞는 페이지”를 펼쳐 놓은 것처럼 느껴지게 만드는 것이다.


2. 모니터링·알림·채팅과 런북을 통합하라

장애는 여러 시스템을 가로질러 전개된다.

  • 모니터링 시스템이 최초 경보를 울리고,
  • 알림 시스템이 온콜 담당자에게 페이지를 전송하며,
  • 채팅(Slack, Microsoft Teams 등)이 전술적 “워 룸(war room)” 역할을 한다.

런북은 이 인시던트의 여정 전체를 따라다녀야 한다.

모니터링 & 알림 통합

  • 각 알림 규칙(alert rule) 설정에 런북 참조 정보(URL 또는 ID)를 포함시킨다.
  • 알림이 발생하면, 이 참조 정보를 다음 항목에 함께 포함시킨다.
    • 인시던트 관리 티켓
    • 페이지 알림 또는 SMS 메시지(공간이 허용되는 범위 내에서)
    • 자동으로 생성되는 상태 페이지나 요약 대시보드

채팅 통합 (예: Slack)

  • 다음과 같은 기능을 가진 봇 또는 앱을 사용한다.
    • 알림이 채널에 게시될 때, 연관된 런북 링크를 자동으로 같이 올려 준다.
    • /runbook, /next-steps 같은 명령에 반응해, 관련 플레이북의 일부를 바로 채널에 보여 준다.
    • 알림 이름, 자산(설비), 인시던트 ID로 빠르게 런북을 검색할 수 있게 한다.
  • 인시던트 채널 상단에 해당 런북을 핀(pin)으로 고정해, 나중에 합류한 사람도 즉시 볼 수 있도록 한다.

이처럼 런북을 알림이나 대화가 이루어지는 바로 그곳에 달라붙게 해 두면, 가장 큰 인지적 부담 중 하나를 없앨 수 있다. 긴장감이 치솟는 상황에서, 매뉴얼을 찾기 위해 별도의 검색 모드로 전환하지 않아도 되게 만드는 것이다.


3. SLO와 임계값으로 ‘다음 최선의 액션’을 가리켜라

SLO(Service Level Objective, 서비스 수준 목표)와 알림 임계값은 단지 무언가 잘못되었다는 신호만 주어서는 안 된다. 거기서 더 나아가 이제 무엇을 해야 하는지 방향을 제시해 줄 수 있어야 한다.

유틸리티 맥락에서 SLO는 예를 들어 이런 것들이다.

  • 지역 또는 고객 등급별 최대 허용 정전 시간
  • 계통 안정성 지표에 대한 퍼포먼스 임계값
  • 중요 인프라 장애 발생 시 목표 대응 시간

이런 것들을 스마트한 프롬프트로 바꿀 수 있다.

  • 어떤 SLO가 곧 초과될 상황이 되면, 시스템이 다음과 같이 안내할 수 있다.
    • “SLO 소진율 80% 도달 – 지역 인시던트 지휘 체계로 에스컬레이션하십시오. 런북: ‘대규모 정전 에스컬레이션 – 북부 권역’.”
  • 특정 임계값이 넘어가면 자동으로 다음을 실행한다.
    • 관련 완화(mitigation) 플레이북을 자동으로 열기
    • 인시던트 도구 안에 ‘다음 최선의 액션’ 체크리스트를 표시하기

공식으로 표현하면 이렇게 생각할 수 있다.

SLO 상태 + 알림 유형 ⇒ 추천 런북 + 다음 액션

예시:

  • 알림: 위험 기상 조건에서 변압기 과부하 발생

    • 프롬프트: “영향도 고위험. ‘변압기 과부하 – 폭풍 영향 시’ 런북을 여십시오. 1단계: 선제적 부하 전환 가능성 평가.”
  • 알림: 특정 권역의 고객 정전 수가 임계값을 초과

    • 프롬프트: “고객 영향도 급증. ‘권역별 정전 조정’ 플레이북을 실행하십시오. 1단계: 통합 운영 채널과 현장 리더 지정.”

이제 시스템은 단순히 “불이 났다”고 알려 주는 데서 그치지 않고, “어떤 소화기를 들고, 어디로 가야 하는지”까지 가져다주는 역할을 한다.


4. 온콜 핸드오프를 ‘일급 시민’으로 설계하라

아무리 런북 통합을 잘 해 두어도, 엉망인 온콜 핸드오프 하나면 그동안의 수고가 순식간에 물거품이 된다. 특히 유틸리티 장애처럼 수 시간, 수일에 걸쳐 이어지는 인시던트에서는 교대가 인시던트 진행 중간에 수차례 일어나게 된다.

핸드오프를 중요한 신뢰성 기능(reliability function)으로 다뤄야 한다.

표준화된 핸드오프 의식(ritual)을 만들라

  • 다음 항목을 포함하는 구조화된 템플릿을 사용한다.
    • 현재 인시던트 상태
    • 지금까지 내린 핵심 결정들과, 그 이유
    • 진행 중인 완화/조치 단계
    • 아직 확인하지 못한 부분(known unknowns)
    • 현재 적용 중인 런북 및 섹션
  • 고심도(high-severity) 인시던트의 경우, 단순 채팅 메시지가 아니라 반드시 짧은 실시간 음성/영상 핸드오프 콜을 하도록 규정한다.

런북을 핸드오프의 일부로 만들라

  • 런북의 어느 섹션이 완료되었고, 어느 부분이 진행 중인지 기록한다.
  • 인시던트 도구 안의 체크리스트를 활용해, 새 온콜 담당자가 “지금 이 노선 어디쯤에서 버스를 인수하는지”를 한눈에 알 수 있게 한다.

지식 갭을 최소화하라

  • 인시던트 타임라인, 주요 결정, 관련 링크들을 개인 DM이나 외부 채널이 아니라, 인시던트 플랫폼 안에 중앙집중적으로 남긴다.
  • 대응자들이 런북이나 인시던트 레코드 안에 간결한 메모를 남기도록 장려한다. (“풍속 조건과 가용 인력 때문에 B 경로를 선택했다” 같은 식으로 이유를 남긴다.)

핸드오프가 잘 설계되면, 버스는 노선 한가운데서 승객을 잃지 않는다. 단지 운전사만 부드럽게 교체될 뿐이다.


5. 유틸리티 장애: 고위험·고복잡도 조정 작업

순수 소프트웨어 서비스 인시던트와 비교했을 때, 유틸리티 장애에는 추가적인 복잡성이 얹힌다.

  • 물리 자산이 넓은 지역에 분산되어 있다.
  • 현장 작업반은 열악하고 위험한 조건에서 일한다.
  • 현실 세계의 안전 제약과 엄격한 규제 준수가 필요하다.
  • 대규모 이벤트일수록 사회·정치적 압력이 뒤따른다.

여기에 운영 환경 자체도 갈수록 험해지고 있다.

  • 노후화된 인프라로 인해 고장이 더 자주 발생한다.
  • 극단적인 기상 현상이 더 잦고, 강도가 세지고 있다.
  • 고객 기대 수준은 계속 높아져, 장시간 정전이나 미흡한 커뮤니케이션에 대한 인내심이 거의 없다.

이런 조합은 끊김 없는 커뮤니케이션과 실시간 가시성을 요구한다.

  • 계통 상태, 현장 인력 위치, 고객 영향도를 한 화면에서 보여 주는 공유 대시보드
  • 관제실, 현장 리더, 고객 커뮤니케이션 팀이 함께 들어와 일하는 인시던트 채널
  • 원시 데이터(raw data)를 실제 행동 계획으로 번역해 주는 임베디드 런북

이 환경에서 런북은 선택적인 문서가 아니다. 핵심 조정 메커니즘이다. 제대로 통합된 런북은 대응 시간을 줄이고, 중복 작업을 방지하며, 극도의 압박 속에서도 안전·규제 요구 사항을 일관되게 지키도록 돕는다.


모두 합쳐서: 당신의 디지털 런북 셔틀

아날로그 “종이 노선도 벽”을 은퇴시키고, 현대적인 롤링 가이드 시스템으로 바꾸려면 다음을 실천해야 한다.

  1. 인시던트 도구와 대시보드에 런북을 임베드하라. 알림에서 정확한 플레이북까지, 한 번에 도달할 수 있어야 한다.
  2. 모니터링·알림·채팅과 런북을 연결하라. 모든 신호가 “자기 전용 사용 설명서”를 달고 도착하도록 만든다.
  3. SLO와 임계값을 항로 표지처럼 활용하라. 시스템 상태가 어떤 런북과 다음 액션이 적절한지 제안하게 하라.
  4. 온콜 핸드오프를 엔지니어링하라. 교대를, 진행 중인 노선 위에서 운전자를 바꾸는 매끄러운 절차로 만든다.
  5. 유틸리티 장애를 항공 관제 수준으로 다뤄라. 고위험 운영에는, 공유된 실시간 이해와 규율 있는 조정이 필수다.

장애는 반드시 발생한다. 특히 노후 인프라와 극단적 기상이 일상이 된 시대에는 더 그렇다. 그 순간 당신이 원하는 것은, 사람들이 허둥대며 어딘가에 붙은 종이 벽을 찾으러 뛰어다니는 풍경이 아니다. 인시던트를 따라 벽이 스스로 움직이며, 모든 도구와 모든 대화 속에서 항상 눈에 보이는 상태이기를 바랄 것이다.

그렇게 만들 수 있다면, 당신의 “런북 셔틀버스”는 더 이상 ‘할 수 있었던 일’을 적어둔 먼지 쌓인 아카이브가 아니다. 실제 현장에서 팀이 매번 안전하고 일관되게 장애를 헤쳐 나가도록 돕는, 살아 있는 롤링 동반자가 된다.

아날로그 런북 셔틀버스: 종이로 된 노선도를 굴리며 라이브 인시던트를 이동시키는 법 | Rain Lag