Rain Lag

종이 철도 신호 연구소: 하이테크 장애에 대비한 로우테크 초기 경보 의식 설계하기

대시보드, 채팅 도구, 모니터링 시스템이 모두 먹통이 되었을 때도 팀이 의지할 수 있는 종이 기반 ‘초기 경보 의식(ritual)’을 설계하는 방법.

소개: 화면이 모두 꺼지는 순간

대부분의 리질리언스(Resilience) 논의는 도구에서 시작합니다. 더 좋은 모니터링, 더 풍부한 대시보드, 더 똑똑한 알림 말이죠. 하지만 조직이 진짜로 시험대에 오르는 순간은 모든 것이 잘 돌아갈 때가 아니라, 그 도구들 자체가 실패할 때입니다.

20세기 초 철도를 떠올려 봅시다. 실시간 디지털 제어 시스템이 등장하기 훨씬 전부터 기차는 안전하게 움직였습니다. 신호, 깃발, 종이 시간표, 모두가 이해하는 단순하고 공유된 의식(ritual)에 의존했죠. 그 시스템들이 완벽하진 않았지만, 오늘날의 초연결 도구들이 가지지 못한 특유의 견고함을 갖고 있었습니다.

이게 바로 **종이 철도 신호 연구소(Paper Rail Signal Lab)**의 핵심 아이디어입니다. 가장 정교한 하이테크 시스템이 멈추었을 때도 작동하는, 로우테크·사람 중심의 초기 경보 의식을 설계하는 것입니다.

이 글에서 다룰 내용은 다음과 같습니다.

  • 정전 상황에서도 작동하는 종이 기반 체크리스트, 양식, 신호 만들기
  • 대시보드 없이도 이해할 수 있는 인간 언어로 ‘정상 상태’를 정의하기
  • SRE의 골든 시그널을 사람 중심 모니터링으로 재해석하기
  • 관찰에서 행동까지 이어지는 명확한 의사결정 경로 스크립팅하기
  • 로우테크 테이블탑(tabletop) 드릴 운영하기
  • 열화(degraded) 모드를 전제로 한 설계하기
  • 실제 인시던트에서 배운 것으로 의식을 지속적으로 개선하기

왜 로우테크 의식이 필요한가

오늘날의 운영은 도구와 깊이 뒤엉켜 있습니다. 모니터링, 채팅, 티켓 시스템, SCADA가 다운되면, 단지 가시성을 잃는 게 아니라 조율 능력 자체를 잃습니다.

로우테크 장애 대응 의식은 조직의 백업 신경망입니다. 이것들은:

  • 전력, 네트워크, VPN이 불안정해도 작동하고
  • 익숙한 스크립트를 제공해 패닉을 줄여 주며
  • 새로운 대응자도 빠르게 참여할 수 있게 해주고
  • 화려한 대시보드 없이도 공유된 상황 인식을 만들어 줍니다.

목표는 하이테크를 버리는 게 아니라, 그것이 사용 불가하거나, 심지어 거짓을 말할 때를 위한 **우아한 폴백(fallback)**을 설계하는 것입니다.


1. 단순한 로우테크 의식 설계하기

먼저 최악의 상황을 상정합니다.

  • 모니터링 도구: 신뢰할 수 없거나 오프라인
  • 중앙 채팅: 분리되었거나 사용 불가
  • 티켓 시스템: 접근 불가
  • 문서: SSO 뒤에 갇혀 있음

이제 이렇게 자문해 보세요. 그런 세계에서, 첫 30–90분 동안 사람들에게 꼭 필요하게 할 일은 무엇인가?

보통 이런 답이 나옵니다.

  • 뭔가 잘못됐다는 사실을 눈치챈다
  • 그 정보를 다른 사람과 공유한다
  • 무엇이 영향받고 있는지 트라이애지(triage)한다
  • 누가, 어떻게 행동할지 결정한다
  • 나중에 돌아볼 수 있도록 핵심 결정을 기록한다

각 단계를 지원할 **종이 기반 산출물(artifact)**을 설계합니다.

  • 장애 트리거 카드(Outage Trigger Card) – 한 장짜리 종이: “X를 보면 Y를 하라”와 연락처, 에스컬레이션 단계가 포함된 카드
  • 수동 인시던트 로그(Manual Incident Log) – 시각, 관찰 내용, 조치, 결정을 기록하는 인쇄 양식
  • 영향도 체크리스트(Impact Checklist) – 핵심 서비스와 고객 목록, 체크박스 포함: “영향 있음/없음/불확실”
  • 역할 리마인더 카드(Role Reminder Cards) – 인시던트 리드, 커뮤니케이션, 서기(Scribe), 테크 리드 등 역할의 핵심 책임을 불릿으로 정리한 간단한 설명 카드

각 산출물은 다음을 만족해야 합니다.

  • 짧게 (가능하면 1페이지)
  • 잘 보이게 (큰 글자, 명확한 헤더)
  • 자급자족(Self-contained) (다른 곳을 찾아볼 필요 없음)

그리고 반드시 출력해서, 사람들이 실제로 일하는 곳에 두십시오. 전화기 옆, 온콜 룸, 물리 콘솔 근처, 리셉션 데스크 등입니다.


2. 정상 상태 정의하기: 사람이 읽을 수 있는 기준선

**정상(normal)**을 정의하지 않으면 비정상을 알아차릴 수 없습니다.

가장 중요한 컴포넌트에 대해, 누구나 이해할 수 있는 평이한 언어로 **정상 동작 기준선(baseline)**을 만드십시오.

  • “업무 시간 동안에는 분당 로그인 수가 보통 50–80건 정도이며, 5분 동안 200건을 넘으면 이례적입니다.”
  • “야간 배치 작업은 보통 03:00까지 끝나며, 04:00까지 끝나지 않으면 열화 상태로 간주합니다.”
  • “창고 피킹(picking) 대기 큐는 보통 120건을 넘지 않으며, 15분 이상 300건을 넘으면 조사가 필요합니다.”

각 핵심 시스템마다 **정상 상태 참조 시트(Normal State Reference Sheet)**를 만들어서 다음을 정리합니다.

  • 일반적인 볼륨(요청, 주문, 잡(job) 수 등)
  • 정상적인 응답/처리 시간
  • 흔한 오류 유형과 그 예상 빈도
  • 계절/일자별로 알려진 피크 패턴

이 시트는 대시보드를 볼 수 없는 사람도 이해할 수 있어야 합니다. 단순 숫자만이 아니라, 범위와 질적인 표현을 함께 사용하십시오.

“통화 시간이 평소보다 두 배 이상 길어지고, 고객이 타임아웃을 자주 언급한다면, 지금은 정상 상태가 아닙니다.”

이런 기준선이 바로 로우테크 초기 경보 신호의 기반이 됩니다.


3. 사람 버전 골든 시그널: 수동으로 관찰할 것들

SRE 팀은 흔히 골든 시그널(Golden Signals), 즉 레이턴시(latency), 트래픽(traffic), 에러(errors), 포화도(saturation)를 이야기합니다. 장애 상황에서는 이를 사람 중심 방식으로 재구성할 수 있습니다.

사람이 직접 보거나 셀 수 있는 소수의 지표를 정의해 보십시오. 예를 들면:

  • 응답 시간(사람 버전)
    • 고객이 전화 대기하는 시간
    • 사용자의 관점에서 페이지나 트랜잭션이 완료되는 데 체감상 걸리는 시간
  • 에러 패턴
    • 10통의 전화 중 에러 신고 통화 수
    • 지원 티켓에서 반복적으로 등장하는 문구(“멈췄어요”, “계속 돌아가요”, “타임아웃나요” 등)
  • 큐 길이
    • 백로그에 쌓인 주문 수
    • 칸반 보드 등에 보이는 미처리 지원 케이스 수
    • 도크 앞에 대기 중인 트럭 수

이를 **종이 골든 시그널 카드(Paper Golden Signals Card)**로 정리합니다.

  • 시스템별로 3–5개의 지표를 나열하고
  • 직접 손으로 측정하는 방법을 설명합니다. (예: “10분 동안 받은 에러 관련 전화를 세어보세요”)
  • 간단한 임계값을 정의합니다: 초록(정상) / 노랑(주의) / 빨강(위험)

예시:

로그인 서비스 – 수동 골든 시그널
• 10분 동안 에러 신고 전화 > 5건 → 노랑(YELLOW)
• 10분 동안 에러 신고 전화 > 15건 → 빨강(RED)
• 연속 3명 이상의 사용자가 30초 이상 로그인 지연을 겪음 → 노랑(YELLOW)
• 광범위하게 로그인이 불가능함 → 빨강(RED)

이것이 곧 여러분의 종이 철도 신호입니다. 단순하고 눈에 띄며, 모두가 이해할 수 있는 상태 표시죠.


4. 관찰에서 행동까지의 경로 스크립팅하기

의식이 실패하는 가장 흔한 이유는, 사람들이 문제를 봐도 무엇을 해도 되는지, 무엇을 해야 하는지 확신하지 못하기 때문입니다.

의사결정 분석(decision analysis) 관점으로, 다음을 연결하는 작은 의사결정 트리를 만드십시오.

  1. 구체적인 신호 (예: “큐 길이가 15분 동안 300을 초과했다”)
  2. 명확한 상태(노랑 vs 빨강)
  3. 정의된 행동(누가, 언제, 무엇을 하는지)

간단한 포맷은 이렇습니다.

만약 [신호]가 [노랑/빨강] 상태로 [지속 시간] 이상 이어지면
그러면 [역할]은 [행동]을 한다
그리고 [누구]에게 [채널]로 알린다

예시:

만약 로그인 에러가 10분 이상 빨강(RED) 상태라면
그러면 1차 대응자는 전화로 인시던트 리드에게 연락한다
그리고 인시던트 리드는 수동 인시던트 로그를 시작하고 콜 브리지를 개설한다

이 내용을 **의사결정 카드(Decision Cards)**로 인쇄해 골든 시그널 카드와 함께 비치하십시오. 모든 시나리오를 예측하는 게 목적이 아니라, 처음 몇 수를 분명하고 안전하게 만드는 것이 목표입니다.


5. 로우테크 테이블탑 드릴 운영하기

의식은 연습할 때 비로소 현실이 됩니다.

정기적으로 테이블탑(tabletop) 연습을 진행하며, 의도적으로 다음을 제한해 보십시오.

  • 평소 도구 사용 금지: “모니터링은 다운이다. 슬랙은 다운이다. 티켓 시스템은 느리다.”
  • 인쇄된 골든 시그널 카드, 의사결정 카드, 로그 양식을 나눠준다.
  • 하나의 시나리오를 제시한다: “고객이 주문이 완료되지 않는다고 보고하고 있다.”
  • 처음 60–90분을 종이와 음성만으로 진행한다.

드릴 중에는 다음을 관찰하십시오.

  • 사람들이 어디서 머뭇거리는지 (“누구한테 전화해야 하지?”, “이건 기록해야 하나?”)
  • 실제로 손이 가는 카드는 무엇인지
  • 의식이 지나치게 느리거나, 복잡하거나, 모호하게 느껴지는 지점은 어디인지

연습 후에는 짧은 **핫워시(hot wash, 즉시 피드백 회고)**를 진행합니다.

  • 뭐가 도움이 되었는가? 뭐가 무시되었는가? 뭐가 빠져 있었는가?
  • 역할은 충분히 명확했는가?
  • 신호 → 의사결정 → 행동까지 충분히 빠르게 이어졌는가?

이 피드백을 바탕으로 산출물과 의식 자체를 정제하십시오.


6. 열화 모드를 전제로 설계하기

열화 모드(degraded mode)는 나중에 덧붙이는 게 아니라 처음부터 목표 상태로 두고 설계해야 합니다.

다음과 같은 상황에서 정보가 어떻게 흐를지 의식적으로 결정하십시오.

  • SCADA나 모니터링이 간헐적이거나 멈춘 화면에서 업데이트되지 않을 때
  • 채팅이 불가하거나, 여러 도구로 쪼개져 있을 때
  • 티켓 시스템이나 인시던트 관리 플랫폼에 접근할 수 없을 때

구체적인 방법은 다음과 같습니다.

  • 화이트보드 기반 중앙 상태판: 위치별로 하나씩 두고, (시간 / 관찰 / 조치 / 담당자) 정도의 단순한 컬럼 레이아웃 사용
  • 전화 트리(Phone Tree): 1차·2차 연락처가 적힌 인쇄된 콜 리스트와, 언제 에스컬레이션할지에 대한 규칙
  • 인쇄된 플레이북(Printed Playbooks): 가장 중요한 카드, 연락처 목록, 절차를 모은 얇은 바인더나 폴더
  • 물리적 토큰(Physical Tokens): 인시던트 리드나 커뮤니케이션 역할을 누가 맡고 있는지 표시하는 색깔 자석, 카드, 배지 등

목표는, 평소 채널이 죽어도 정보, 권한, 책임이 계속 흐르게 만드는 것입니다.


7. 실제 인시던트로부터의 지속적 개선

첫 버전의 의식은 중요한 부분에서 분명히 틀릴 것입니다. 당연한 일입니다.

종이 기반 의식을 살아 있는 코드처럼 다루십시오.

  • 실제 인시던트나 드릴 이후, 기억이 생생할 때 카드를 업데이트합니다.
  • 아무도 쓰지 않는 단계는 제거하고, 사람들이 현장에서 자연스럽게 만들어낸 ‘편법’ 중 유용한 것은 공식 절차에 편입합니다.
  • 애매한 임계값은 실제 관측 데이터 기반으로 더 나은 수치로 교체합니다.
  • 스트레스 상황에서 실제 협업 방식에 맞게 역할을 조정합니다.

인쇄물에는 항상 버전과 날짜를 적으십시오. 업데이트하면 반드시 재인쇄 및 재배포하고, 헷갈리지 않도록 구버전은 눈에 띄게 폐기하십시오.

시간이 지나면 팀에게 자연스럽고, 압박 속에서도 잘 버티는 단순하고 견고한 관행의 생태계가 만들어질 것입니다.


결론: 나만의 종이 철도 신호 연구소 만들기

하이테크 시스템은 훌륭합니다. … 작동할 때까지는요. 가시성이 떨어지고 협업 도구가 사라지면, 남는 것은 사람, 종이, 그리고 공유된 이해뿐입니다.

다음과 같은 일을 통해:

  • 로우테크 의식과 산출물을 설계하고
  • 사람이 읽을 수 있는 정상 기준선을 정의하고
  • 골든 시그널을 수동 관찰 방식에 맞게 재구성하고
  • 신호에서 행동까지 이어지는 경로를 스크립트하고
  • 로우테크 테이블탑 드릴로 연습하고
  • 열화 모드를 전제로 설계하고
  • 현실에 기반해 지속적으로 개선함으로써

…조직 안에 **종이 철도 신호 연구소(Paper Rail Signal Lab)**를 만들 수 있습니다. 어떤 특정 도구에도 종속되지 않는 리질리언스를 설계하고, 시험하고, 개선하는 곳입니다.

화면이 모두 꺼지는 순간에도, 무엇을 해야 할지 막연히 짐작만 하진 않을 것입니다. 이미 여러 번 연습해 둔 의식을 따라갈 겁니다. 그 의식이, 불이 다시 켜질 때까지 기차를 안전하게 움직이게 해 줄 것입니다.