Rain Lag

종이 기차로 만드는 안전한 온콜 인수인계: 골판지 사고 철도 토이박스

골판지로 만든 ‘철도 토이박스’와 종이 기차를 활용해, 온콜 팀이 실제 장애가 나기 전에 더 안전하고 명확하며 신뢰할 수 있는 인수인계 의식을 설계하고 연습하는 방법을 다룹니다.

골판지 사고 철도 토이박스: 종이 기차로 프로토타입 만드는 더 안전한 온콜 인수인계

혹독한 온콜 근무를 끝내고 나서 “다음 사람이 알아서 잘 처리하겠지…”라고 생각해본 적이 있다면, 이미 인수인계가 왜 중요한지 몸으로 알고 있는 셈입니다. 온콜 업무는 소프트웨어 시스템 운영에서 가장 안전에 민감한 부분 중 하나이지만, 인수인계 절차는 종종 즉흥적으로 이루어지거나, 서둘러 처리되거나, 아예 문서화되지 않곤 합니다.

여기서 등장하는 것이 바로 골판지 사고 철도 토이박스입니다. 시스템, 서비스, 책임을 각각 기차, 선로, 역에 비유해 사용하는 종이 기반 테이블탑(탁상) 연습 도구입니다. 겉으로는 장난감 같지만, 실제로는 구조화된 온콜 인수인계 같은 진지한 안전 관행을 프로토타입 해보는 도구입니다.

이걸 온콜·장애 대응 프로세스를 위한 ‘저위험 모형 철도’라고 생각해도 좋습니다. 선로를 만들고, 기차를 움직이고, 선로에 문제 상황을 만들어본 뒤, 한 디스패처(온콜 담당자)에서 다음 사람에게 어떻게 관제를 넘길지 실험해 보는 거죠.

이 글에서는 좋은 인수인계가 왜 그렇게 중요한지, 커뮤니케이션 실패가 왜 위험한지, 그리고 골판지 토이박스가 어떻게 여러분 팀이 더 나은 온콜 의식을 설계하고 연습하도록 도울 수 있는지를 살펴보겠습니다.


인수인계는 장애 대응만큼이나 중요하다

많은 팀이 장애 대응에는 큰 노력을 들이면서도, 인수인계는 뒷전으로 밀어둡니다. 잠깐의 Slack 메시지, 반쯤만 업데이트된 티켓, “필요하면 나한테 질문해” 정도로 끝나기도 합니다. 하지만 안전이 중요한 도메인—예를 들어 의료 분야—에서는 상상도 할 수 없는 일입니다.

임상 환경에서는 **교대 인수인계가 매우 엄격한 구조를 가진 의식(ritual)**입니다. 그 이유는 명확합니다.

  • 업무는 24시간 계속되지만, 사람은 그렇지 않습니다.
  • 문제는 근무 교대 시간에 맞춰서 발생하지 않습니다.
  • 사소해 보이는 단 하나의 누락도 실제 피해로 이어질 수 있습니다.

온콜 운영도 마찬가지입니다. 장애는 달력을 보지 않습니다. 장기적인 원인 분석은 여러 교대를 가로질러 이어집니다. 지친 사람이 복잡한 시스템을, 마찬가지로 인간인 후임에게 넘겨주곤 합니다.

명확하고 신뢰할 수 있는 인수인계가 없다면, 사실상 안전을 두고 도박을 하는 셈입니다.


진짜 위험: 교대 시점에 발생하는 커뮤니케이션 실패

각 산업의 장애 사후 분석(postmortem)을 보면, 공통적으로 지목되는 핵심 기여 요인이 있습니다. 바로 인수인계 시점의 커뮤니케이션 붕괴입니다. 대표적인 실패 양상은 다음과 같습니다.

  • 중요한 맥락이 특정 사람의 머릿속에만 있습니다.
  • 상태를 모호하게 설명합니다. “지금은 괜찮아 보이는데, 그냥 좀 지켜봐.”
  • 부분적으로 하던 일을 마무리했는지, 중단했는지 명확히 표시하지 않습니다.
  • 문제의 책임자가 불분명합니다. (“난 네가 보고 있는 줄 알았는데?”)

결과적으로 모호함과 정보 손실이 발생합니다.

  • 두 사람이 같은 문제를 서로 모르고 동시에 처리합니다.
  • 아슬아슬하지만 겨우 돌아가는 시스템을 아무도 지켜보지 않습니다.
  • 새 온콜 담당자는 이전 사람이 “완전히 고쳤다”고 가정합니다.

이것은 도구(tooling)의 문제가 아니라, 조정(coordination)과 커뮤니케이션 설계의 문제입니다. 그리고 설계 문제는 바로 프로토타입을 통해 가장 잘 다룰 수 있는 종류의 문제입니다.


책임을 눈에 보이게 하기: 누가 어떤 기차를 모는가?

좋은 인수인계를 설계하기 전에, 먼저 답해야 할 기본적인 질문이 있습니다. **“도대체 무엇을 넘기는 거지?”**라는 질문입니다.

온콜에서는 종종 책임이 뒤섞이기 쉽습니다.

  • 모니터링: 대시보드, 알림, SLO를 감시
  • 트러블슈팅: 이상 징후, 성능 저하, 반복되는 알림을 조사
  • 장애 해결: 공식적인 장애 대응(incident response)을 리딩하고 조정

이 책임들이 명시적으로 분리되고 공유되지 않으면, 인수인계는 흐릿해집니다.

“그 큐 문제는 대충 보고 있긴 했는데, 지금은 괜찮은 것 같아.”

철도 토이박스의 은유에서:

  • 기차는 활성화된 책임(알림, 장애, 조사)을 나타냅니다.
  • 선로는 서비스 간 의존성과 워크플로를 나타냅니다.
  • 은 시스템, 팀, 혹은 경계(예: 데이터베이스 팀, SRE 팀, 프로덕트 팀)를 나타냅니다.

각 기차에는 다음이 명확히 적힌 카드가 붙습니다.

  • 이것이 무엇인지 (장애, 원인 조사, 수동 우회 조치 등)
  • 현재 상태 (정지, 지연, 운행 중, 막힘)
  • 현재 누가 “운전”하는지 (주 책임자)
  • 다음에 무엇이 필요한지 (지속 모니터링, 실험, 에스컬레이션, 롤백 등)

교대 시간이 되면, 더 이상 “느낌”이나 어렴풋이 기억나는 맥락을 넘기는 것이 아닙니다. 명확하게 라벨링된 기차를 넘기는 것입니다.


완벽한 템플릿보다 더 중요한 건 ‘일관성’

많은 팀이 이상적인 인수인계 템플릿을 두고 논쟁하다가 멈춰 서곤 합니다. 위키 페이지를 쓸까? Slack 채널을 쓸까? 티켓으로 관리할까? 폼을 만들까?

현실은 이렇습니다. 어떤 도구를 쓰느냐보다, 구조가 일관되게 유지되는지가 훨씬 중요합니다.

팀에 진짜 필요한 것은, 모든 온콜 담당자가 다음을 알고 있는 예측 가능한 형식입니다.

  • 어디를 보면 되는지
  • 어떤 정보를 기대해도 되는지
  • 어떻게 업데이트해야 하는지

철도 토이박스에서는 이런 일관성이 물리적으로 강제됩니다.

  • 모든 기차 카드가 같은 기본 필드를 가집니다.
  • 모든 선로 다이어그램이 동일한 기호로 그려집니다.
  • 모든 역이 위험, 책임, 상태를 동일한 방식으로 표시합니다.

그다음 이 물리적인 포맷을 디지털 환경으로 그대로 옮길 수 있습니다.

  • 교대당 표준 인수인계 문서
  • Slack에 붙여넣는 일관된 장애 “상태 블록”
  • 교대 종료 시 티켓 시스템에 남기는 공통 구조의 업데이트

목표는 새 온콜 담당자가 인수인계를 훑어보는 것만으로 빠르게 정확한 멘탈 모델을 구성할 수 있도록 하고, 무엇이 빠졌는지 추측하지 않아도 되게 만드는 것입니다.


교대 사이를 잇는 접착제: ‘글로 남긴 메모’

대면이든 통화든, 구두 인수인계는 유용하지만 동시에 매우 취약합니다.

  • 피로할수록 사람은 세부 사항을 잊습니다.
  • 시간에 쫓기면, 설명을 과도하게 단순화하기 쉽습니다.
  • 분산 팀에서는 교대 시간대가 겹치지 않을 수도 있습니다.

상세한 서면(handwritten 또는 typed) 인수인계 메모는 다음과 같은 방식으로 위험을 줄입니다.

  • 시간대가 겹치지 않아도 맥락을 보존합니다.
  • 부분적으로 끝낸 작업과 다음 단계를 명시적으로 기록합니다.
  • 다음 장애 리뷰(사후 분석)에서 참고 자료가 됩니다.

종이 철도 연습에서는, 기차나 선로에 발생하는 모든 변경 사항을 꼭 글로 남깁니다.

  • 새로운 장애 발생? 새 기차 카드를 만듭니다.
  • 임시 우회 조치 도입? 선로에 주석을 남깁니다.
  • 특정 서브시스템의 위험도가 증가? 역에 위험 스티커를 붙입니다.

인수인계 시점이 되면, 퇴근하는 온콜 담당자는 이 물리적 배치와 메모를 함께 훑어보며 설명합니다.

  • “이 기차는 장기적인 원인 조사이고, 지금까지 이런 실험들을 해봤어요.”
  • “저 기차는 3시간마다 돌리는 수동 우회 조치입니다.”
  • “이 선로들은 내일 롤아웃이 끝날 때까지 위험 구간이에요.”

다음 담당자는 사진을 찍거나 내용을 옮겨 적어, 팀이 실제로 사용하는 인수인계 도구(문서, 티켓, Slack 등)에 반영합니다. 중요한 것은 골판지 그 자체가 아니라, 적어 쓰고, 함께 검토하는 행위입니다.


단순한 업무 인계가 아니라 ‘신뢰를 쌓는 의식’으로서의 인수인계

신뢰할 수 있는 인수인계는 단순히 일을 넘기는 것에 그치지 않고, 팀의 신뢰와 연속성을 강화합니다.

인수인계가 엉망이면 사람들은 이렇게 반응합니다.

  • “혹시 모르니까” 로그아웃하지 않고 계속 대기하다가, 휴식과 경계를 잃습니다.
  • 다른 사람이 잘 인계받을 거라는 믿음이 없어, 맥락을 머릿속에만 쌓아둡니다.
  • 어려운 장애가 여러 교대를 걸쳐 이어질 때, 서로에게 버림받았다고 느낍니다.

반대로 인수인계가 신뢰할 수 있고 의식처럼 정착되면:

  • 사람들은 교대가 끝나면 실제로 마음 편히 접속을 끊습니다.
  • 새 온콜 담당자는 잘 정리된 문서 덕분에 심리적으로 지지받는다고 느낍니다.
  • 팀 전체가 온콜을 개인의 짐이 아니라 공동 책임으로 바라보게 됩니다.

토이박스는 이 과정을 하나의 사회적 의식으로 바꿔 줍니다.

  • 모두가 한 자리에 모여 테이블을 둘러앉습니다.
  • 함께 선로를 따라가며 상황을 훑어봅니다.
  • 기차들을 의도적으로, 의식적으로 넘깁니다.

이 공유된 물리적 경험 덕분에, 눈에 보이지 않던 “케어의 연속성(continuity of care)”이라는 개념이 매우 현실적으로 느껴지게 됩니다.


왜 ‘종이 시뮬레이션’이 그렇게 잘 먹히는가

디지털 운영을 개선하겠다고 하면서 가위와 골판지를 꺼내 드는 게 다소 이상하게 느껴질 수도 있습니다. 하지만 테이블탑 시뮬레이션은 복잡한 시스템을 안전하게 탐색하는 검증된 방법입니다.

골판지 사고 철도 토이박스가 효과적인 이유는 다음과 같습니다.

  • 저위험: 실제 프로덕션을 망가뜨리지 않고 과감한 아이디어를 마음껏 시험해볼 수 있습니다.
  • 구체적: 추상적인 책임이 눈에 보이는 물체로 바뀌어, 직접 움직이고 이야기할 수 있습니다.
  • 협업적: 모두가 손가락으로 가리키고, 재배치하고, 질문하고, 함께 개선할 수 있습니다.
  • 빠른 반복: 레이아웃을 바꾸거나, 새 규칙을 추가하거나, 새 템플릿을 시험하는 데 몇 분이면 충분합니다.

실제로 적용해볼 만한 워크숍 아이디어는 다음과 같습니다.

  1. 현재 온콜 세계를 지도처럼 그려보기

    • 주요 서비스를 역으로 그립니다.
    • 데이터 플로우나 의존성을 기준으로 역들을 선로로 연결합니다.
    • 반복적으로 울리는 알림, 취약한 지점, 진행 중인 장애에 해당하는 기차들을 올립니다.
  2. 한 교대와 인수인계를 실제처럼 돌려보기

    • 한 사람을 현재 온콜 담당자로 지정합니다.
    • 지연된 기차, 막힌 선로, 특정 역 장애 같은 이벤트를 주입합니다.
    • 온콜 담당자가 이에 대응하고, 메모를 업데이트하고, 업무량을 조정하게 합니다.
    • 그런 다음, 실제 사용 중인(또는 도입하려는) 인수인계 템플릿을 이용해 교대 인수인계를 시뮬레이션합니다.
  3. 리뷰하고 다시 설계하기

    • 어떤 정보가 빠져 있었나요?
    • 인수인계 때 이해하기 어려웠던 기차는 무엇이었나요?
    • 우선순위, 위험, 책임을 더 잘 표시하려면 어떻게 해야 할까요?
    • 레이아웃과 규칙을 조정한 뒤, 다시 한 번 시뮬레이션합니다.

목표는 완벽한 게임을 만드는 것이 아닙니다. 여러분 팀에게 ‘더 안전한 인수인계 의식’이 어떤 모습일지 발견하는 것입니다.


토이박스에서 얻은 교훈을 실제 프로덕션으로 가져오기

팀이 골판지 위에서 충분히 실험해봤다면, 이제 실제 환경으로 인사이트를 가져올 차례입니다.

  • 온콜 문서에서 역할을 명시적으로 정의합니다. (모니터링, 트러블슈팅, 인시던트 커맨더 등)
  • 인수인계 구조를 표준화합니다. 간단한 공유 문서 템플릿만으로도 큰 전진입니다.
  • 교대를 넘길 가능성이 있는 모든 활성 장애나 취약한 우회 조치에는 반드시 서면 메모를 남기도록 합니다.
  • 가능하다면 교대 시점에 **겹치는 시간(overlap)**을 마련해 라이브 인수인계를 수행합니다.
  • 인수인계를 **1급 시민인 안전 의식(first-class safety ritual)**으로 대우하고, 선택적인 행정 업무로 치부하지 않습니다.

실제로 골판지 토이박스를 늘 갖고 다닐 필요는 없습니다. 하지만 종이 기차는, 눈에 보이지 않는 것들을 잠시 눈에 보이게 만들어, 팀이 무엇이 빠져 있는지 깨닫고 다음 실제 장애 전에 고칠 수 있게 도와줍니다.


결론: 탈선이 일어나기 전에, 먼저 여러분만의 철도를 만들어보자

온콜 시스템이 실패하는 방식에는 일정한 패턴이 있습니다. 버그나 장애 같은 기술적인 실패뿐만 아니라, 교대 시점의 사람 간 조정 실패를 통해서도 실패합니다. 그 틈에서 맥락은 사라지고, 책임은 흐려지고, 막을 수 있었던 장애가 필연처럼 일어나 버립니다.

인수인계를 설계 가능한, 프로토타입 가능한 프로세스로 다루면 다음과 같은 효과를 얻을 수 있습니다.

  • 모호함과 정보 손실을 줄입니다.
  • 장애가 여러 교대를 가로질러 이어질 때, 대응의 정확성과 속도를 높입니다.
  • 순환 근무나 분산된 온콜 팀에서 신뢰와 연속성을 구축합니다.

골판지 사고 철도 토이박스는, 복잡한 디지털 시스템을 개선하는 가장 좋은 방법이 때로는 키보드에서 손을 떼고, 대신 가위와 종이를 집어 드는 것일 수 있음을 상기시켜 줍니다.

선로를 펼쳐두십시오. 기차에 라벨을 붙이십시오. 탈선해도 상관없는 이 연습 환경에서, 인수인계를 마음껏 연습해 보십시오.

그리고 그 과정에서 배운 것들을 프로덕션으로 가져오십시오. 그래서 다음 실제 장애가 발생했을 때, 시스템이—그리고 여러분의 팀이—끝까지 선로 위에 안전하게 머물 수 있도록 말입니다.

종이 기차로 만드는 안전한 온콜 인수인계: 골판지 사고 철도 토이박스 | Rain Lag