Rain Lag

아날로그 인시던트 ‘역 바닥 테이프 미로’: 다음 호출 폭풍이 오기 전에 장애 경로를 몸으로 익히는 법

다음 호출(pager) 폭풍이 닥치기 전에, 실제 걸어보는 시뮬레이션·체화된 인지·‘아날로그’ 인시던트 드릴로 산업 제어 시스템(ICS) 장애 대응 역량을 어떻게 근본적으로 다르게 만들 수 있는지 살펴본다.

아날로그 인시던트 ‘역 바닥 테이프 미로’: 다음 호출 폭풍이 오기 전에 장애 경로를 몸으로 익히는 법

호출기와 알람이 한꺼번에 울리고, 대시보드가 새빨갛게 물들고, 운전원들이 이리저리 뛰어다니기 시작하는 호출 폭풍(pager storm) 이 닥쳤을 때는, 그 순간 처음으로 장애 경로를 파악하고 싶지 않을 것이다.

이미 몸이 먼저 움직이길 원한다. 팀이 같은 그림을 떠올리길 원한다. 첫 알람, 두 번째 고장, 세 번째 연쇄 의존성 붕괴가 일어났을 때 그다음에 무엇을 할지 모두가 본능적으로 알고 있기를 바란다.

그때 도움이 되는 것이 바로 “역 바닥 테이프 미로(train station floor tape labyrinth)” 다. 일부러 저기술(low‑tech) 이고 지극히 물리적인 방식 으로, 복잡한 장애를 사전에 리허설하는 방법이다.

이 글에서는 다음 내용을 다룬다.

  • 인시던트 대응 테이블탑(tabletop) 연습을 산업 제어 시스템(ICS) 에 더 현실적으로 적용하는 방법
  • 슬라이드나 다이어그램보다, 직접 걸어 다니며 장애 경로를 따라가는 편이 팀이 의존 관계를 훨씬 더 잘 체화하게 만드는 이유
  • 체화된 인지(embodied cognition) 와 인간‑로봇 협업 개념을 인시던트 드릴과 툴 설계에 적용하는 방법
  • 부하 테스트(load testing)카오스 실험(chaos experiments) 을 하나의 디지털 테이블탑 으로 보고, 아날로그 미로와 어떻게 상호 보완할 수 있는지
  • 이런 연습을 반복·개선하며 다음 호출 폭풍 전에 진짜 현장 대응력을 쌓는 방법

파워포인트 테이블탑에서 역 바닥 미로로

전통적인 인시던트 대응 테이블탑 연습은 대체로 이렇게 진행된다.

  • 회의실에 사람들이 모이고
  • 퍼실리테이터가 장애 시나리오를 설명하고
  • 참가자들이 “이 상황이면 이렇게 할 것이다”라고 말하고
  • 누군가가 그 내용을 기록한다

이런 방식도 분명 가치가 있다. 하지만 동시에 굉장히 추상적 이다. 그리고 ICS처럼 복잡하고 강하게 결합된 시스템을 다룰 때 추상화는 적 이다.

의존 관계는 미묘하고, 경로는 비선형이며, “페일오버가 될 것 같다”와 “정말로 페일오버가 된다” 사이에는 엄청난 간극이 존재한다.

이제 전혀 다른 접근을 상상해 보자.

당신은 넓은 공간—예를 들어 창고 바닥이나 큰 컨퍼런스 룸—에 들어선다. 바닥에는 컬러 테이프로 다음과 같은 것들이 펼쳐져 있다.

  • 시스템과 서브시스템 (PLC 네트워크, HMI, Historian, SCADA, 클라우드 서비스 등)
  • 지원 기능 (OT 네트워크, 코퍼레이트 IT, 벤더, 현장 작업팀)
  • 외부 의존성 (전력, 통신, 물리적 출입, 안전 시스템)
  • 의사 결정 포인트와 실패 분기점

마치 역 안내도 가 바닥 위로 터져 나온 것 같다. 노드들을 잇는 선, 데이터·전력·제어 흐름을 나타내는 표시된 “선로(track)” 들이 보인다.

퍼실리테이터가 시나리오를 알린다.

“필드 사이트 A의 1차 계측(telemetry)을 상실했습니다. 네트워크 알람에는 간헐적인 패킷 손실이 보입니다. HMI 운전원 트랙에서 시작해 장애 경로를 따라가 보세요.”

이제 팀은 말로만 대응을 설명하는 대신, 직접 그 경로를 걸어간다.


왜 ‘그려보기’보다 ‘직접 걸어보기’가 더 잘 먹히는가

슬라이드 속 다이어그램은 정적이다. 시간, 공간, 복잡성을 2D 평면 안에 압축해 넣는다. 사람들은 고개를 끄덕이지만, 실제 의존 관계를 몸으로 느끼기는 어렵다.

장애 경로를 직접 걸어보는 것 은 전혀 다른 효과를 낸다.

  1. 공간을 이동하면 모호함이 사라진다
    네트워크 링크가 방 한쪽 끝에서 다른 쪽까지 3미터짜리 테이프 로 이어져 있으면, 사람들은 자연스럽게 질문하기 시작한다.

    • “이 노드는 왜 이 위험한 의존성과 같은 ‘선로’ 위에 있죠?”
    • “우리가 왜 항상 이 단일 장비를 경유해야 하죠?” 발밑에 병목 지점(choke point) 이 적나라하게 드러난다.
  2. 여러 역할이 동시에 움직일 수 있다
    운전원, 네트워크 엔지니어, 자동화 스페셜리스트, 관리자는 각자 자신의 “라인” 을 따라가다가, 중요한 분기점에서 합류한다. 이 과정에서 조율의 빈틈이 드러난다.

    • 누가 누구를 기다리느라 막혀 있는가?
    • 정보 흐름이 과도하게 느리거나 중앙집중적인 지점은 어디인가?
  3. 혼란이 ‘눈에 보이는’ 형태로 나타난다
    누군가가 멈춰 서서 “잠깐, 이제 어디로 가야 하죠?”라고 묻는 순간이 바로 숨겨진 복잡성이 모습을 드러내는 지점이다. 이런 순간에는 대개 다음과 같은 것들이 드러난다.

    • 문서화되지 않은 수동 절차
    • 불명확한 책임 구분 ("이 바이패스는 누가 승인할 수 있죠?")
    • OT와 IT 사이의 엇갈린 가정

여기서 연습하는 것은 단순한 기술적 절차 가 아니다. 조직과 사람 사이의 경로 를 물리적으로 가시화하는 작업이다.


체화된 인지: 뇌는 발과 함께 생각한다

이 접근이 단순한 아이디어 대회용 gimmick 은 아니다. 이는 체화된 인지(embodied cognition) 라는 개념, 즉 사고는 뇌만의 활동이 아니라 몸과 환경 과 밀접하게 연결되어 있다는 원리에 기반한다.

인시던트 대응 드릴 맥락에서 보면:

  • 움직임이 기억을 강화한다
    어떤 경로를 따라 걸어가고, 분기점에서 방향을 틀고, 결정 포인트에서 잠시 서 있는 행위 자체가 정보를 공간적으로 인코딩 한다. 그래서 참가자들은 이런 것들을 더 잘 기억한다.

    • “진행을 계속하려면 ‘OT 보안’ 구역까지 일부러 멀리 걸어가야 했지.”
    • “변경 관리 승인 하나가 빠져서 다시 뒤로 되돌아가야 하는 어색한 루프가 있었어.”
  • 물리적 은유가 설계 결함을 드러낸다
    페일오버를 마치기 위해서 여기저기 먼 거리를 빙 돌아가야 하고, 앞뒤로 계속 왕복해야 한다면, 사람들은 몸으로 그 마찰(friction) 을 느낀다. 이 불편함이 종종 다음 같은 질문을 끌어낸다.

    • “이 절차를 더 단순화할 수는 없을까?”
    • “여긴 자동화해서 사람 손을 덜 거치게 만들 수 없을까?”
  • 공유된 공간이 공유된 멘탈 모델을 만든다
    각 역할이 각자 머릿속에만 갖고 있던 ‘부분 지도’ 대신, 이제 모두가 공통의 물리적 참조물을 공유한다. 연습이 끝난 뒤에는 다음과 같은 말이 복잡한 상호 의존성을 가리키는 공통 언어 가 된다.

    “OT랑 IT 경로가 교차하던 그 빨간 분기점 기억나죠?”

미로를 설계할 때, 구역을 명확히 나누고, 색상 코딩을 하고, 상징적인 배치를 적용하면, 뇌의 공간 추론 능력 을 최대한 활용해 인시던트 대응 지식이 머리에 오래 남도록 만들 수 있다.


자동화는 조종사가 아니라 ‘부조종사’: 인간‑로봇 협업에서 얻는 교훈

요즘 ICS 환경은 인간 운전원, 고급 자동화, 때로는 실제 로봇까지 뒤섞여 있다. 인간‑로봇 협업(human‑robot collaboration) 에서 이야기하는 공유 제어(shared control), 상황 인식 행동(context‑aware actions) 같은 개념은, 장애 시 우리의 툴이 어떻게 동작해야 하는지에 대한 좋은 은유가 된다.

바닥 테이프 미로 위에 다음을 표시해볼 수 있다.

  • 완전 자동화 작업: 사람 개입 없이도 시스템이 수행할 수 있는 단계
    (예: 자동 페일오버, 알람 서프레션 규칙, 이상 징후 탐지 트리거)
  • 공유 제어 작업(shared‑control): 도구가 돕지만 최종 결정은 사람이 내리는 단계
    (예: 추천 런북, 제안된 네트워크 우회 경로, 의사결정 지원 대시보드)
  • 인간 전담 의사결정: 판단, 리스크 트레이드오프, 규제 고려가 꼭 필요한 단계

워크스루를 진행하면서 다음을 질문해 보자.

  • 어디까지는 자동화가 자율적으로 행동해야 하는가?
  • 어디에서는 툴이 옵션을 제안만 하고, 실행은 사람이 하게 해야 하는가?
  • 속도가 느려지더라도, 반드시 사람이 책임지고 결정해야 하는 지점은 어디인가?

목표는 대체가 아닌 협업 이다.

  • 모니터링 도구는 운전원의 필요를 미리 예측해, 필요한 맥락 정보를 제때 올려준다.
  • 런북은 이전 미로 연습에서 얻은 인사이트를 그대로 녹여 넣는다.
  • 자동화는 반복적이고 저위험인 작업을 맡아, 사람이 새로운·고위험 상황에 집중하도록 해준다.

인간‑로봇 협업에서 그렇듯, 올바른 설계는 인지 부하를 줄이면서 인간이 의미 있게, 그리고 안전하게 루프 안에 머무르도록 돕는다.


부하 테스트는 ‘디지털 테이블탑’이다

아날로그 미로는 강력하지만, 이야기의 절반에 불과하다. 장애는 절차의 문제만이 아니라, 시스템이 스트레스 상황에서 실제로 어떻게 동작하는가 의 문제이기도 하다.

그래서 필요한 것이 바로 부하 테스트(load testing)카오스 실험(chaos experiments) 이다.

이들을 하나의 디지털 테이블탑(digital tabletop) 으로 생각해 보자.

  • 부하 테스트 는 피크 트래픽, 열화된 네트워크, 제어 명령 폭주 상황을 시뮬레이션한다.
  • 카오스 실험 은 의도적으로 컴포넌트를 깨뜨린다. 패킷을 드롭하고, 서비스를 종료하고, 지연(latency)을 주입해 실제 실패 양상을 관찰한다.

이 시뮬레이션을 통해 다음을 알 수 있다.

  • ICS 및 이를 받치는 IT 인프라가 점진적으로 열화되는지, 아니면 한꺼번에 붕괴하는지
  • 알람이 어떻게 전파되는지 (그리고 운전원을 압도하는지 여부)
  • 타임아웃, 재시도 폭주(retry storm), 페일오버 경합(race)이 어디에서 발생하는지

그리고 이 결과를 아날로그 연습과 결합하면, 상황을 훨씬 더 입체적으로 볼 수 있다.


아날로그와 디지털의 결합: 완전한 장애 리허설

진짜 힘은 물리적 워크스루와 기술적 시뮬레이션을 결합 할 때 나온다.

예시로, 다음과 같은 블렌디드(blended) 연습 을 구성해 보자.

  1. 사전 작업: 디지털 스트레스 테스트
    중요한 서브시스템에 부하 테스트나 카오스 실험을 걸어본다.
    (예: 주요 계측 링크 상실, 고부하 상태의 DB 등)
    그리고 다음을 수집한다.

    • 메트릭과 트레이스
    • 알람 패턴
    • 실제 실패의 연쇄 양상
  2. 테이프로 장애 경로를 바닥에 그린다
    시뮬레이션 결과를 바탕으로 다음을 레이아웃한다.

    • 실패했거나 열화된 시스템들
    • 개입해야 했던 팀들
    • 다른 선택을 했다면 결과가 달라졌을 법한 의사 결정 포인트들
  3. 모든 이해관계자와 함께 그 경로를 걸어본다
    참가자 예:

    • 중앙제어실 운전원
    • OT / IT 엔지니어
    • 보안팀(사이버 보안)
    • 현장 기술자
    • 경영진 혹은 인시던트 커맨더

    그리고 다음을 리허설한다.

    • 실제 시간 축에서 시나리오가 어떻게 전개되는지
    • 누가 언제 누구와 이야기해야 하는지
    • 어떤 툴이 필요한 맥락을 제공하는지 (그리고 아직은 어떤 툴이 부족한지)
  4. 프로세스와 시스템 설계를 함께 개선한다
    연습을 통해 다음을 식별한다.

    • 단일 장애점(single point of failure)
    • 협업·조율의 병목
    • 더 똑똑한 자동화나 더 나은 런북으로 개선할 수 있는 지점들

    그리고 이 개선점을 다음에 반영한다.

    • 시스템 아키텍처와 이중화·복원력 계획
    • 모니터링·알림 설정
    • 문서와 교육 과정

다음 호출 폭풍 전에 ‘근육 기억’을 만들어라

이런 연습을 한 번만 하는 것으로는 부족하다. 진짜 효과는 주기적 반복과 개선 에서 나온다.

  • 반복이 근육 기억을 만든다
    같은 시나리오의 변형을 몇 달 간격으로 계속 돌리면 다음과 같은 일이 일어난다.

    • 신규 인력이 절차를 몸으로 익힌다.
    • 숙련된 인력은 대응을 더 다듬고, 불필요한 단계를 제거한다.
  • 대응 시간이 짧아진다
    특정 알람이 떴을 때 처음 세 가지로 무엇을 할지 모두가 알고 있으면, 망설임이 사라지고, 시스템을 안정화하는 데 걸리는 시간이 줄어든다.

  • 숨겨진 실패 모드가 일찍 드러난다
    새로운 미로 세션마다 대개 이런 것들이 하나씩 더 튀어나온다.

    • 문서화되지 않은 의존성
    • 애매한 책임 경계
    • 위험하지만 관성적으로 쓰이던 수동 우회 절차

이를 저위험·저스트레스 환경 에서 미리 드러내면, 실제 장애 한복판에서 이런 요소들에 놀랄 일은 줄어든다.


시작을 위한 실무 체크리스트

첫 ‘역 바닥 테이프 미로’를 만들기 위해 거창한 예산은 필요 없다. 작게 시작하라.

  1. 핵심 시나리오 하나를 고른다
    예: “피크 수요 시점에 주요 필드 사이트와의 1차 제어 네트워크 링크 상실”

  2. 핵심 시스템과 팀을 식별한다
    이 시나리오에 관여할 핵심 컴포넌트와 사람들을 맵핑한다.

  3. 바닥 지도를 만든다

    • 마스킹/페인터 테이프, 출력 라벨, 화살표를 사용한다.
    • 명확한 구역을 정의한다.
      (예: 중앙제어실, OT 네트워크, IT 네트워크, 필드, 벤더, 안전)
  4. 시간 축이 있는 시나리오를 스크립트로 만든다
    5분, 10분, 20분 시점에 새로운 이벤트가 발생하도록 구성해 현실적인 압박감 을 준다.

  5. 설명하지 말고 퍼실리테이션하라
    참가자들이 직접 움직이고, 토론하고, 스스로 발견하게 두어라.
    당신의 역할은 관찰하고 인사이트를 기록하는 것이다.

  6. 디브리핑과 문서화

    • 어디서 사람들이 헷갈렸는가?
    • 어디에서 지연이 발생했는가?
    • 어떤 자동화나 툴이 있었다면 도움이 되었을까?
  7. 결과를 디지털 테스트에 반영한다
    미로에서 드러난 취약 지점을, 이후 부하 테스트와 카오스 실험의 타겟 으로 삼는다.


결론: 열차가 탈선하기 전에 선로를 걸어보라

복잡한 ICS 환경은 복잡한 방식으로 실패한다. 슬라이드와 정적인 다이어그램만으로는 실제 장애 상황의 혼란을 충분히 준비하기 어렵다. 인시던트 대응 경로를 물리적인 ‘역 바닥 테이프 미로’ 로 구현하면 다음을 할 수 있다.

  • 체화된 인지를 활용해 이해도와 기억력을 높인다.
  • 의존성, 병목, 단일 장애점을 눈에 보이는 형태로 드러낸다.
  • 사람과 도구의 협업 방식을 현실에 가깝게 연습한다.
  • 물리적 리허설을 디지털 부하 테스트·카오스 실험과 상호 보완한다.
  • 다음 호출 폭풍을 버텨낼 수 있는 근육 기억 을 구축한다.

모든 장애를 막을 수는 없다. 하지만 연쇄 장애와의 첫 실제 대면 이 새벽 3시, 극도의 압박 속에서 벌어질지, 아니면 텅 빈 방, 대낮, 잘못된 길을 택해도 그저 테이프를 뜯어내고 더 나은 경로를 다시 그리면 되는 환경에서 벌어질지는 선택할 수 있다.

열차가 최고 속도로 달리기 전에, 지금 미리 당신의 장애 선로를 걸어보기 시작하라.

아날로그 인시던트 ‘역 바닥 테이프 미로’: 다음 호출 폭풍이 오기 전에 장애 경로를 몸으로 익히는 법 | Rain Lag