아날로그 신뢰성 필드 키트: 인덱스 카드와 마스킹 테이프만으로 고위험 사고 대응 연습하기
단순한 로우테크 도구만으로도 복잡하고 고위험인 사고 상황을 모델링하고, 압박 속 의사결정 능력을 훈련하며, 기술·조직 경계를 넘나드는 신뢰성을 높이는 방법을 소개합니다.
아날로그 신뢰성 필드 키트: 인덱스 카드와 마스킹 테이프만으로 고위험 사고 대응 연습하기
현대 시스템은 디지털이고, 분산돼 있으며, 복잡합니다. 그렇다고 해서 사고 대응 훈련까지 복잡할 필요는 없습니다.
인덱스 카드, 마스킹 테이프, 그리고 화이트보드나 빈 벽만 있어도 강력하고 현실감 있으며 심리적으로도 안전한 사고 대응 모의훈련을 진행할 수 있습니다. 잘 설계된 이런 **“아날로그 필드 키트”**는 팀이 의존 관계를 눈으로 보고, 압박 속에서 의사결정을 연습하며, 실제 위기가 오기 훨씬 전에 조직 차원의 실패 양식을 발견하게 도와줍니다.
이 글에서는 특히 산업 현장과 중요 인프라(ICS/OT) 환경을 염두에 두고, 응급관리(emergency management)와 ICS/OT 사고 대응에서 검증된 패턴을 빌려와 이런 로우테크 테이블탑(tabletop) 연습을 어떻게 설계하고 운영할 수 있는지 단계별로 살펴봅니다.
왜 고위험 사고에 아날로그를 써야 할까?
이미 대시보드도 있고, 시뮬레이터도 있고, 런북도 있습니다. 그런데 왜 굳이 종이로 돌아가야 할까요?
1. 손에 잡히는 형태가 숨은 복잡성을 드러낸다
시스템, 팀, 의사결정 경로를 물리적으로 배치하면, 슬라이드나 문서로는 잘 보이지 않던 복잡성이 눈앞에 펼쳐집니다. 실제로 벽의 한쪽 “운영(Operations)” 구역으로 걸어가서 그쪽으로 몇 개의 테이프 라인이 몰려 있는지 보면, 의존성 리스크가 단번에 와닿습니다.
2. 저(低)기술은 참여 장벽을 낮춘다
계정을 만들 필요도, 로그인할 필요도, 특수 소프트웨어도 필요 없습니다. 인덱스 카드와 테이프만 있으면 다음 모두가 참여할 수 있습니다.
- 현장 작업자 및 기술자
- IT, OT, 보안, 시설 담당자
- 법무, 커뮤니케이션, 경영진
누구나 다가가서 쓰고, 옮기고, 메모를 덧붙일 수 있습니다. 이렇게 되면 팀 간 사각지대를 훨씬 쉽게 드러낼 수 있습니다.
3. 도구가 아니라 ‘결정’에 집중한다
훈련이 특정 플랫폼에 의해 매개되지 않으면, 사람들은 ‘어떤 대시보드를 쓸까?’보다는 다음과 같은 질문에 더 집중합니다.
- 누구에게 연락해야 하나?
- 무엇을 우선순위에 둘 것인가?
- 무엇을 포기할 각오가 되어 있는가?
실제 사고가 잘 처리되느냐, 크게 악화되느냐를 가르는 건 바로 이런 질문들입니다.
핵심 키트: 실제로 필요한 것들
큰 예산은 필요 없습니다. 필요한 것은 의도적인 구조입니다.
물리적 재료
- 인덱스 카드(충분히 많이) 2–3가지 색상
- 마스킹 테이프(가능하면 여러 색)
- 두껍고 눈에 잘 띄는 마커펜
- 메모용 스티키 노트(주석, 이벤트 추가용)
- 넓은 벽, 유리면, 또는 화이트보드 여러 개
역할(Role)
- 퍼실리테이터(Facilitator): 시나리오 진행, 속도 조절, 이벤트(인젝트) 투입 담당
- 서기/옵서버(Scribe/Observer): 메모, 주요 발언·결정 기록, 시간 추적
- 참가자(Participants): 실제 사고 시 대응에 나설 사람들
아날로그 도구라는 제약은 오히려 명료함을 강제합니다. 카드 하나하나가 자리를 차지할 가치가 있어야 하고, 테이프 한 줄 한 줄이 의미를 가져야 합니다.
1단계: 방 크기의 시스템 모델 만들기
“사고”를 시작하기 전에, 벽 위에 환경을 단순하지만 의미 있게 모델링합니다.
- 인덱스 카드에 엔티티(entity) 정의하기
엔티티 유형별로 카드 색을 다르게 사용합니다. 예를 들면:
- 파란색: 기술 컴포넌트 (PLC, SCADA 서버, 데이터베이스, 센서, 네트워크 등)
- 초록색: 팀과 역할 (관제실, OT 엔지니어링, IT 보안, 커뮤니케이션, 규제기관, 벤더 등)
- 노란색: 외부 의존성 (클라우드 제공사, 전력 회사, 통신사, 긴급구조 기관 등)
글씨는 크고 단순하게 씁니다. 예: “메인 PLC 클러스터 – 1공장”, “네트워크 세그멘테이션 방화벽”, “OT 엔지니어링 – 온콜”.
- 마스킹 테이프로 의존성 그리기
테이프 라인으로 다음을 표현합니다.
- 데이터 플로우 (예: 센서 → PLC → 히스토리언 → 분석 플랫폼)
- 제어 플로우 (예: SCADA HMI → 필드 디바이스)
- 조직 간 연결 (예: OT 엔지니어 ↔ SOC 분석가)
- 중요도와 취약성 표시하기
작은 스티키 노트를 붙여서 다음을 표시합니다.
- 알려진 단일 장애 지점(SPOF)
- 벤더 지원이 제한적인 레거시 시스템
- 엄격한 규제가 걸린 인터페이스 (예: 의무 보고 채널)
20–30분이면 완벽하진 않지만, 모두가 보고 질문할 수 있는 강력한 지도 한 장이 만들어집니다.
2단계: 현실적이고 고위험인 시나리오 설계하기
시나리오는 “그럴 법해서 불편할” 정도로 현실감 있어야 합니다.
산업·중요 인프라 환경에서는 다음 같은 관점에서 생각해 볼 수 있습니다.
- 가시성 상실 (예: 히스토리언 또는 HMI가 먹통)
- OT 네트워크 침해(Compromise) 의심 상황
- 물리적 안전 문제 (과압, 과열, 화학 물질 누출 등)
- 공장 간·지역 간 연쇄적 장애
- 규제·공공 안전에 미치는 파장
시작 상황을 짧고 구체적인 이야기로 카드에 적습니다.
"관제실에서 2공장의 텔레메트리가 간헐적으로 끊긴다는 보고가 들어온다. 운영자가 자신이 설정하지 않은 이상한 세트포인트 변경을 발견했다. 현재 어떤 알람도 울리지 않고 있다."
그리고 시간이 지나며 드러낼 이벤트 인젝트(event injects) 카드들을 여러 장 준비합니다.
- "벤더 VPN 로그에서 해외 IP로부터의 비정상 활동이 관측된다."
- "지역 전력 회사에서 해당 지역에 순간적인 전압 강하(브라운아웃)가 있었다고 통보한다."
- "언론에서 시설 내 유출 가능성에 대해 커뮤니케이션 팀에 문의해 온다."
- "규제기관에서 30분 이내에 상황 보고를 요구한다."
영화를 시나리오대로 연출하려는 게 아닙니다. 의사결정을 압박하는 압력솥을 설계하는 것입니다.
3단계: ‘실제로 의미 있는’ 심각도(Severity) 체계 사용하기
많은 조직이 다음 두 극단으로 치우칩니다.
- 모든 알림을 대형 사고처럼 취급하거나,
- 정말 위험할 때도 적시에 에스컬레이션하지 못하거나
아날로그 키트는 실질적인 심각도 레벨을 시험하고 다듬기에 아주 좋습니다.
벽의 한쪽에 심각도 정의를 적습니다.
-
SEV 4 – 경미 / 국소적
영향 범위가 작고 영향도 적음. 한 팀 내에서 처리 가능. -
SEV 3 – 유의미 / 다팀 참여
눈에 띄는 운영 영향이 있고, 여러 팀의 공조가 필요하지만 중대한 안전·규제 리스크는 없음. -
SEV 2 – 주요 / 비즈니스 임계
분명한 비즈니스 영향이 있고, 안전·환경 리스크 가능성이 존재. 규제기관이 개입할 수 있으며, 온콜 리더십이 참여. -
SEV 1 – 치명적 / 인명·안전·공공 영향
인명·안전·환경 또는 공공에 직접적인 영향이 발생한 상태. 풀 스케일 Incident Command(사고 지휘 체계) 가동.
각 레벨별로 다음을 벽에 명시합니다.
- 반드시 참여해야 하는 사람/팀
- 허용 가능한 최대 인지(ack)·초동 대응 시간
- 사용하는 커뮤니케이션 채널
훈련 중에는 정보가 바뀔 때마다 팀이 심각도를 명시적으로 선택하고, 재조정하게 만드세요. 벽에 크게 **“현재 심각도: SEV X”**라고 적인 카드를 붙이고, 바꿀 때마다 그 이유를 말하게 합니다.
4단계: 응급관리에서 쓰는 사고 수명주기(Lifecycle) 가져오기
응급관리와 ICS/OT 프레임워크에는 단순하지만 튼튼한 사고 수명주기가 있습니다.
- 탐지(Detection) – 무엇이 잘못됐다는 걸 어떻게 알아차렸는가?
- 평가·분류(Triage) – 얼마나 심각한가? 누구에게 영향이 있는가? 심각도는?
- 격리·확산 방지(Containment) – 더 악화되지 않도록 어떻게 막을 것인가?
- 복구(Recovery) – 어떻게 안전하게 정상 운영으로 되돌릴 것인가?
- 리뷰(Review) – 무엇을 배웠는가? 무엇을 바꿀 것인가?
벽에 마스킹 테이프로 이 다섯 가지를 크게 헤더로 붙입니다. 연습이 진행되는 동안 각 단계 아래에 작은 카드를 붙여 나갑니다. 카드에는 다음을 적습니다.
- 실제로 취한 조치
- 내린 결정
- 드러난 미지의 영역(Unknowns)
이렇게 하면 사고의 가시적인 타임라인이 만들어집니다. 참가자들은 그 타임라인을 따라 걸으면서 되짚어 보고, 리뷰 시간에 비판적으로 돌아볼 수 있습니다.
5단계: 절차가 아닌 ‘결정’을 연습하기
실제 사고에서 가장 큰 실패는 대개 어떤 커맨드를 몰라서가 아닙니다. 대신 다음과 같은 것들에서 발생합니다.
- 에스컬레이션이 너무 늦거나, 혹은 너무 이른 경우
- 적절한 사람들과 소통하지 못한 경우
- 내부·외부에 전달되는 ‘이야기’를 잃어버린 경우
- (안전 vs 생산, 가용성 vs 무결성 등) 의도적인 트레이드오프를 하지 못한 경우
아날로그 구성을 통해 이런 것들을 명시적으로 모델링합니다.
1. 누가 누구와 이야기하는가?
마스킹 테이프를 사용해 실제 커뮤니케이션 경로를 그립니다. 예: 관제실 → OT 엔지니어 → 사고 지휘자(Incident Commander) → 임원.
참가자가 “법무팀에 알리겠습니다”라고 말하면, 그 라인을 그리면서 어떤 방식으로 (전화, 이메일, ICS 채널 등) 알리는지도 씁니다. 경로가 불분명하거나 느리다면, 그 자체가 중요한 신호입니다.
2. 무엇을 우선순위에 둘 것인가?
여러 문제가 동시에 터졌을 때(안전 우려, 데이터 무결성 의심, 규제기관 질의 등) 우선순위를 강제로 정하게 합니다.
"엔지니어링 팀은 한 팀뿐이고, 허용 가능한 다운타임도 제한적입니다. 지금 바로 해당 공장을 격리해 생산 손실을 감수하겠습니까, 아니면 더 많은 증거를 기다리다가 손상이 확대될 리스크를 감수하겠습니까?"
각 트레이드오프를 카드에 적고, 그 결정이 내려진 수명주기 단계 아래에 붙입니다.
3. 불확실성을 어떻게 다룰 것인가?
참가자가 현실적으로는 얻을 수 없는 데이터를 요청하면, 그렇게 말해 주십시오. 대신 “UNKNOWN(미상)” 이라고 적힌 카드를 붙이고 다음을 물어봅니다.
- 어떤 가정을 두고 움직일 것인가?
- 어떤 리스크를 감수하고 있는가?
이는 불완전한 정보 속에서도 유의미한 결정을 내리는 연습을 쌓게 해 줍니다. 실제 사고에서 꼭 필요한 능력입니다.
6단계: 경계를 넘나드는 실패 지점을 시각화하기
아날로그 벽 모델의 가장 큰 장점 중 하나는, 어디서 망가질 수 있는지가 선명하게 드러난다는 점입니다.
다음과 같은 것들을 찾아보세요.
-
과부하된 노드
많은 테이프 라인이 한 카드로 몰려오는데, 실제로는 한 사람이나 소규모 팀만 연결돼 있는 경우. 정보·의사결정 흐름의 병목일 가능성이 큽니다. -
가느다란 단일 라인
중요한 컴포넌트나 조직 사이를 잇는 테이프가 하나뿐인 경우. 명백한 단일 장애점 또는 조정 실패 리스크입니다. -
기술 지형도와 조직 지형도 사이의 틈
예를 들면, 안전 시스템 카드가 있는데 그에 대응하는 ‘소유자’ 팀 카드가 없다면, 실제 사고에서 누가 책임지고 대응할지 모호하다는 뜻입니다.
퍼실리테이터는 이런 패턴이 보일 때 주의를 환기시키되, 연습 중에 바로 해결하려 들지는 마세요. 보이게 만드는 것이 우선이고, 해결 논의는 리뷰 시간으로 미룹니다.
7단계: 현실을 바꾸는 구조화된 리뷰(디브리프) 진행하기
훈련 자체는 준비 과정에 불과합니다. 진짜 가치는 그 이후에 무엇을 하느냐에서 나옵니다.
시뮬레이션이 끝나자마자, 경험이 생생할 때 **구조화된 디브리프(debrief)**를 진행합니다.
-
심리적 안전부터 확보하기
명확히 못 박아 둡니다. 이 리뷰의 목적은 사람을 탓하는 것이 아니라, 시스템과 프로세스를 개선하는 것이라고요. -
벽을 따라 걸으며 되짚기
탐지(Detection) → 리뷰(Review) 순서대로 테이프로 구분된 수명주기를 따라 이동하면서, 각 단계마다 묻습니다.
- 잘 된 점은 무엇인가? 꼭 유지·강화해야 할 것은?
- 헷갈리거나 느렸던 부분은 무엇인가?
- 어디에서 운이 좋았는가?
- 구체적인 개선 항목 도출하기
새 카드에 다음과 같은 개선 아이템을 적습니다.
- 런북 업데이트
- 모니터링·텔레메트리의 공백
- 누락된 연락처 또는 불명확한 역할
- 정책·규제 관련 쟁점
그리고 이를 다음 세 그룹으로 묶습니다.
- 지금 할 일 (0–30일)
- 그다음(1–3개월)
- 추가 조사 필요
- 플레이북과 심각도 정의 업데이트하기
연습을 해 보니 SEV 2 기준이 너무 빡빡하거나(혹은 느슨하거나), 플레이북에 적힌 커뮤니케이션 패턴과 실제 행동이 맞지 않는다면, 사람들의 기억에만 기대지 말고 문서를 고치십시오.
마지막으로, 다음 연습 일정을 바로 잡으십시오. 신뢰성은 일회성 이벤트가 아니라 **지속적인 연습(practice)**입니다.
정리: 모든 것을 한데 모으기
고위험 사고 대응을 연습하는 데 거창한 시뮬레이션 랩은 필요 없습니다. 인덱스 카드와 마스킹 테이프, 그리고 한두 시간만 있으면 다음을 할 수 있습니다.
- 숨은 의존성과 실패 양식을 눈에 보이게 만들기
- 심각도 레벨과 에스컬레이션 경로를 스트레스 테스트하기
- 현실 세계와 유사한 압박 속에서 의사결정 연습하기
- IT, OT, 운영, 리더십 간 협업을 개선하기
“아날로그 신뢰성 필드 키트”는 겉보기에는 단순합니다. 하지만 그 힘은 다음 세 가지를 결합하는 데서 나옵니다.
- 구체적인 물리적 모델
- 현실적이고 임팩트 있는 시나리오
- 구조화된 수명주기와 리뷰
처음에는 작게 시작하세요. 한 공장, 한 시스템, 한 가지 유형의 사고만 골라도 충분합니다. 이를 벽에 그려 보고, 시나리오를 돌려 본 뒤, ‘벽을 걸으며’ 리뷰하고, 배운 것을 정리하십시오.
시간이 지날수록, 그 인덱스 카드와 테이프 라인들은 가장 화려한 디지털 도구도 해내기 어려운 일을 해낼 것입니다. 사람들이 전체 시스템을 한눈에 보고, 정말 중요한 순간에 그 시스템을 탄탄하게 지키는 연습을 할 수 있게 만드는 것입니다.