아날로그 사건 철도 대기열: 작은 신뢰성 실험을 위한 종이 큐 설계하기

소개

종이 한 장, 펜 한 자루, 클립보드 하나만으로 사건 대응 프로세스를 더 과학적으로 만들 수 있다면 어떨까요?

대시보드, SIEM, 자동화가 넘쳐나는 시대에 이런 이야기는 거꾸로 가는 것처럼 들립니다. 하지만 아날로그 “사건 철도 대기열(incident railway waiting list)”—처리 대기 중인 일을 종이 위에 그대로 적어둔 큐—은 작은 신뢰성 실험을 돌리기 위한 이상적인 실험실이 될 수 있습니다. 툴과 워크플로에 바로 변경을 밀어 넣는 대신, 단순하고 통제 가능하며 관찰 가능한 종이 기반 절차에서 먼저 시도해 볼 수 있습니다.

이 글에서는 그 아날로그 큐를 침해 분석과 사건 대응을 개선하기 위한 과학 놀이터로 바꾸는 방법을 살펴봅니다. 구체적으로 다룰 내용은 다음과 같습니다.

사건 대응을 진짜 “과학적”으로 만든다는 것이 무엇을 의미하는지
(아리스토텔레스까지 포함한) 고전 철학이 이 맥락에서 “과학”을 정의하는 데 어떻게 도움 되는지
종이 대기 리스트로 린(lean) 가설 기반 실험을 설계하는 방법
그러한 마이크로 실험을 결함수 분석(Fault Tree)과 신뢰성 블록 다이어그램(RBD) 같은 시스템 수준 신뢰성 모델과 연결하는 방법

사건 대응을 “예술”에서 “과학”으로

사건 대응(Incident Response)과 침해 분석(Intrusion Analysis)은 종종 장인 기술에 비유됩니다. 숙련된 대응자는 무엇을 봐야 할지, 어떤 로그를 뽑아야 할지, 어떤 알림을 무시해도 되는지 “감으로” 압니다. 이 직관은 매우 중요하지만, 동시에 취약하고 확장하기 어렵습니다.

예술에서 과학으로 옮겨 가려면 다음이 필요합니다.

방법의 형식화 – 무엇을, 어떤 순서로, 어떤 정보를 가지고 하는지 절차를 명시적으로 적는다.
가정의 명료한 선언 – 예: “우리는 X 로그 소스가 인증 실패 이벤트를 완전하게 담고 있다고 가정한다.”
검증 기준 정의 – 무엇을 “개선”이라고 볼 것인가? 더 빠른 격리(containment)? 재발 사건 감소? 더 높은 가용성?

이런 것들이 없으면, 새로운 탐지 규칙, 트리아지(triage) 방식, 핸드오프 정책이 정말 더 나아진 것인지, 아니면 그냥 그렇게 느껴질 뿐인지 알 수 없습니다.

아날로그 사건 대기 리스트는 형식화를 시작하기에 의외로 좋은 도구입니다. 적어 넣는 모든 사건은 컬럼, 분류, 규칙을 가져야 하기 때문입니다. 그 과정에서 “우리가 무엇을 하고 있고, 그것을 어떻게 측정하는지”를 강제로 정의하게 됩니다.

여기서 말하는 “과학적”은 정확히 무엇인가?

“더 과학적으로 하자”라는 말은 하기 쉽지만, 사건 대응과 신뢰성에 그것을 구체적으로 적용하는 것은 훨씬 어렵습니다. 아리스토텔레스로 거슬러 올라가는 고전 과학 철학은 여기서 유용한 기준점을 줍니다.

지식 vs. 의견: 아리스토텔레스에게서 과학(에피스테메, epistēmē)이란 정당화되고 구조화된 지식, 즉 어떤 일이 그렇다는 것만이 아니라 왜 그런지까지 이해하는 것입니다.
원인과 설명: 과학은 원인을 다룹니다. 우리의 경우라면 “왜 이 사건이 재발했는가?”, “왜 팀 간 MTTR(평균 복구 시간)이 5배씩 차이 나는가?” 같은 질문입니다.
일반 법칙과 규칙성: 과학은 우연한 한두 번의 사례가 아니라, 안정적으로 반복되는 패턴을 찾습니다.

여기에서 사건 대응과 신뢰성 업무에 적용 가능한 실무적 과학 기준을 뽑아낼 수 있습니다.

반복 가능성(Repeatability) – 다른 팀이 비슷한 사건에 같은 프로세스를 적용했을 때, 비슷한 결과를 얻어야 한다.
반증 가능성(Falsifiability) – 틀릴 수 있는 가설을 적어야 한다. 예: “단계 X를 추가하면 평균 트리아지 시간(MTTT)이 최소 15% 감소한다.”
개념의 명확한 정의 – “트리아지 완료”, “격리”, “해결”이 무엇을 의미하는지 모두가 같은 의미로 이해해야 한다.

아날로그 대기 리스트는 이 정의들을 강제합니다. “트리아지 완료 시각(Triaged At)”이라는 컬럼이 있다면, 어떤 사건이 트리아지로 간주되는지를 결정해야 합니다. 이 결정은 흐릿한 장인 기술의 한 단계를 측정 가능하고, 따라서 검증 가능한 것으로 바꿉니다.

아날로그 사건 철도 대기열(Incident Railway Waiting List)

당신의 사건 처리 워크플로를 철도라고, 개별 사건들을 처리 대기 중인 열차 칸이라고 상상해 봅시다. 아날로그 대기열은 다음과 같습니다.

발생하는 모든 사건을 적어 두는 실제 종이(또는 노트)
각 사건은 한 줄(row)을 차지하며, 대기 중인 열차 칸이 줄을 선 것과 비슷합니다.
줄마다 관심 있는 최소한의 구조화된 데이터를 컬럼 단위로 기록합니다.

가장 단순한 1차 버전은 다음 정도 컬럼을 포함할 수 있습니다.

사건 ID / 짧은 설명
탐지 시각(Time detected)
최초 대응 시작 시각(트리아지 시작, Time first touched)
격리 시각(Time contained)
해결 시각(Time resolved)
카테고리(예: 피싱, 자격 증명 오남용, 엔드포인트 악성코드)
소스(알림 시스템, 사용자 신고, 외부 통보 등)

이 종이는 팀이 모두 볼 수 있는 공용 장소에 둡니다. 일이 한 단계씩 이동할 때마다 누군가가 직접 그 줄에 수기로 업데이트합니다. 의도적으로 너무 편하지 않을 정도로 만들어 데이터는 간결하고 의식적으로만 남기고, 동시에 충분히 단순해서 프로세스를 바꾸는 일이 저위험·가역적으로 되게 합니다.

아주 작은 린 신뢰성 실험 설계하기

이 아날로그 큐를 마련했다면 이제 프로세스에 대해 **린 실험(lean experiment)**을 돌릴 수 있습니다. 린 실험은 다음과 같은 특징을 가집니다.

가설 기반(Hypothesis-driven) – 무엇을 기대하는지, 왜 그런 결과가 나올 것이라고 생각하는지 명시적으로 적는다.
작고 통제된 범위 – 짧은 기간이나 일부 사건에 한정해서 시도한다.
측정 가능 – 어떤 지표가 얼마만큼 변해야 하는지, 미리 정의한다.

1단계: 명확한 가설 정하기

예시 가설:

트리아지 단계에서 3분짜리 “컨텍스트 수집” 체크리스트를 추가하면, 2주 동안 피싱 사건의 평균 격리 시간이 20% 감소할 것이다.
모든 자격 증명 오남용 알림을 전문 온콜 대응자에게 라우팅하면, 응답 시간의 분산이 절반으로 줄어들 것이다.

아날로그 리스트는 각 단계(트리아지, 격리, 해결)에 대한 명시적 타임스탬프를 남기기 때문에 이런 가설 검증에 유리합니다.

2단계: 측정 기간 정의하기

무언가를 배우기 위해 몇 달씩 데이터를 쌓을 필요는 없습니다. 예를 들어 2–4주나, 특정 유형 사건 다음 30건처럼 기간이나 수량을 정합니다. 그리고 종이 맨 위에 실험 범위를 적습니다.

"실험 #3: 피싱 사건 컨텍스트 체크리스트. 기간: 2026-02-01 ~ 2026-02-15. 목표: 평균 격리 시간 -20%."

3단계: 변경을 디지털이 아니라 종이 위에 먼저 적용하기

티켓 시스템이나 자동화 플랫폼 설정을 바로 바꾸고 싶은 유혹을 참습니다. 대신:

대기 리스트에 새로운 컬럼이나 표식을 추가합니다. (예: “체크리스트 완료? Y/N”)
작은 종이 체크리스트를 보드에 붙여 둡니다.

실험이 실패하면 컬럼을 지우고 체크리스트를 버리면 됩니다. 운영 시스템에서 롤백할 게 없습니다.

4단계: 분석하고 결정하기

실험 기간이 끝나면 종이에서 간단한 통계를 계산합니다.

탐지 → 트리아지까지 평균·중앙값 시간
트리아지 → 격리까지 평균·중앙값 시간
카테고리별 사건 수

그리고 다음을 스스로에게 묻습니다.

지표가 기대한 방향으로 움직였는가?
한두 건의 특이한 사건이 결과를 왜곡하지 않았는가, 즉 재현 가능성이 있는가?
중요한 무언가를 희생하지 않았는가? (예: 트리아지는 빨라졌지만 오탐이 늘었다든지)

아날로그 실험에서 명확하고 반복 가능한 개선 효과가 확인되었을 때에만, 그 변경을 디지털 도구에 정식으로 반영합니다.

마이크로 실험을 시스템 신뢰성과 연결하기

사건과 대응 프로세스는 고립되어 존재하지 않습니다. 그것들은 시스템 수준의 가용성과 신뢰성에 영향을 주고, 반대로 그 영향을 받습니다. 이를 체계적으로 다루기 위해 신뢰성 엔지니어들은 다음과 같은 기법을 사용합니다.

결함수 분석(FTA, Fault Tree Analysis) – “고객 로그인 불가” 같은 바람직하지 않은 최상위 사건에서 출발해, 이것을 더 하위 수준의 실패 조합으로 분해해 가는 상향식 모델링 방법입니다.
신뢰성 블록 다이어그램(RBD, Reliability Block Diagram) – 시스템을 직렬/병렬 블록들의 조합으로 표현하고, 각 블록의 고장 확률을 기반으로 전체 가용성을 계산하는 모델입니다.

아날로그 큐에서 수행한 실험은 이런 모델에 넣을 입력 데이터를 만들어 줍니다.

타임스탬프에서 뽑은 **평균 탐지 시간(MTTD)**과 평균 복구/수리 시간(MTTR)
특정 사건 유형의 발생 빈도와 분포
사람의 실수, 재작업, 잘못된 트리아지 발생률에 대한 경험적 추정치

이 데이터는 테스트, 실운영 데이터, 로깅, 공학 핸드북 등 다른 데이터와 함께 사용되어, 모델을 현실에 근거해 보정하는 데 쓰입니다.

예시: 아날로그 실험이 결함수 분석에 들어가는 방식

예를 들어, “고객 로그인 장애”에 대한 결함수에 다음과 같은 가지가 있다고 가정해 봅시다.

자격 증명 대량 대입(credential stuffing) 공격에 대한 대응 지연 → 장애 장기화

여기서 당신의 아날로그 실험은 다음과 같을 수 있습니다.

자격 증명 공격에 대한 사전 승인된 대응 플레이북을 추가하면 MTTR이 30% 감소할 것이다.

종이 큐에서 실험 전후의 MTTR을 수집하면, 새로운 대응 시간 분포를 추정할 수 있습니다. 이를 결함수 모델에 반영하면, 이런 유형의 사건이 장기 장애로 이어질 확률이 어떻게 변하는지 계산할 수 있습니다. 이렇게 보면, 아주 작은 아날로그 실험이 시스템 수준 위험에 정량적인 영향을 주는 셈입니다.

모델을 현실 데이터에 단단히 고정하기

신뢰성 공학의 과학성은 입력 데이터의 품질에 의해 좌우됩니다. 종이 실험은 홀로 존재하는 게 아니라, 다른 데이터 소스를 보완합니다.

테스트와 훈련 – 카오스 엔지니어링 실험, 페일오버 테스트, 레드팀·블루팀 연습.
과거 운영 데이터 – 티켓 시스템, 모니터링, SIEM에서 나온 기록.
현장 데이터(Field data) – 벤더의 사고 보고서, 공격 패턴에 대한 커뮤니티 데이터.
공학 데이터 핸드북 – 하드웨어 고장률, 전형적인 MTBF/MTTR 기준값.

아날로그 대기 리스트는 다음을 가능하게 합니다.

디지털 시스템이 아직 포착하지 못하는 세부 사항을 메꾸기 (예: “티켓이 만들어진 시점이 아니라, 실제로 사람이 트리아지를 시작한 시점”).
새로운 지표를 툴에 넣기 전에 종이에서 먼저 시험해 보기.
자동으로 찍힌 타임스탬프를 실제 사람의 경험과 교차 검증하기.

요컨대, 이 리스트는 이론적 모델과 일상의 운영이 만나는 현실 검증면(ground-truth surface) 역할을 합니다.

결론: 디지털 세상에서 왜 굳이 종이를 써야 할까?

아날로그 사건 철도 대기열은 향수나 감성 때문이 아닙니다. 이것은 의도적으로 저기술인 정밀 측정 도구입니다.

정의와 가정을 명확히 하도록 강제하고
프로세스와 신뢰성에 대해 작고, 반증 가능하며, 반복 가능한 실험을 가능하게 하며
결함수와 신뢰성 블록 다이어그램 같은 모델에 넣을 깨끗하고 해석 가능한 데이터를 생산하고
과학에 대한 철학적 아이디어와 침해 분석이라는 거친 실무 현장을 이어 줍니다.

먼저 종이에서 실험하면:

위험이 줄어듭니다. 나쁜 아이디어는 운영에 들어가기 전에 화이트보드에서 사라집니다.
낭비가 줄어듭니다. 효과가 검증된 것만 자동화하면 됩니다.
이해가 깊어집니다. 팀 구성원 모두가 일이 어떻게 흐르고, 어디에서 막히는지 눈으로 볼 수 있습니다.

사건 대응을 하나의 과학적 분야로 만들기 위해 새로운 플랫폼이나 AI가 꼭 필요한 것은 아닙니다. 시작점은 우리가 무엇을 하고 있는지, 왜 그게 효과가 있다고 믿는지, 그리고 틀렸을 경우 어떻게 알 것인지를 명시하는 데 있습니다.

그리고 그 변화를 위한 가장 강력한 실험실이, 종이 한 장 위에 줄지어 서 있는 사건 열차들을 그려 넣은 단순한 아날로그 큐일 수도 있습니다. 신뢰성이라는 철로 위에서, 매우 현대적인 실험을 수행하기 위한, 아주 아날로그한 대기열인 셈입니다.