종이 인시던트 스토리 풍향계: 작은 온콜 직감을 믿을 만한 조기 경보로 바꾸는 법
흩어진 온콜 직감, 약한 신호, 애매한 텔레메트리를 심볼릭 AI, 소프트 센서, 실시간 데이터를 활용해 믿을 만한 조기 경보 시스템으로 바꾸는 방법.
서론: 거의 일어날 뻔했던 종이 인시던트
당신이 온콜 근무 중이라고 상상해 보자.
새벽 2시 13분. 로그에 조금 이상한 항목이 보인다. 에러율이 아주 미세하게 올라가 있고, 평소와는 어딘가 어울리지 않는 표현의 지원 티켓이 하나 들어와 있다. 아직 어느 것 하나 명백한 인시던트 같지는 않다. 그저 어렴풋하게 기분이 찜찜하다. 작은 직감이 스친다. 그래서 인시던트 채널에 짧게 적는다. “좀 이상한 게 보이는데, 아닐 수도 있어요.” 쓰레드는 거기서 끝난다. 아침이 되면, 당신이 봤던 바로 그 신호를 중심으로 진짜 장애가 터져 있다.
그 대수롭지 않게 남겼던 메시지? 그게 바로 **종이 인시던트(paper incident)**였다. 조기 경보로 발전할 수 있었지만 그러지 못한 스토리. 아직 바람은 거의 없지만 이미 방향은 가리키고 있던 풍향계처럼, 올바른 방향을 가리켰지만 아무도 그걸 행동으로 옮기지 않았다.
이 글은 이런 작은 온콜 직감을 **“스토리 풍향계(story weather vane)”**로 다루는 방법에 관한 것이다. 아직 약하지만 의미 있는 “인시던트의 바람이 불어올 방향”을 알려주는 지표로 보고, 이를 심볼릭 AI, 정성 물리학(Qualitative Physics), 소프트 센서 같은 구조화된 방법과 결합해 믿을 만한 조기 경보 시스템을 만드는 법을 다룬다.
1. 조기 경보는 어디서 오는가: 내부와 외부
조기 경보 신호는 사이렌과 빨간 배너를 달고 나타나지 않는다. 대부분 다음과 같은 모습으로 드러난다.
내부 조기 신호
- 에러 또는 재시도율이 살짝 상승함
- 특정 트래픽 구간에서만 DB 쿼리가 느려짐
- 설정, 권한, 라우팅이 미묘하게 바뀐 흔적
- 반복되지만 “경미한” 수준이라 치부되는 동일 유형의 티켓
- 온콜 엔지니어의 “뭔가 느낌이 안 좋은데요” 같은 코멘트
외부 조기 신호
- 비슷한 기술 스택을 겨냥한 새로운 사이버 공격·익스플로잇 보고
- 업계 전반의 사기·악용 패턴 변화
- 공급업체에 영향을 줄 수 있는 지정학적 사건, 테러, 분쟁
- 주요 데이터센터를 위협하는 이상 기후나 지진
- 공급망 붕괴, 통신 장애, 특정 지역 전력 불안정
원자력, 항공우주, 자동차, 프로세스 플랜트, 통신 등 고위험 산업에서는 오래전부터 이런 **약한 신호(weak signal)**를 연구해 왔다. 여기서 얻은 교훈은 현대 디지털 운영에도 그대로 적용된다. 신호는 종종 인시던트 이전에 이미 존재하지만, 희미하고 흩어져 있어서 무시되기 쉽다는 점이다.
2. 왜 작은 직감은 무시되는가
신호가 있다면, 우리는 왜 자주 놓칠까?
심리적 이유
- 정상성 편향(Normalcy bias) – “예전에도 이상한 플럭추에이션은 있었는데, 별일 없었잖아.”
- 모호성 회피(Ambiguity aversion) – 명확한 문제로 보이지 않으면 일단 기다리고 싶다.
- 오경보에 대한 두려움 – “맨날 괜히 소동만 일으키는 사람”이 되고 싶지 않다.
- 책임 분산(Diffusion of responsibility) – “이 시스템 잘 아는 누군가가 알아서 볼 거야.”
조직적 이유
- 행동 기준이 모호함 – “언제 페이지를 에스컬레이션해야 하지?”가 불분명하다.
- 정보 단절 – 로그는 이 도구, 메트릭은 저 도구, 직감은 Slack 속 잡담으로 흩어져 있다.
- 틀려도 된다는 안전망 부재 – 빗나간 조기 경보를 비난하면, 사람들은 침묵을 택한다.
- 숫자 중심의 문화 – 심각도·확신도가 높은 이슈만 인정되면, 약하지만 중요한 신호는 끝내 수면 위로 올라오지 못한다.
작은 직감을 조기 행동으로 바꾸려면, 인간 심리 와 조직 설계 두 가지 모두를 다뤄야 한다.
3. 직감에서 구조로: 심볼릭 AI와 정성 물리학
인간의 직관은 “뭔가 이상하다”를 감지하는 데 탁월하지만, 그게 왜 이상한지, 무엇을 해야 하는지 설명하는 데는 약하다. 여기서 체계적인 방법이 힘을 발휘한다.
심볼릭 AI: 인과 구조를 드러내기
**심볼릭 AI(Symbolic AI)**는 지식을 기호와 관계로 표현한다. 컴포넌트, 제약조건, 원인과 결과 같은 것들이다. 불투명한 상관관계 대신, 다음을 명시적으로 모델링한다.
- 시스템 토폴로지(어떤 컴포넌트가 무엇에 의존하는지)
- 고장 모드와 그때 흔히 나타나는 징후들
- 안전·정상 동작을 위해 반드시 만족해야 하는 제약조건
약한 신호—예를 들어 에러 패턴이 약간 달라졌다는 징후—가 나타났을 때, 심볼릭 AI는 이렇게 도와줄 수 있다.
- 관측된 증상을 가능한 고장 모드에 매핑한다.
- 논리적인 “만약 ~라면?” 질문을 던진다. (예: 이 밸브가 간헐적으로 걸린다면, 또 어떤 현상이 보여야 하지?)
- 집중해서 확인해야 할 포인트나 임시적인 안전조치를 제안한다.
정성 물리학(Qualitative Physics): 정확한 수치 없이 reasoning 하기
조기 경보 상황에서는 정밀한 수치를 갖고 있지 못한 경우가 많다. 우리에게 있는 것은 추세와 상대적 변화뿐이다. 오르고 있다, 내려가고 있다, 평소보다 유난히 요동친다 같은 것들. **정성 물리학(Qualitative Physics)**는 이런 정보를 기반으로 추론하는 분야다.
“압력 = 4.2 bar” 대신, 다음처럼 정성적인 카테고리를 사용한다.
- 압력: 낮음 / 정상 / 높음 / 상승 중
- 유량: 안정적 / 간헐적 / 역류
이런 스타일의 추론은 원자력 안전, 항공우주, 산업 공정 제어 같은 영역에서 강력하게 쓰인다. 많은 인시던트가 처음에는 작은 정성적 변화로 시작해, 수치 한계를 넘어서기 훨씬 전에 이미 “분위기”가 달라지기 때문이다.
심볼릭 AI와 정성 물리학을 결합하면 다음이 가능해진다.
- “리전 A에서 타임아웃이 평소보다 조금 높은 것 같다” 같은 애매한 관측치를 구조화된 증거로 다룬다.
- 그 아래에 있을 법한 원인과 추세를 추론한다.
- 이 직감이 즉시 행동·관찰·무시 중 어느 쪽을 선택할지 판단하는 데 도움을 준다.
4. 소프트 센서: 보이지 않는 변수를 ‘보는’ 방법
가장 중요한 위험 신호들 중 상당수는 직접 측정되지 않는다. 예를 들면:
- 기계 부품이 실제로 받고 있는 응력 수준
- 서비스의 실시간 보안 태세(security posture)
- 개별 세션 단위의 사기(fraud) 가능성
- 측정이 비싸거나 느린 화학 물질 농도
**소프트 센서(Soft Sensor)**는 이런 변수를 다른 관측 가능한 데이터로부터 추정해 낸다. 통계·머신러닝·심볼릭 규칙을 섞은 모델이 다음을 수행한다.
- 실시간 데이터를 입력으로 받는다 (온도, 진동, 로그, 압력, 요청 수 등).
- 직접 측정하기 어려운 상태(부식 수준, 공격 가능성, 질산염 농도 등)를 추정한다.
- 새로운 텔레메트리가 들어올 때마다 이 추정치를 계속 갱신한다.
소프트 센서는 이렇게 흩어져 있고 노이즈 섞인 신호를 다음과 같이 바꿔 준다.
- 위험도나 시스템 상태에 대한 연속적인 추정값
- “질산염 농도가 평소보다 빠르게 상승 중이며, 곧 안전 한계를 넘을 가능성이 큼” 같은 조기 추세
이 방식은 실제로 여러 산업에서 적극 활용되고 있다.
- 원자력 – 제한된 계측기만으로 원자로 노심 상태 추론
- 기계·프로세스 산업 – 마모, 오염(fouling), 반응 농도 추정
- 항공우주·자동차 – 하중, 배터리 건강 상태, 부품 피로도에 대한 가상 센서
- 통신·전자 – 링크 열화나 부품 고장 조기 예측
디지털 운영에서도 패턴은 같다. 로그, 트레이스, 메트릭 위에 소프트 센서를 얹어, 고전적인 알람이 울리기 훨씬 전에 “인시던트 위험도”나 “침입 가능성”을 추정할 수 있다.
5. 실시간 사례: 질산염(NO₃⁻) 농도 예측
수처리나 환경 모니터링을 생각해 보자. **질산염(NO₃⁻)**을 직접 측정하는 건 느리거나 비싸거나 간헐적일 수 있다. 실험실 결과를 기다리는 동안, 이미 개입 시기를 놓칠 수 있다.
소프트 센서 기반의 조기 경보 시스템은 이렇게 구성될 수 있다.
- 실시간 데이터 수집 – 유량, pH, 온도, 탁도, 전기전도도, 과거의 질산염 샘플 등.
- 모델 학습 – 이렇게 쉽게 측정 가능한 변수들을 질산염 농도로 매핑하는 모델을 만든다.
- 실시간 추정 실행 – 현재 질산염 농도를 계속 추정한다.
- 전망(포캐스팅) 기능 추가 – 현재 추세와 공정 동역학을 바탕으로 가까운 미래의 농도를 예측한다.
이제 작은 힌트—온도와 유량이 살짝 벗어난 것처럼 보이는 변화—가 다음과 같은 명확한 경고로 변환된다. “현재 추세대로면 3시간 내에 질산염 농도가 기준치를 초과할 것으로 예상되며, 공정 X를 조정하지 않으면 위험합니다.”
온콜 세계에서도 이와 같은 패턴이 필요하다. 텔레메트리 상의 작은 이상 징후가, 구조화된 모델을 통과해, 행동 가능한 시간 여유를 가진 구체적인 조기 경보로 바뀌는 것이다.
6. 인간 직관과 구조화 도구의 결합
가장 효과적인 조기 경보 관행은 사람을 대체하지 않는다. 사람을 증폭한다.
온콜 직감을 1급 데이터로 취급하기
- “아무것도 아닐 수도 있지만…”으로 시작하는 관찰도 모두 구조화된 방식으로 기록한다.
- 누가 말했다보다 무엇을, 어디서, 어떤 조건에서 봤는가를 남긴다.
- 인시던트 리뷰 때 이 ‘직감 로그’를 함께 돌려보며, 어떤 것들이 실제로 예측력이 있었는지 확인한다.
그 위에 심볼릭 AI와 정성 모델 얹기
- 핵심 컴포넌트, 의존관계, 알려진 고장 모드를 지식 베이스로 정리한다.
- 중요 메트릭에 대해 (낮음/정상/높음, 상승/하강) 같은 정성 변수들을 정의한다.
- 약한 신호가 나타날 때 시스템이 그에 맞는 가능한 설명과 추가 점검 지점을 제안하도록 한다.
소프트 센서로 연속적인 위험도 추정하기
- 실시간으로 파악되면 좋을 “숨은 상태”(보안 위험도, 용량 마진, 하드웨어 스트레스, 화학 농도 등)를 정의한다.
- 이미 가지고 있는 텔레메트리로부터 이 상태를 추정하는 소프트 센서를 만든다.
- 현재 값뿐 아니라, 추세와 언제 안전 한계를 넘을지에 대한 예측까지 추적한다.
문화와 프로세스로 루프 닫기
- 빗나간 조기 경보라도 먼저 말한 사람을 인정한다.
- **단계별 대응(levels of response)**을 정의한다: 관찰만, 조용한 조사, 내부 알림, 풀 온콜 알람 등.
- 인시던트 리뷰 때, 직감을 말한 사람을 탓하는 대신, 심볼릭 모델과 소프트 센서를 어떻게 개선할지에 초점을 맞춘다.
시간이 지나면, 조직은 어떤 약한 신호가 중요한지 학습하게 되고, 모델은 점점 정교해지며, 풍향계는 제멋대로 빙글빙글 도는 대신 점점 더 신뢰할 수 있는 방향을 가리키게 된다.
결론: 당신만의 스토리 풍향계 만들기
모든 조직에는 이미 조기 경보가 존재한다. 그것들은 다음과 같은 곳에 숨어 있다.
- 온콜 채널의 무심코 던진 한마디
- 텔레메트리 속 작은 이상 징후
- “우리는 아닐 것 같은데…” 하고 넘겨버린 외부 사건들
과제는 새로운 신호를 발명하는 게 아니다. 이미 존재하는 신호를 듣고, 해석하는 것이다.
이를 위해서는:
- 작은 직감이 무시되는 심리적·조직적 이유를 다루고
- 애매한 신호를 추론 가능한 구조로 바꾸기 위해 심볼릭 AI와 정성 물리학을 활용하며
- 텔레메트리 위에 소프트 센서와 실시간 예측을 얹어
…흩어져 있는 힌트들을 일관된 조기 경보 시스템으로 통합해야 한다.
모든 “종이 인시던트 스토리”를 당신의 풍향계에 대한 시험이라고 생각해 보자. 그 스토리는 우리가 행동하기에 충분히 이른 시점에서 바람을 감지했는가? 그렇지 않았다면, 어떤 구조—모델, 센서, 문화적 규범—이 빠져 있었는가?
다음번에 늦은 밤 어렴풋한 불안감이 밀려올 때, 그걸 바람이 바뀌기 시작했다는 풍향계의 첫 움직임으로 상상해 보라. 올바른 도구와 습관만 갖추고 있다면, 그 작은 직감이 “아슬아슬한 근접 사고”와 “헤드라인을 장식할 대형 장애”를 가르는 차이가 될 수 있다.