Rain Lag

아날로그 활주로 관제 로그북: 한 장의 종이 플라이트 플랜으로 AI 중심 장애를 조종하기

단순하지만 표준화된 ‘종이 플라이트 플랜’이 어떻게 복잡하고 고압적인 장애 상황에서 AI의 힘을 활용하면서도 사람의 통제권을 유지하게 해주는지에 대한 이야기.

소개

오늘날의 장애 대응은 점점 항공 관제와 닮아가고 있습니다.

우리는 지능형 자동화, 예측 모델, 추천 엔진에 둘러싸여 있습니다. AI는 사람이 보기 전에 이상 징후를 탐지하고, 대응 방안을 제안하며, 심지어 런북(runbook) 단계까지 실행할 수 있습니다. 특히 여러 시스템이 한꺼번에 얽혀 있는 복합 장애가 발생했을 때, AI는 평균 복구 시간(MTTR)을 극적으로 줄여줄 수 있습니다.

하지만 항공에서 그렇듯, 기술만으로는 충분하지 않습니다. 난기류를 만나면 조종사는 결국 하나의 단순하고 공유된 아티팩트로 돌아갑니다. 바로 비행 계획서와 체크리스트입니다. AI가 깊이 개입된 장애 대응에서도 똑같은 것이 필요합니다.

잘 구조화된 단 하나의 “활주로 관제 로그북” — AI가 무거운 일을 처리하는 동안 사람들을 항상 방향 감각 있게, 정렬된 상태로, 그리고 지휘권을 가진 상태로 유지해주는 종이 플라이트 플랜.

이 글에서는 아날로그 활주로 관제 로그북을 활용해 AI 중심 운영을 안전하게 조종하는 방법, 사람 중심 제어(human-in-the-loop)가 왜 절대 포기할 수 없는지, 그리고 시뮬레이션 기반 훈련을 통해 AI 도구를 위험한 장난감이 아닌 신뢰할 수 있는 파트너로 만드는 방법을 살펴봅니다.


왜 AI가 장애 관리 방식을 바꾸고(또 위험을 키우는지)

AI는 장애 관리에서 다음과 같은 강점을 발휘합니다.

  • 지표, 로그, 트레이스, 이벤트 전반에서 사람보다 훨씬 빨리 패턴을 탐지할 수 있습니다.
  • 과거 장애 이력과 정형화된 런북을 바탕으로 대응 액션을 제안합니다.
  • 데이터 수집, 상관 분석, 기초 복구 같은 저수준 작업을 자동화합니다.
  • 여러 시스템에 걸친 복잡한 워크플로를 오케스트레이션합니다.

제대로 활용되면 이러한 역량은 MTTR을 다음과 같이 줄여 줍니다.

  • 탐지 시간 단축: AI가 이상 징후를 매우 빠르게 포착합니다.
  • 진단 부담 감소: AI가 가능한 근본 원인과 다음 단계를 제안합니다.
  • 실행 간소화: AI가 사전 승인된 런북 단계를 자동으로 수행합니다.

하지만 AI는 새로운 형태의 실패도 함께 가져옵니다.

  • 자동화에 대한 과도한 신뢰: 팀이 실질적인 검토 없이 AI가 제안한 액션을 ‘도장 찍기’만 합니다.
  • 불투명한 의사결정: 왜 AI가 특정 경로를 선택했는지 아무도 설명하지 못합니다.
  • 피해의 급격한 확산: 자동화된 액션이 실수를 ‘머신 속도’로 전파할 수 있습니다.

해답은 AI를 멀리하는 것이 아니라, AI를 엄격하고 사람 중심적인 통제 구조 안에 감싸 넣는 것입니다.

여기서 등장하는 것이 바로 아날로그 활주로 관제 로그북입니다.


아날로그 활주로 관제 로그북: 단 하나의 진실된 기록(Single Source of Truth)

**활주로 관제 로그북(runway control logbook)**은 장애 상황의 아날로그 비행 계획서라고 생각하면 됩니다. 표준화된, 사람 눈으로 읽기 쉬운 아티팩트로서 다음과 같은 역할을 합니다.

  • 특정 툴이나 대시보드에 종속되지 않고 존재합니다.
  • 무엇이 일어나는지, AI가 무엇을 제안·수행하는지, 사람이 무엇을 결정했는지를 기록합니다.
  • 장애에 참여하는 모든 사람에게 **중앙 참조점(central reference)**이 됩니다.

종이 노트일 수도 있고, 인쇄 가능한 템플릿일 수도 있으며, 자동 새로고침 같은 혼란 요소가 없는 ‘종이 같은 제약’을 모방한 디지털 폼일 수도 있습니다. 중요한 것은 스트레스 상황에서도 변하지 않는 안정성과 단순함입니다.

로그북에 담기는 내용

실무적인 로그북 템플릿은 보통 다음을 포함합니다.

  1. 장애 헤더(Incident Header)
    • 장애 ID, 시작 시각, 심각도, 인시던트 커맨더, 커뮤니케이션 채널
  2. 상황 개요(Situation Overview)
    • 무엇이 망가졌는지, 누구에게 영향이 있는지, 시간 민감도는 어떤지에 대한 짧은 서술
  3. AI 입력 & 추천(AI Inputs & Recommendations)
    • 다음을 위한 명시적인 섹션:
      • AI가 탐지한 이상 징후
      • 제안된 런북 단계 또는 액션
      • 가능하다면 신뢰도(confidence level)
  4. 사람의 결정 & 오버라이드(Human Decisions & Overrides)
    • 실제로 운영자가 선택한 조치
    • AI 제안을 수용·무시·수정한 이유
    • 누가 그 결정을 승인했는지
  5. 활주로 타임라인(Runway Timeline)
    • 시간 순으로 정리된 주요 이벤트 로그:
      • AI 트리거 → 사람의 결정 → 액션 → 관측된 효과
  6. 에스컬레이션 & 소유권(Escalations & Ownership)
    • 어떤 영역을 누가 담당하는지
    • 언제, 왜 에스컬레이션이 일어났는지
  7. 사후 메모(Post-Incident Notes)
    • 런북, AI 동작, 툴링의 빈틈
    • 업데이트 및 개선 아이디어

고압의 장애 상황에서는 복잡성이 곧 적입니다. 로그북은 명료함을 강제합니다. 볼 곳은 하나, 따라갈 내러티브는 하나, 사후 회고를 위한 아티팩트도 하나뿐입니다.


런북: 정적인 플레이북에서 AI 보강 절차로

성숙한 운영 팀이라면 이미 **런북(runbook)**을 사용하고 있을 것입니다.

  • 흔히 발생하는 장애에 대한 단계별 대응 절차
  • 상황에 따라 분기하는 의사결정 트리
  • 명확한 에스컬레이션 경로와 핸드오프

런북은 경험을 절차로 번역합니다. AI는 이를 대체하지 않고, 증폭합니다.

AI로 런북 자동화하기

AI는 다음과 같은 일을 할 수 있습니다.

  • 기존 런북을 파싱해, 상황 변화에 따라 다음에 할 일을 제안합니다.
  • 루틴한 단계는 자동 실행합니다. (예: 로그 수집, 비핵심 서비스 재시작)
  • 과거 장애 데이터를 학습해 의사결정 트리를 최적화합니다.

이는 운영을 크게 효율화하지만, 중요한 질문을 낳습니다. 이걸 어떻게 신뢰할 수 있게 유지할 것인가?

거버넌스와 안정성

AI로 런북을 안전하게 자동화하려면 다음이 필요합니다.

  • 명확한 책임 소유(Ownership)
    • 모든 런북과 그 안의 AI 자동화 단계에는 책임자가 있어야 합니다.
  • 통제된 승격(Controlled promotion)
    • 새 자동화 단계나 변경 사항은 리뷰, 테스트, 변경 관리 절차를 거쳐야 합니다.
  • 자율성에 대한 가드레일(Guardrails on autonomy)
    • 어떤 단계는 AI가 자동 실행 가능하고, 어떤 단계는 반드시 사람의 승인이 필요한지 정의해야 합니다.
  • 모니터링과 감사 가능성(Monitoring & Auditability)
    • 모든 AI 액션은 로그로 남고, 어떤 입력과 정책으로부터 나왔는지 설명 가능해야 합니다.

로그북은 이런 거버넌스라는 거대한 빙산의 수면 위에 드러난 끝부분이 됩니다. 자동화, 감독, 책임이 한 곳에서 만나는 지점입니다.


Human-in-the-Loop: AI 중심 장애에서 결코 양보할 수 없는 원칙

항공에서 자동조종장치(autopilot)가 대부분의 시간을 비행을 맡고 있지만, 최종 책임은 조종사에게 있습니다. 장애 대응에서 AI도 마찬가지여야 합니다.

Human-in-the-loop란 다음을 의미합니다.

  • AI는 제안할 수 있지만, 결정은 사람이 내립니다.
  • AI는 잘 정의된 저위험 영역에서만 자율적으로 행동할 수 있습니다.
  • 사람은 언제든 AI 기반 액션을 오버라이드, 재지정, 중단할 수 있어야 합니다.

사람과 AI의 역할을 명확히 나누기

견고한 운영 모델은 다음 질문에 명시적으로 답합니다.

  • AI가 기본적으로 수행하는 일
    • 예: 이상 탐지, 데이터 수집, 영향도 추정.
  • 승인 후에만 AI가 수행할 수 있는 일
    • 예: 설정 변경, 페일오버, 대량 재시작.
  • AI가 절대 수행해서는 안 되는 일
    • 예: 파괴적 작업, 영구적인 데이터 변경, 규제·컴플라이언스 관련 결정을 사람 승인 없이 내리는 것.

활주로 관제 로그북에는 다음이 기록됩니다.

  • 어떤 AI 제안을 그대로 따랐는지, 수정했는지, 거부했는지
  • 언제 사람이 수동 제어를 가져갔는지, 그 이유는 무엇인지

이 기록은 다음과 같은 이유로 매우 중요합니다.

  • 거버넌스 규칙이 실제로 지켜졌음을 증명합니다.
  • 실제 의사결정을 기반으로 AI 동작을 개선할 수 있습니다.
  • 어디까지 자동화를 확장해도 되는지, 어디는 절대 안 되는지를 학습할 수 있습니다.

시뮬레이션 기반 훈련: 장애 대응을 위한 플라이트 시뮬레이터

조종사는 PDF 매뉴얼만 읽고 엔진 고장 대응을 배우지 않습니다. 시뮬레이터에서 훈련합니다.

AI가 개입된 장애 관리도 같은 관점이 필요합니다. 팀은 몰입형 시뮬레이션 기반 훈련을 통해 다음을 길러야 합니다.

  • 압박 속에서 AI 도구를 사용하는 근육 기억(muscle memory)
  • AI 출력을 언제 신뢰하고 언제 의심해야 하는지에 대한 직관
  • 운영의 앵커로서 활주로 관제 로그북을 활용하는 유창함

효과적인 시뮬레이션의 모습

가치 있는 시뮬레이션은 다음을 갖추고 있습니다.

  • 현실적인 멀티 시스템 장애를 재현하고, 노이즈 섞인 신호를 제공합니다.
  • AI가 생성한 추천 사항을 제공하며, 그중 일부는 의도적으로 최적이 아니게 만듭니다.
  • 대응자들이 다음을 강제당하도록 합니다.
    • 합의된 채널과 로그북만을 사용해 커뮤니케이션·조정
    • 결정, 오버라이드, 에스컬레이션을 꼼꼼히 기록
    • 속도 vs. 위험, 부분 롤백 vs. 전체 롤백 같은 상충하는 우선순위를 관리

각 시뮬레이션 이후에는 다음을 수행합니다.

  • 로그북을 중심으로 한 **구조화된 사후 회고(Post-Incident Review)**를 진행합니다.
  • 다음을 식별합니다.
    • 런북의 빈틈이나 애매한 부분
    • 현실과 어긋나는 AI 제안
    • 사람과 자동화 사이 역할 혼선
  • 그리고 다음을 업데이트합니다.
    • 런북과 자동화 경계
    • 로그북 템플릿과 필드
    • 다음 주기의 훈련 시나리오

시간이 지날수록, 이는 숙련된 항공 승무원에게서 볼 수 있는 것과 같은 차분한 규율을 만들어 냅니다.


로그북의 표준화: ‘영웅적 노력’이 아닌 ‘습관’으로 만들기

활주로 관제 로그북이 실제로 작동하려면, 표준화가 중요합니다.

설계 원칙

  1. 새벽 3시에도 쓸 수 있을 정도로 단순할 것
    • 필드를 최소화하고, 구조를 명료하게, 전문 용어는 절제합니다.
  2. 툴에 비종속적일 것(tool-agnostic)
    • 주요 대시보드, 채팅 도구, AI 시스템이 일부 장애를 겪더라도 작동해야 합니다.
  3. 팀 간에 일관될 것
    • 가능하다면 SRE, 보안, 데이터, 플랫폼 장애에 동일한 레이아웃을 사용합니다.
  4. 사후 회고와 긴밀히 통합될 것
    • 로그북이 분석을 시작하는 출발점이지, 나중에 억지로 맞추는 서류 작업이 되어서는 안 됩니다.

표준화할 수 있는 섹션 예시

  • 장애 헤더 및 분류
  • AI 추천 로그
  • 결정 및 오버라이드 로그
  • 에스컬레이션 및 소유권 매핑
  • 결과 및 후속 조치 항목

표준화의 이점은 다음과 같습니다.

  • 신규 대응자 교육이 쉬워집니다.
  • 여러 장애에 걸친 패턴 분석이 가능해집니다.
  • 구조화된 데이터를 책임감 있게 AI 모델에 다시 공급할 수 있습니다.

결론: AI의 힘, 아날로그의 규율

AI는 장애 관리를 더 빠르고, 더 잘-informed되고, 더 확장 가능하게 만들어 줍니다. 구체적으로는 다음을 할 수 있습니다.

  • 탐지와 진단 시간을 단축합니다.
  • 루틴한 복구 단계를 자동화합니다.
  • 압박 속에서도 더 나은 선택지를 표면 위로 끌어올립니다.

하지만 통제 없는 속도는 위험합니다. 단순하고 표준화된, 각 장애마다 사람이 소유하는 아날로그 활주로 관제 로그북이라는 비행 계획서는 다음을 보장해 줍니다.

  • 사람이 지휘권을 유지하고, 대시보드만 쫓아다니지 않게 합니다.
  • AI를 제약하고 책임 있게 만들며, 불투명하고 제멋대로 굴지 못하게 합니다.
  • 팀을 정렬된 상태로 유지해, 도구가 망가지거나 과부하가 걸려도 협업이 흔들리지 않게 합니다.

여기에 다음을 더하십시오.

  • 강력한 거버넌스 아래에서의 신중한 런북 자동화
  • 사람과 AI 사이의 명확한 역할 정의
  • 정기적이고 현실적인 시뮬레이션 기반 훈련

그러면 현대 항공과 닮은 장애 대응 역량을 얻게 됩니다. 기술적으로 풍부하고, 고도로 자동화되어 있지만, 결국 사람이 훈련되어 있고, 준비되어 있으며, 확고히 통제권을 쥐고 있기 때문에 안전한 시스템 말입니다.

AI가 무거운 비중을 차지하는 미래에서, 조용하지만 강력한 단 한 장의 종이 플라이트 플랜이 여러분의 활주로를 지켜줄지도 모릅니다.

아날로그 활주로 관제 로그북: 한 장의 종이 플라이트 플랜으로 AI 중심 장애를 조종하기 | Rain Lag