Rain Lag

종이로 만든 관제탑: 손으로 그린 항적 벽으로 복잡한 인시던트를 운영하는 법

종이 스트립과 위성 피드가 섞여 있는 항공 교통 관제에서, SRE와 DevOps 팀이 불균일하고 레거시한 도구를 가진 상태에서도 복잡하고 고위험 인시던트를 운영하는 방법을 배울 수 있다.

소개

많은 현대 항공 교통 관제(ATC, Air Traffic Control) 센터에 들어가면, 먼저 눈에 들어오는 것은 커다란 유리 패널, 빛나는 레이더 스코프, 대륙 위를 미끄러지듯 날아가는 항공기를 보여주는 위성 기반 디스플레이일 것입니다. 그런데 조금만 더 자세히 들여다보면, 생각보다 아날로그에 가까운 풍경도 함께 보입니다. 종이 비행 스트립이 꽂힌 랙, 유리 위에 그려진 그리스 연필 선, 플로팅 보드에 손으로 적어 넣은 각종 메모들입니다.

이건 향수나 관성의 산물이 아닙니다. 실제로 지금도 전 세계 항공기가 그렇게 운영되고 있습니다.

조직들은 풀 옵저버빌리티, AI 기반 인시던트 대응, 셀프 힐링 시스템으로 빠르게 질주하고 있지만, 여기에는 다소 불편한 평행선이 하나 있습니다. 지구상에서 가장 안전이 중요하고 실시간성이 요구되는 시스템 중 하나인 항공 교통 관제는 여전히 신·구 기술이 섞인 패치워크 위에서 돌아간다는 점입니다. 그리고 이것은 그 한계를 억지로 극복해서가 아니라, 애초에 그런 환경을 전제로 설계했기 때문에 가능한 일입니다.

이 글에서는 ATC가 어떻게 복잡한 혼합 도구 환경을 운영하는지 살펴보고, “인시던트”가 단순히 SLI가 아니라 인간의 생명으로 측정되는 세계에서 SRE/DevOps 팀이 무엇을 배울 수 있는지 이야기해 보겠습니다.


레이더 점에서 자기 위치를 방송하는 항공기로

ADS‑B의 부상

현대 항공 교통 관제는 점점 더 **ADS‑B(Automatic Dependent Surveillance–Broadcast, 자동 종속 감시 방송)**에 의해 구동되고 있습니다. ADS‑B에서는 각 항공기가 자신의 GPS 기반 정밀 위치, 속도, 기타 데이터를 지속적으로 방송합니다. 지상 기지국과 위성이 이 신호를 수신해 관제 시스템으로 전달합니다.

이는 전통적인 ATC의 모습과는 상당히 다른 방식입니다. 예전에는 레이더가 하늘을 쓸어가며 전파를 발사하고 금속 기체에 반사된 신호를 다시 받아, 이동하는 점(blip)으로 항공기를 재구성했습니다.

ADS‑B의 핵심 장점은 다음과 같습니다.

  • 더 높은 정밀도: 기존 레이더보다 위치 업데이트가 더 정확하고 더 자주 이루어집니다.
  • 더 낮은 인프라 비용: 지상 ADS‑B 수신기는 1차 레이더 설비보다 더 작고 저렴하게 구축할 수 있습니다.
  • 더 풍부한 텔레메트리: 단순 좌표 이상을 볼 수 있습니다. 속도, 기수 방향(heading), 항공기의 의도 정보까지 확보할 수 있습니다.

SRE 관점에서 보면, 이는 조악한 헬스 체크로 서비스를 가끔 찔러보는 것과, 서비스 자체에서 나오는 풍부한 연속 텔레메트리를 받는 것의 차이에 가깝습니다.

레이더와 음성: 쉽게 사라지지 않는 레거시

ADS‑B의 장점에도 불구하고, 세계 많은 지역에서는 여전히 기존 레이더와 음성 중심 시스템이 주류입니다. 1차/2차 감시 레이더, VHF 음성 채널, 종이 비행 스트립, 로컬 운영 절차가 일상 운영의 뼈대를 이룹니다.

이 오래된 스택이 계속 유지되는 이유는 무엇일까요?

  • 비용과 인프라: 모든 지역이 잘 자금 지원된 ANSP(Air Navigation Service Provider, 항공 항행 서비스 기관)만큼 빠르게 업그레이드할 수는 없습니다.
  • 인증과 안전: 항공은 보수적인 산업입니다. 그럴 만한 이유가 있습니다. 새로운 시스템을 인증하고 통합하는 데는 수년이 걸립니다.
  • 상호 운용성 제약: 공역은 공유 자원입니다. 새로운 시스템은 반드시 기존 시스템과도 안전하게 상호 운용되어야 합니다.

그 결과, 기술의 패치워크가 만들어집니다. 어떤 관제 구역은 ADS‑B와 고급 의사결정 지원 시스템 위에 멋진 글래스 콕핏 스타일 디스플레이를 사용합니다. 다른 곳은 레이더 스코프와 음성 조율에 의존합니다. 어떤 곳은 같은 방 안에서 그 둘을 섞어 쓰기도 합니다.

이 풍경이 여러분의 프로덕션 환경 — 클라우드 네이티브 서비스, 베어메탈 위의 몇몇 모놀리식 앱, 아무도 건드리려 하지 않는 메인프레임 하나가 뒤섞인 — 과 닮아 보인다면, 바로 그게 의도한 비유입니다.


SESAR, NextGen, 그리고 통합된 하늘의 꿈

이런 기술적 패치워크를 다루기 위해 항공 분야는 대규모 현대화 이니셔티브를 추진하고 있습니다.

  • 유럽의 SESAR(Single European Sky ATM Research)
  • 미국의 NextGen(Next Generation Air Transportation System)

두 프로그램의 목표는 다음과 같습니다.

  • 항공 교통 관제를 표준화·디지털화한다.
  • 항로 및 공역 사용을 최적화해 효율성을 개선한다.
  • 더 나은 감시와 충돌 방지 기능으로 안전성을 향상한다.
  • 장애, 기상 악화, 교통량 급증에 대한 회복력(resilience)을 강화한다.

개념적으로 이는 많은 조직이 플랫폼 엔지니어링과 공통 SRE 관행으로 하고자 하는 일과 크게 다르지 않습니다.

  • 임시 로그와 제각각 대시보드가 아닌 중앙집중식 텔레메트리
  • 배포 및 롤백을 둘러싼 일관된 API와 자동화
  • 공유 런북, 인시던트 도구, 커뮤니케이션 채널

그리고 SESAR와 NextGen이 고르게 퍼지지 못하듯, 우리의 내부 현대화 프로그램도 조직 전체에 균일하게 적용되지는 않습니다.


불균일한 도입: 가진 구역과 못 가진 구역이 섞인 하늘

ADS‑B와 관련 기술은 전 세계적으로 균일하게 도입되지 않았습니다.

  • 어떤 지역은 대부분의 관제 공역에서 ADS‑B 장착을 의무화합니다.
  • 어떤 곳은 미장착 항공기를 허용하거나, 지상 ADS‑B 커버리지가 불완전합니다.
  • 장거리 비행은 매우 다른 역량을 가진 여러 FIR(Flight Information Region, 비행 정보 구역)을 연속해서 통과하기도 합니다.

이러한 불균일한 도입은 실제 운영에 다음과 같은 영향을 줍니다.

  • 수용량 격차: ADS‑B 기반 공역에서는 더 촘촘한 분리 기준과 더 많은 트래픽을 처리할 수 있습니다. 레거시 레이더 구역은 더 넓은 안전 버퍼가 필요합니다.
  • 지연과 우회: 첨단 구역과 레거시 구역의 경계에서 병목이 생깁니다.
  • 낮은 회복력: 중복 감시 수단이 없거나 데이터가 제한적인 곳에서는 장애나 악천후의 영향이 훨씬 커집니다.

소프트웨어로 옮겨 보면, 일부 서비스는 풍부한 트레이스와 메트릭을 내보내는 반면, 중요한 레거시 컴포넌트는 기본 로그만 주거나 아예 아무것도 주지 않는 상황과 비슷합니다.

복잡한 인시던트 한가운데서 전체 스택을 마법처럼 업그레이드할 수는 없습니다. 현실은 다음과 같습니다.

  • 어떤 서비스는 정밀하고 실시간에 가까운 옵저버빌리티를 제공합니다.
  • 어떤 서비스는 그저 “핑이나 날려 보고 기도하는” 블랙박스입니다.
  • 인시던트 도구는 당장 지금 이 순간, 두 세계를 모두 수용해야 합니다.

ATC는 매일 이 현실 속에서 운영됩니다.


종이 관제탑: 인시던트에서 혼합 환경을 다루는 법

ATC에서 가장 인상적인 부분 중 하나는, 복잡성을 관리하는 데 아직도 상당한 양의 종이와 물리적 공간이 사용된다는 점입니다.

  • 관제사는 각 항공기를 나타내는 종이 비행 스트립을 관리합니다.
  • 비행이 구역을 옮기거나 단계가 바뀌면, 스트립도 랙에서 해당 위치로 옮겨집니다.
  • 큰 화이트보드나 유리 벽은 공유 상황판이 되며, 손으로 그린 항로, 대기 패턴, 각종 메모가 빼곡히 채워집니다.

이런 “종이 관제탑(paper control tower)” 방식은 특히 복잡하고 고위험인 상황에서 강력합니다.

  • 악천후로 인해 대규모 항로 변경이 필요할 때
  • 주요 공항이 폐쇄될 때
  • 레이더나 디지털 도구가 장애로 꺼져 버릴 때

반짝이는 시스템이 흔들리는 순간, 벽 가득한 손그림 항적이 모두가 보고, 이해하고, 수정할 수 있는 단일 진실 소스(single source of truth)가 됩니다.

SRE와 DevOps 관점에서, 여기에는 몇 가지 핵심 원칙이 있습니다.

1. 공유되고, 마찰이 낮은 상황 지도 만들기

인시던트 동안 ATC는 한 사람의 화면에만 의존하지 않습니다. 상황을 시각적으로, 물리적으로 공유합니다.

  • 관제사와 감독관은 보드를 한번 훑어보기만 해도 어디가 핫스팟인지 즉시 파악할 수 있습니다.
  • 변경 사항은 한 콘솔 속에 숨어 있지 않고, 모두에게 드러납니다.

인시던트 대응에서 이에 해당하는 것은 다음과 같습니다.

  • 핵심 메트릭, 알림, 타임라인을 모아 보여주는 단일, 공유 인시던트 대시보드
  • 모두가 볼 수 있는 실시간 인시던트 로그/타임라인 (예: Slack, IRC, 전용 도구)
  • 무엇이 영향받는지, 무엇이 조사 중인지, 무엇이 완화되었는지에 대한 명확한 시각적 표시

도구가 무엇이냐보다 중요한 것은 결과입니다. 즉, **공통 운영 그림(common operational picture)**을 만드는 것입니다.

2. 레거시 데이터도 존중하되, 맥락을 부여하라

혼합된 ATC 환경에서는 다음과 같은 특징이 있습니다.

  • ADS‑B 데이터는 매우 정밀하지만, 항공기의 장착 여부와 GPS에 의존합니다.
  • 레이더는 덜 정밀하지만, 방송하지 않는 “스텔스” 표적을 포착할 수 있습니다.
  • 조종사의 음성 보고는 어떤 시스템도 제공하지 못하는 맥락을 줍니다.

관제사는 새 도구가 들어왔다고 해서 기존 도구를 버리지 않습니다. 대신 서로를 **상호 검증(cross‑check)**합니다.

  • ADS‑B와 레이더가 서로 다른 위치를 가리키면, 그것 자체가 신호입니다.
  • 텔레메트리는 멀쩡해 보이는데 조종사가 문제를 보고한다면, 화면보다 인간의 보고가 우선될 수 있습니다.

SRE에게도 마찬가지입니다.

  • 로그, 메트릭, 트레이스, 사용자 제보는 모두 부분적인 시야일 뿐입니다.
  • 새로운 옵저버빌리티 도구가 들어왔다고 기존 도구가 쓸모없어지는 건 아닙니다.
  • 데이터 소스들 사이의 불일치는 그 자체로 중요한 신호일 수 있습니다.

인시던트 운영을 설계할 때, 어떤 한 신호를 절대적인 진실로 다루기보다 신호들을 레이어링하고 상관 분석하는 방향으로 설계해야 합니다.

3. 커뮤니케이션 프로토콜을 표준화하라

항공에서 관제 무전 문구(phraseology)가 표준화되어 있는 데는 이유가 있습니다.

  • “Climb and maintain flight level three five zero.”
  • “Pan‑pan” vs. “Mayday.”
  • 중요 지시 사항에 대한 리드백(readback) 확인 등

스트레스 상황에서 이러한 표준은 모호성을 줄이고, 서로 다른 시스템과 국가 간 협업을 가능하게 합니다.

인시던트 관리에서도 마찬가지입니다.

  • 역할을 명확히 정의합니다. 인시던트 커맨더, 커뮤니케이션 리드, 오퍼레이션, SME(Subject Matter Expert) 등.
  • 상태 업데이트 포맷을 표준화합니다. 시각, 영향 범위, 가설, 수행한 액션, 다음 업데이트 예정 시간 등.
  • 인시던트, 컴포넌트, 심각도(severity)에 대한 일관된 명명 규칙을 사용합니다.

느슨한 언어와 임기응변 구조는, 모호한 관제 지시와 같아서 불필요한 위험을 늘립니다.

4. 완벽한 가용성이 아니라 부분 실패를 기준으로 훈련하라

ATC는 시스템의 일부가 반드시 고장날 것이라고 가정합니다.

  • 레이더 장애
  • ADS‑B 커버리지 공백
  • 통신 두절

관제사들은 축소된(degraded) 운용 모드를 반복적으로 훈련합니다. 더 적은 도구, 더 적은 데이터, 더 많은 수동 조율만으로도 어떻게 안전하게 교통을 관리하는지를 연습합니다.

SRE 팀은 종종 풀스택 장애(리전 장애 등)를 상정한 훈련은 하지만, 실제로는 더 자주 발생하는 까다로운 상황 — 실제 인시던트 동안 텔레메트리 일부가 사라지는 경우 — 에 대한 대비는 부족한 경우가 많습니다.

효과적인 준비에는 다음이 포함됩니다.

  • 주요 대시보드나 로깅 시스템 접근을 의도적으로 차단하는 게임 데이
  • 완벽한 데이터가 아니라 요약된 상태를 기반으로 한 핸드오프 연습
  • 다른 의존성을 사용하는 비상용 관측 경로 (예: 비상 로그 싱크, 별도 의존성에 기반한 최소 상태 페이지 등)

인시던트 생존 가능성이 모든 시스템이 멀쩡할 때만 보장된다면, 그것은 회복력이 아니라 단지 해피 패스 환상에 불과합니다.


SRE에서 여러분만의 “종이 관제탑” 만들기

이 교훈을 적용하기 위해 실제로 종이 벽과 스트립을 도입할 필요는 없습니다. 대신 혼합되고 불균일한 환경에서 운영한다는 전제로 의도적으로 설계하는 것이 중요합니다.

실질적인 단계는 다음과 같습니다.

  1. 인시던트의 정본(canonical) 뷰를 정의하라
    인시던트 동안의 진실을 담는 단일 장소를 정하고 표준으로 삼으십시오. 예를 들어, 전용 인시던트 채팅룸, 특정 대시보드, 전용 인시던트 관리 도구 등입니다. 모두가 직관적으로 알고 쉽게 접근할 수 있어야 합니다.

  2. 수동이지만 공유된 시각화를 ‘정상적인 것’으로 만들라
    가상 화이트보드나 공유 문서를 사용해 의존성, 플로우, 가설을 실시간으로 그려 보십시오. 도구가 충분해 보이는 평상시에도 이런 습관을 들여 두어야, 도구가 흔들릴 때도 자연스럽게 적용할 수 있습니다.

  3. 최소 텔레메트리 기준을 명문화하라
    규제 기관이 최소 감시 요구사항을 정하듯, 각 서비스가 반드시 제공해야 하는 메트릭, 로그, 헬스 체크 기준선을 정의하십시오. 이 격차를 추적하고 점진적으로 해소해 나가야 합니다.

  4. ‘깨끗한 미래 상태’가 아니라 혼합 도구 환경 자체를 계획하라
    현대식 시스템과 레거시 시스템, 클라우드와 온프레미스, 풍부한 옵저버빌리티와 빈약한 옵저버빌리티가 한 인시던트 안에서 함께 등장할 때 어떻게 대응할지 문서화하십시오.

  5. 기술뿐 아니라 커뮤니케이션 자체를 훈련하라
    루트 원인 분석에만 초점을 맞춘 훈련이 아니라, 핸드오프, 팀 간 조율, 표준화된 표현을 강조하는 인시던트 시뮬레이션을 진행하십시오.


결론

항공 교통 관제는, 최첨단 텔레메트리와 손으로 그린 항적이 뒤섞인 상태에서도, 그 기술적 패치워크 전반에 걸쳐 조정, 명료성, 회복력을 설계해 둔다면 얼마나 복잡하고 안전이 중요한 시스템도 운영할 수 있는지를 보여줍니다.

SESAR와 NextGen 같은 현대화 이니셔티브는 SRE와 DevOps의 현대화 프로그램과 같은 야망을 품고 있습니다. 통합하고, 표준화하고, 디지털화하는 것입니다. 하지만 그 비전이 완전히 실현되기 전까지, 항공기와 프로덕션 시스템은 모두 구형과 신형이 공존하는 세계에서 운영되어야 합니다.

여러분의 역할은 완벽하게 현대화된 도구 체인이 갖춰질 때까지 기다리는 것이 아닙니다. 불완전하고 불균일하며 때로는 고장난 도구 위에서도 전체 그림을 보고, 명확하게 소통하며, 고위험 인시던트를 운영할 수 있는 자신만의 “종이 관제탑”을 구축하는 것입니다.

일부 레이더가 오래되었고, 일부 항공기에 ADS‑B가 없다는 이유로 조종사들은 비행을 멈추지 않습니다. 대신 시스템과 절차를 적응시켜, 결과적으로 하늘 전체가 안전하게 유지되도록 만듭니다.

SRE 역시 같은 일을 할 수 있습니다. 이제 세상은 항공기만큼이나, 그 위에서 조용히 돌아가는 프로덕션 시스템에 의존하고 있습니다.

종이로 만든 관제탑: 손으로 그린 항적 벽으로 복잡한 인시던트를 운영하는 법 | Rain Lag