Rain Lag

종이 Ops 컨트롤 트램웨이: 포스트잇 벽으로 굴리는 현대식 SRE 의식

포스트잇으로 채운 실제 벽이 어떻게 SRE 컨트롤 트램웨이가 되어 운영 작업을 눈에 보이게 만들고, 소방전( firefighting )을 줄이며, 신뢰성을 모두가 함께 책임지는 지속 가능한 실천으로 바꿀 수 있는지에 대해 이야기합니다.

소개

Site Reliability Engineering(SRE)은 보통 대시보드, 알림, 자동화의 세계로 묘사됩니다. 하지만 팀이 커질수록, 의외로 아날로그에 가까운 한 가지가 신뢰성 문화를 좌우하기도 합니다. 바로 모든 작업이 한눈에 보이고, 실시간으로 조율되는 공유된 물리적 공간입니다.

여기서 등장하는 것이 바로 종이 Ops 컨트롤 트램웨이(Paper Ops Control Tramway) 입니다. SRE 작업을 위한 트램(노면전차) 노선처럼 동작하는 포스트잇 벽이죠. 이 단순한 물리 보드는 지금 무엇이 움직이고 있고, 무엇이 막혀 있으며, 시스템(그리고 사람들)의 신뢰성을 지키기 위해 다음에 무엇을 만들어야 하는지를 보여줍니다.

이 글에서는 포스트잇 "트램웨이"를 현대적인 SRE 의식 공간으로 활용하는 방법, 소방전 모드에서 선제적인 엔지니어링으로 진화하는 방법, 그리고 디지털 도구와 자연스럽게 연결해 누구도 소외되지 않게 만드는 방법을 살펴보겠습니다.


왜 SRE에 물리적인 트램웨이 보드인가?

SRE 작업은 아주 쉽게 흩어져 버리곤 합니다.

  • 인시던트, 토일(toil), 신뢰성 프로젝트, 플랫폼 작업을 모두 아우릅니다.
  • 인터럽트(갑작스러운 요청) 기반으로 흘러가기 쉽습니다.
  • 다른 엔지니어링 팀에서는 그 존재가 잘 보이지 않을 때가 많습니다.

물리적인 보드는 이런 문제를 다음과 같이 해결합니다.

  • 작업과 부하를 가시화: 누구나 지나가다 보기만 해도 현재 인시던트, 반복되는 고통 지점, 운영 부담을 가장 많이 지고 있는 사람이 누구인지 알 수 있습니다.
  • 팀 의식을 고정(anchor): 스탠드업, 인시던트 리뷰, 플래닝 세션이 모두 동일한 공유 아티팩트를 중심으로 진행됩니다.
  • 숨은 작업을 줄이기: 벽에 없으면 존재하지 않는 것으로 간주합니다. 이는 우선순위와 트레이드오프에 대한 대화를 강제합니다.

이 보드를 컨트롤 트램웨이(control tramway) 로 생각해 보십시오. 일이 한쪽 끝에서 들어와, 예측 가능한 단계를 거쳐, 다른 쪽 끝으로 빠져나갑니다. SRE 팀의 역할은 모든 폭주하는 트램 앞에 뛰어드는 것이 아니라 라인이 부드럽게 흘러가도록 유지하는 것입니다.


나만의 SRE 트램웨이 설계하기: 컬럼과 플로우

거창한 시스템이 필요하지 않습니다. 벽, 마스킹 테이프, 포스트잇만 있으면 됩니다. 그다음 실제 SRE 작업 흐름을 그대로 반영하는 간단한 플로우를 설계하면 됩니다.

대표적인 시작 레이아웃은 다음과 같습니다.

  1. Backlog – 하기 가치가 있다고 합의한 신뢰성 작업과 인시던트 후속 조치.
  2. Triage – 새로 들어온 항목(인시던트, 알림, 요청)을 평가하는 칸. 목표는 깊이 있는 작업이 아니라, 빠른 결정입니다.
  3. In Progress – 누군가가 실제로 작업을 진행 중인 항목.
  4. Blocked – 멈춰 있는 태스크와, 그 이유가 명확히 적혀 있는 칸.
  5. In Review / Validation – SRE 입장에서는 끝났지만, 확인이 필요한 작업(예: 모니터링 갱신, 런북 리뷰, 배포된 변경 검증 등).
  6. Done – 완료된 항목. (보너스: 주간 혹은 스프린트 마지막에 회고용으로 활용하세요.)

트램웨이를 위한 핵심 규칙 몇 가지

  • 모든 카드에는 주인이 있다: 각 포스트잇에는 명확한 오너의 이름이나 아바타가 있어야 합니다. 오너가 없다 → 카드를 만들지 않습니다.
  • 진행 중 작업(WIP)을 제한한다: "In Progress" 칼럼에 둘 수 있는 카드 최대 개수를 정합니다(예: 1인당 1–2개). 한도를 채웠다면, 기존 작업을 끝내거나 다른 칼럼으로 옮기기 전까지 새 작업을 시작할 수 없습니다.
  • Blocked에는 반드시 이유가 적힌다: "Blocked"에 있는 모든 카드는 막혔는지(예: "스키마 변경 승인 대기")를 적어야 합니다. 이는 문제 해결을 훨씬 더 집중적으로 만들죠.

이 규칙들을 통해 보드는 단순한 장식이 아니라 살아 있는 SRE 컨트롤 서피스가 됩니다.


소방전에서 선제적 신뢰성으로

대부분의 SRE 팀은 매우 반응적인 상태에서 출발합니다. 알림이 울리면 사람들이 우왕좌왕하고, 인시던트는 너무 오래 끌며, "진짜" 신뢰성 작업은 계속 뒤로 밀립니다.

트램웨이는 다음을 통해 이런 상태에서 벗어나도록 도와줍니다.

1. 인시던트에서 얻은 배움을 카드로 캡처하기

각 인시던트 이후 다음과 같은 포스트잇을 만듭니다.

  • 후속 태스크 (예: "Checkout 서비스 5xx 스파이크 알림 개선")
  • 토일 감소 항목 (예: "최근 장애 때 쓴 로그 수집 스크립트 자동화")
  • 신뢰성 투자 (예: "검색 서비스에 그레이스풀 디그레이데이션 추가")

이 카드를 Backlog로 옮긴 뒤, 다른 모든 작업과 함께 우선순위를 매깁니다. 인시던트 문서나 티켓 시스템 어딘가에서 썩어가게 두지 마십시오.

2. 정기적인 가지치기와 재우선순위 조정

보드를 SRE 팀이 실제로 무엇을 하고 있는지를 보여주는 단일 소스로 만드세요.

  • 플래닝 시간에, 벽 위의 Backlog 카드를 직접 위아래로 옮기며 순서를 정합니다.
  • Triage에 오래 방치된 항목은 과감히 삭제하거나 에스컬레이션합니다. 좀비 아이템은 두지 않습니다.
  • 항상 용량을 초과하는 상황이라면, 벽이 그 사실을 시각적으로 드러냅니다. 이는 개인의 실패가 아니라, 프로덕트/리더십과의 협상 신호입니다.

3. 인시던트에서 엔지니어링으로 용량을 옮기기

보드는 인시던트 vs 프로젝트 vs 토일의 구성을 눈에 띄게 보여줍니다. 덕분에 다음과 같은 일을 할 수 있습니다.

  • "매주 최소 40%의 시간을 신뢰성 프로젝트에 쓴다"와 같은 목표를 세웁니다.
  • 인시던트가 시간을 다 잡아먹고 있는 시점을 보드에서 확인하고, 의식적으로 균형을 다시 맞춥니다.

시간이 지나면 이런 피드백 루프는 긴급 대응이 줄고, 더 잘 설계된 회복력을 낳습니다.


트램웨이를 현대적 의식 공간으로 만들기

종이 Ops 트램웨이의 진짜 힘은 종이에 있지 않습니다. 그 주변에 만드는 의식(ritual) 에 있습니다.

벽 앞에서 하는 데일리 스탠드업

스탠드업을 보드 앞에서 진행합니다(원격 인원이 있다면 카메라로 보드를 비추면서 진행할 수 있습니다).

  • 오른쪽에서 왼쪽으로 칼럼을 훑으며(Done → Backlog) 새 작업 전에 먼저 성과를 축하합니다.
  • In ProgressBlocked에 있는 각 카드에 대해, 오너가 다음 세 가지에 답합니다.
    • 어제는 무엇을 옮겼나?
    • 오늘은 무엇을 어디까지 옮길 건가?
    • 나를 막고 있는 것은 무엇인가?

이 방식은 작업을 트램웨이 상에서 실제로 움직이는 것에 초점을 맞추게 해 주며, 단순한 상태 보고 쇼를 피하게 해 줍니다.

인시던트 리뷰를 보드에 고정시키기

인시던트 리뷰를 할 때, 벽을 기준점으로 삼습니다.

  • 전용 Incidents 스윔레인(가로 레인)을 만들고, 인시던트 자체를 나타내는 카드를 꽂습니다.
  • 후속 조치 카드를 추가하고, 이를 일반적인 플로우 안으로 옮깁니다.
  • 같은 근본 원인(RCA)을 공유하는 인시던트끼리는 선을 그리거나 그룹으로 묶어 표시합니다.

이렇게 하면 보드는 무엇이 우리를 아프게 했는지, 그리고 어떻게 대응했는지에 대한 시각적 기억이 됩니다.

보드 앞에서 하는 플래닝과 협상

티켓 시스템 안에서만 우선순위를 논쟁하는 대신, 이해관계자들을 보드 앞으로 초대합니다.

  • 카드를 위아래로 옮겨 우선순위를 직접 눈에 보이게 조정합니다.
  • 서비스나 주제별로 작업을 클러스터링합니다(예: "데이터베이스 강화" 레인).
  • 이번 주기에는 하지 않기로 한 작업들도 명시적으로 결정합니다.

이 과정을 통해 신뢰성은 더 이상 SRE가 "알아서 처리하는" 일이 아니라, 모두가 함께 협상하고 책임지는 일이 됩니다.


물리 보드와 디지털 도구 연결하기

물리 보드는 강력하지만, 대부분의 SRE 팀은 하이브리드 혹은 분산 팀입니다. 누구 하나라도 흐름에서 떨어져 나가게 하고 싶지는 않을 것입니다.

트램웨이는 Trello, Jira, Linear 같은 디지털 칸반 도구와 쉽게 결합할 수 있습니다.

  • 벽에 QR 코드 붙이기: 각 컬럼이나 주요 레인에 해당 디지털 보드 뷰로 연결되는 QR 코드를 붙입니다.
  • 하나의 작업, 두 가지 표현: 하나의 포스트잇은 하나의 디지털 티켓에 대응합니다. 물리 카드를 옮길 때, 본인이나 돌아가며 맡은 Facilitator가 디지털 보드도 함께 업데이트합니다.
  • 원격 친화적인 스탠드업: 삼각대 위의 카메라나 상시 설치된 벽 카메라를 사용합니다. 원격 팀원은 물리 보드를 따라가면서, 실제 상호작용은 디지털 도구에서 진행합니다.

이렇게 하면, 물리 보드는 오피스 안에서 집중과 공유 맥락을 제공하고, 디지털 시스템은 추적 가능성, 검색 가능성, 원격 참여를 보장합니다.


벽 위(또는 주변)에 두는 라이트웨이트 지표

데이터 기반 SRE 의식을 운영하려고 거대한 메트릭스 스택이 꼭 필요한 것은 아닙니다. 보드 옆에 가볍고 시각적인 지표부터 시작해 보십시오.

유용한 예시는 다음과 같습니다.

  • 인시던트 빈도: 주간/월간 인시던트 개수를 화이트보드에 손으로 그리거나 출력해 붙입니다.
  • 사이클 타임(Cycle Time): 카드가 Triage → Done으로 가는 데 걸리는 시간을 추적합니다.
    • 각 포스트잇에 생성일과 완료일을 적거나,
    • 디지털 도구로 계산한 뒤, 간단한 요약본을 인쇄해 붙일 수 있습니다.
  • 토일 vs 프로젝트 작업 비율: 색상으로 카드를 구분합니다(예: 인시던트는 빨간색, 토일은 노란색, 신뢰성 프로젝트는 초록색). 그러면 균형을 한눈에 볼 수 있습니다.

이 지표들은 주간 리뷰에서 논의합니다.

  • 우리는 지난달보다 인시던트에 더 많은 시간을 쓰고 있는가?
  • 신뢰성 프로젝트가 실제로 Done까지 가고 있는가?
  • 특정 서비스나 팀이 비정상적으로 많은 작업을 만들어내고 있는가?

벽 옆의 메트릭은 대화를 데이터에 기반하게 하되, 데이터에 압도당하지 않게 해 줍니다.


시스템을 계속 다듬기

첫 번째 트램웨이 설계가 완벽할 가능성은 거의 없습니다. 그것이 오히려 건강합니다. 이 보드와 의식을 다른 신뢰성 시스템과 동일하게 다루세요. 관찰하고, 조금씩 바꾸고, 개선합니다.

다듬어 볼 수 있는 영역은 다음과 같습니다.

  • 컬럼 정의: 별도의 "Observability 작업" 레인이 필요할 수도 있고, Backlog와 Triage 사이에 명확한 "Ready" 칼럼이 필요할 수도 있습니다.
  • WIP 제한: 처음에는 보수적으로 잡고, 팀의 실제 처리량을 알게 되면 조정합니다.
  • 카드 디자인: 스티키 전용 프린팅 템플릿을 써 볼 수도 있습니다. 예: 제목, 오너, 타입(인시던트/토일/프로젝트), 날짜, 티켓 링크.
  • 의식 주기: 매일 10분 스탠드업, 매주 30분 신뢰성 리뷰, 매월 보드 자체에 대한 회고 등 다양한 리듬을 시도해 봅니다.

중요한 것은, 벽이 얼마나 예쁜지가 아니라 이 시스템이 실제로 다음을 달성하는지입니다.

  • 운영 스트레스를 줄여 주는가.
  • 문제 해결까지 걸리는 시간을 줄이는가.
  • 선제적 신뢰성 작업에 쓰는 시간을 늘리는가.
  • 소유권과 우선순위를 모두에게 더 분명히 보여 주는가.

만약 이 시스템이 마찰이나 불안을 더 만든다면, 단순화해야 합니다. 컬럼을 줄이고, 규칙을 줄인 다음, 실제로 가치가 증명된 것만 천천히 다시 추가하십시오.


맺으며

종이 Ops 컨트롤 트램웨이는 디지털 이전 시대의 워크플로를 그리워하는 방식이 아닙니다. 이는 아주 현실적인 문제에 대한 의도적인, 현대적인 응답입니다. 신뢰성 작업은 보기가 어렵고, 협상하기 어렵고, 조금만 방심하면 끝없는 소방전으로 흘러가기 쉽다는 문제 말입니다.

포스트잇으로 채운 벽을 SRE 컨트롤 서피스로 바꾸면 다음과 같은 일이 벌어집니다.

  • 운영 부하와 우선순위가 누구에게나 명확하게 보입니다.
  • 데일리 스탠드업, 인시던트 리뷰, 플래닝이 모두 같은 의식 공간에 뿌리를 내립니다.
  • 아날로그 가시성과 디지털 추적 가능성을 연결해 하이브리드 팀을 지원합니다.
  • 가벼운 메트릭을 활용해, 반응적인 혼돈이 아니라 선제적 신뢰성으로 방향을 잡을 수 있습니다.

작게 시작하십시오. 몇 개의 컬럼, 색으로 구분한 포스트잇, 그리고 한두 개의 단순한 의식만으로 충분합니다. 시스템은 팀과 함께 진화하도록 두세요. 시간이 지나면 트램웨이는 단지 카드를 옮기는 도구가 아니라, 팀 문화를 지속 가능한 장기적 신뢰성을 향해 움직이게 만드는 도구가 되어 있을 것입니다.

종이 Ops 컨트롤 트램웨이: 포스트잇 벽으로 굴리는 현대식 SRE 의식 | Rain Lag