종이 인시던트 스토리 스트리트 페스티벌: 아날로그 게임과 마이크로 워크숍으로 만드는 팝업 신뢰성 박람회
종이 인시던트, 아날로그 게임, 한 입 크기 워크숍을 활용해 신뢰성, 인시던트 대응, SRE 실천을 누구나 쉽게 손으로 느끼고 사람 중심으로 이해할 수 있는 스트리트 페스티벌로 바꾸는 방법을 소개합니다.
종이 인시던트 스토리 스트리트 페스티벌: 아날로그 게임과 마이크로 워크숍으로 만드는 팝업 신뢰성 박람회
당신의 인시던트 핸드북, SRE 플레이북, 그리고 온콜 전쟁 같은 이야기들이 Confluence를 탈출해 스트리트 페스티벌이 된다면 어떨까요?
대시보드는 없습니다. 터미널도 없습니다. 오직 종이, 마커, 골판지, 그리고 부스 사이를 돌아다니는 호기심 많은 동료들만 있을 뿐입니다.
- 한 부스에서는 가상의 마이크로서비스에 장애가 순식간에 번지는 테이블탑 게임이 돌아갑니다.
- 다른 부스에서는 포스트잇과 실을 이용해서 SLA와 SLO를 다루는 20분짜리 마이크로 워크숍이 열립니다.
- 모퉁이를 돌면, “스토리텔링 텐트”에서 온콜 베테랑들이 새벽 3시에 울린 호출 이야기들을 주고받습니다.
이것이 바로 종이 인시던트 스토리 스트리트 페스티벌(The Paper Incident Story Street Festival) 의 아이디어입니다. SRE 개념을 가깝고, 물리적이고, 기억에 남는 경험으로 바꾸는 팝업 신뢰성 박람회죠.
이 글에서는 아날로그 게임과 마이크로 워크숍을 활용해, 인시던트 문화를 손에 잡히고 재미있게 느낄 수 있는 나만의 신뢰성 스트리트 페스티벌을 기획하고 운영하는 방법을 단계별로 소개합니다.
왜 신뢰성을 스트리트 페스티벌로?
대부분의 팀은 문서, 도구, 그리고 가끔은 아픈 기억으로 남는 실제 인시던트를 통해 신뢰성을 접합니다. 물론 중요하지만, 동시에 이런 특징이 있습니다.
- 추상적이다: 에스컬레이션 경로나 에러 버짓은 훑어보고 잊어버리기 쉽습니다.
- 위압적이다: 신입 엔지니어는 참여하기 전에 이미 전문가가 되어 있어야 할 것 같은 압박을 느끼곤 합니다.
- 도구 중심이다: 커뮤니케이션, 스트레스, 팀워크 같은 인간적인 요소는 상대적으로 덜 다뤄집니다.
스트리트 페스티벌은 이 구도를 완전히 뒤집습니다.
- 위험이 낮고, 놀이 같은 환경: 종이로 만든 시스템은 망가뜨려도 실제 고객이 깨울 일은 없습니다.
- 촉각적인 학습: 사람들이 카드를 직접 옮기고, 주사위를 굴리고, 종이 패킷의 경로를 다시 설계합니다.
- 혼자가 아닌 사회적 학습: 작은 그룹으로 퍼즐을 풀고 이야기를 나누며 함께 배웁니다.
목표는 문서나 정식 교육을 대체하는 것이 아닙니다. 대신 더 건강한 인시던트 문화를 씨앗처럼 심는 것입니다. 사람들이 인시던트 관련 언어와 흐름에 익숙해지고, 무엇보다 서로에게 더 편안해지도록 돕는 것이죠.
나만의 신뢰성 스트리트 페스티벌 디자인하기
이벤트 레이아웃을 실제 박람회처럼 상상해보세요. 각기 다른 활동을 가진 테마 부스들이 줄지어 서 있고, 참가자들은 이곳저곳을 돌아다니며 새로운 관점을 얻습니다.
간단한 구조는 다음과 같을 수 있습니다.
- 아날로그 게임 존 – 종이 인시던트를 테이블탑 게임으로.
- 마이크로 워크숍 골목 – 핵심 주제에 대한 짧고 집중된 세션.
- 스토리 & 디브리핑 코너 – 전쟁 같은 이야기, 성찰, 팀 간 대화.
- 지식의 벽(Knowledge Wall) – 인사이트와 질문이 쌓여가는 살아있는 보드.
큰 예산은 필요 없습니다. 대부분은 다음만 있어도 충분합니다.
- 종이, 인덱스 카드, 마커, 테이프
- 주사위, 타이머, 컬러 스티커
- 부스를 운영하고 퍼실리테이션을 맡을 몇 명의 자원봉사자
이제 각 요소를 조금 더 자세히 살펴보겠습니다.
부스 1: 종이 인시던트를 위한 아날로그 게임
Operation Raven 같은 게임에서 영감을 받아, 인시던트를 유쾌하게 시뮬레이션하는 테이블탑 스타일의 시나리오를 만들 수 있습니다.
게임 컨셉: “분산 도넛 가게 (The Distributed Doughnut Shop)”
테마: 당신은 가상의 온라인 도넛 배달 플랫폼을 운영하고 있습니다. 그 뒤에는 주문, 결제, 라우팅, 알림, 재고 등 다양한 서비스가 얽혀 있습니다.
구성 요소:
- 서비스들을 노드로 표시한 종이 아키텍처 맵
- 인시던트 카드 ("결제 지연 증가", "이메일 벤더 장애" 등)
- 역할 카드 (인시던트 커맨더, 커뮤니케이션 담당, 서비스 X 온콜 등)
- 타이머와 “고객 만족도” 트랙
플레이 방법 (15–25분):
- 퍼실리테이터가 상황을 설명합니다. 평범한 하루처럼 시작하지만, 첫 번째 인시던트 카드가 공개됩니다.
- 플레이어들은 다음을 수행해야 합니다.
- 어떤 서비스들이 영향을 받았을지 식별합니다.
- 어떤 신호를 확인할지 결정합니다. (로그, 메트릭, 트레이스 등을 카드로 표현)
- 인쇄된 “조직도 맵”을 보고 어떤 팀으로 에스컬레이션할지 선택합니다.
- 제한된 시간 안에 내린 결정에 따라 “고객 만족도” 미터가 오르락내리락합니다.
- 해결 후에는 짧게 디브리핑을 합니다. 무엇이 잘 되었는지, 무엇이 헷갈렸는지, 누가 과부하를 느꼈는지 이야기합니다.
왜 아날로그 게임이 효과적인가
- 마음속 모델을 밖으로 꺼낸다. 각자 머릿속에 그리고 있던 아키텍처와 에스컬레이션 경로가 눈앞에 펼쳐집니다.
- 안전한 실패를 제공한다. 잘못된 팀으로 에스컬레이션해도 웃고 넘길 수 있고, “실제로라면 어떻게 했을까?”를 편하게 논의할 수 있습니다.
- 역할을 연습할 수 있다. 평소 Incident Commander를 맡아보지 않은 사람도 부담 없이 역할을 경험해볼 수 있습니다.
게임을 여러 가지 버전으로 만들어보세요. 커뮤니케이션 병목에 초점을 둔 게임, 연쇄 장애(cascading failure)를 다루는 게임, 여러 인시던트가 경쟁할 때 우선순위를 정하는 게임 등으로 변주할 수 있습니다.
부스 2: 핵심 신뢰성 주제에 대한 마이크로 워크숍
한 시간짜리 강연 대신, 10–25분 정도의 마이크로 워크숍을 설계해보세요. 각 워크숍은 하나의 개념에만 집중합니다.
- 인시던트 대응
- 온콜 생활
- SLA/SLO
- 인시던트 이후 학습(Post-incident learning)
각 마이크로 워크숍은 공통적인 흐름을 따릅니다. 설명 → 경험 → 디브리핑.
마이크로 워크숍: “포스트잇으로 배우는 SLO”
목표: SLA/SLO를 구체적이고 협상 가능한 개념으로 느끼게 하기.
진행 (20분):
- 설명 (5분): 간단하게 프레이밍합니다. “SLO는 우리가 우리 자신에게 하는 신뢰성에 대한 약속입니다. SLA는 고객에게 하는 약속이고, 지키지 못했을 때의 결과가 따릅니다.”
- 경험 (10분):
- 각 그룹에 가상의 제품을 하나씩 줍니다. (예: 동영상 스트리밍, 결제, 검색 등)
- 1–2개의 핵심 사용자 여정을 정하고, 이를 포스트잇에 적게 합니다.
- 각 여정에 대해 SLI(예: 지연 시간, 오류율)를 고르고, 타깃 SLO를 설정하게 합니다.
- 디브리핑 (5분): 트레이드오프를 논의합니다. “이 SLO를 더 엄격하게 하면 무슨 일이 벌어질까? 누가 비용을 치를까? 완화하면 어떤 영향이 있을까?”
참가자들은 SLO가 추상적인 퍼센트가 아니라, 사용자 경험과 트레이드오프의 문제라는 감각을 몸으로 익히게 됩니다.
마이크로 워크숍: “지하철 노선도로 그리는 에스컬레이션 경로”
목표: 에스컬레이션과 인시던트 역할을 덜 낯설게 만들기.
진행 (15–20분):
- 퍼실리테이터가 다양한 에스컬레이션 경로(기술, 매니저, 대외 커뮤니케이션)를 노선으로 표현한 빈 “지하철 노선도” 템플릿을 보여줍니다.
- 각 팀은 자기 세계에서 인시던트가 실제로 어떻게 흐르는지 그려봅니다. 누가 호출을 받고, 누구에게 연락하며, 어디에서 의사결정이 이뤄지는지 적습니다.
- 팀별로 완성된 노선도를 비교합니다. 서로 일관적인지, 괜히 복잡한지, 중간에 빠진 “역”은 없는지 살펴봅니다.
보통은 텍스트 문서로만 존재하던 내용을 시각적인 아티팩트로 만들면서, 사람들이 질문하고 개선할 수 있는 대상이 됩니다.
마이크로 워크숍: “5분 포스트모템”
목표: 빠르고, 비난을 줄이는 학습을 연습하기.
진행 (10–15분):
- 각 그룹에 아주 작은 가상의 인시던트가 적힌 카드(짧은 이야기)를 하나씩 줍니다.
- 한 장짜리 템플릿을 사용합니다.
- 무슨 일이 있었는가?
- 무엇이 상황을 더 어렵게 만들었는가?
- 무엇이 상황을 더 쉽게 만들었는가?
- 시스템에서 바꾸고 싶은 점 한 가지.
- 프로세스에서 바꾸고 싶은 점 한 가지.
- 디브리핑에서는 개인이 아닌 시스템과 조건에 초점을 맞춰 이야기합니다.
참가자들은 한 시간짜리 회의 없이도, 인시던트 이후 학습의 감각을 맛볼 수 있습니다.
부스 3: 온콜의 인간적인 면
신뢰성 작업은 알림과 런북만이 아닙니다. 스트레스, 판단, 압박 속에서의 협업이기도 합니다.
이 인간적인 면을 정면으로 다루는 공간을 의도적으로 설계해보세요.
“온콜 라운지” 대화 서클
15–20분 정도의 짧은 퍼실리테이티드 서클에서 다음을 이야기합니다.
- 여러분은 개인적으로 온콜 스트레스를 어떻게 관리하나요?
- 수면, 핸드오프, “거절하기”에 대해 어떤 팀 규범이 있어야 할까요?
- 인시던트 중에 심리적 안전감이 좋다는 건 어떤 모습일까요?
질문 카드(프롬프트 카드)를 제공하고, 서로의 대처 전략, 경계 설정, 필요한 지원에 대해 솔직하게 공유할 수 있는 여지를 남겨둡니다.
커뮤니케이션 롤플레이 부스
간단한 롤플레이를 진행합니다.
- 한 사람은 Incident Commander.
- 한 사람은 외부 이해관계자(PM, 임원, 고객 지원 리더 등).
- 한 사람은 스트레스를 받은 온콜 엔지니어.
간단한 시나리오를 주고 5분 동안 상황극을 한 뒤, 5분 동안 디브리핑합니다.
- 어떤 언어가 도움이 되었나요?
- 어디에서 혼란이나 긴장이 생겼나요?
- 상태 업데이트를 더 명확하게 “스크립트”로 만들려면 어떻게 할 수 있을까요?
이런 연습은 공감을 키우고, 커뮤니케이션 자체가 신뢰성 도구라는 점을 드러냅니다.
부스 4: 피어 러닝과 인시던트 문화
페스티벌을 단지 교육 이벤트가 아니라, 커뮤니티 허브로 바라보세요.
전쟁 이야기 텐트(War Story Tent)
의자와 화이트보드를 둔 아늑한 코너를 마련합니다. 매 30분마다 이런 비형식 세션을 엽니다.
- 한 명의 자원자가 기억에 남는 인시던트 이야기를 짧게 들려줍니다.
- 다른 사람들이 질문합니다. 무엇이 예상 밖이었나요? 무엇을 알고 싶었나요? 팀은 감정적으로 어떻게 대응했나요?
비교와 대조를 적극적으로 이끌어보세요.
- 서로 다른 온콜 모델 (팔로 더 선 vs 로컬 로테이션 등)
- 서로 다른 툴링 접근법 (중앙 집중형 vs 팀 소유형)
- 서로 다른 커뮤니케이션 스타일 (Slack 채널, 브리지콜, 인시던트 룸 등)
이런 대화에서 공식 문서에 절대 적히지 않는 묵시적인 지식이 떠오릅니다.
신뢰성 지식의 벽(Reliability Knowledge Wall)
큰 보드를 하나 준비하고 다음과 같은 섹션을 만듭니다.
- “모든 팀원이 인시던트에 대해 알고 있었으면 하는 것들”
- “온콜에 대해 아직도 궁금한 점들”
- “오늘 이후 우리 팀에서 시도해보고 싶은 아이디어”
행사가 끝날 즈음이면, 조직의 신뢰성 문화—아픔, 공백, 바람—를 한눈에 보여주는 크라우드소싱된 스냅샷이 완성됩니다.
놀랍도록 가벼운 실행 비용
팝업 신뢰성 박람회라고 하면 거창하게 들리지만, 실제로는 가볍게, 점진적으로 시작할 수 있습니다.
- 2–3개 부스와 한 오후만으로 시작하세요.
- 준비물은 간단합니다. 종이, 마커, 출력물, 그리고 자원봉사자 몇 명이면 충분합니다.
- 만들어둔 게임과 워크숍 포맷은 팀 오프사이트, 온보딩, 브라운백 세션에서도 재활용할 수 있습니다.
그에 비해 얻는 효과는 큽니다.
- 공유된 언어: 인시던트, SLO, 역할에 대한 머릿속 모델이 더 잘 정렬됩니다.
- 팀 간 이해 증진: 프론트엔드 엔지니어가 플랫폼 팀의 일을 이해하고, 그 반대도 마찬가지입니다.
- 더 나은 인시던트 문화: 심리적 안전감이 커지고, 커뮤니케이션이 나아지며, 신뢰성이 모두의 일이라는 인식이 확산됩니다.
무엇보다, 사람들은 신뢰성을 건조한 체크리스트가 아니라 **함께 만들어가는 장인 정신(크래프트)**으로 경험하게 됩니다.
마무리: 나만의 스트리트 페스티벌을 만들어보자
신뢰성 문화를 개선하기 위해 거대한 프로그램이나 정교한 커리큘럼이 꼭 필요한 것은 아닙니다. 다음처럼 작게 시작할 수 있습니다.
- 하나의 가상 장애를 다루는 아날로그 게임 한 판.
- 20분짜리 SLO 마이크로 워크숍 하나.
- 전쟁 같은 인시던트 이야기를 나누는 서클 하나.
그다음, 이를 점차 확장해 완전한 종이 인시던트 스토리 스트리트 페스티벌로 발전시킬 수 있습니다. 이 페스티벌은 다음을 가능하게 합니다.
- 복잡한 SRE 실천을 이해하기 쉽고 기억에 남게 만들기.
- 온콜과 인시던트 대응의 인간적인 면을 드러내기.
- 동료들이 서로에게서 배우고, 잘 작동하는 방법을 공유하도록 장려하기.
단 하루 동안이라도 신뢰성 실천을 페스티벌로 바꿔보세요. 그때 생긴 에너지, 호기심, 그리고 공유된 이해가 실제 인시던트와 팀의 대응 방식으로 되돌아가는 과정을 직접 보게 될 것입니다.