에스컬레이션 매트릭스
1) 매트릭스 목적
에스컬레이션 매트릭스는 누가 연결하고 언제 연결하는지에 대한 균일 한 규칙이므로 사고가 혼돈에서 관리 프로세스로 빠르게 이동합니다. 그녀는 설정합니다:- SEV 수준과 기준;
- 타이밍 (ack → → 에스컬레이션 → 업데이트 감지);
- 각 단계의 역할/채널
- 예외 (보안 및 규정 준수를위한 조용한 시간 없음)
- 플레이 북과 상태 페이지가있는 번들.
2) 심각도 별 분류 (SEV)
도메인과 SLO의 대상 번호를 지정하십시오.
3) 기본 누가/언제/어디서 행렬
4) 중요한 에스컬레이션 트리 (본질)
1. SLO에 미치는 영향이 확인 되었습니까?
→ 예: IC를 할당하고 SEV를 선언하며 전쟁 실을 엽니 다.
→ 아니오: 티켓/관찰, 페이지 없음.
2. 제 시간에 ACK가 있습니까?
→ 예: 우리는 플레이 북을 계속합니다.
→ 아니오: P2 → IC → DM (시간의 사다리).
3. 보안/누출/PII?
→ 항상 보안 IR + 법률, 공공 커뮤니케이션이 조정됩니다.
4. 외부 공급자?
→ 공급 업체 소유자 에스컬레이션, 경로 전환, 상태 수정.
5) 에스컬레이션 역할 및 책임 (짧은)
P1 (1 차): 심사, 플레이 북 시작, IC에 대한 링크.
P2 (2 차): 백업, 복잡한 동작, 컨텍스트 유지.
IC (Incident Commander): SEV 발표, 동결/롤백 결정, 속도 유지.
직무 관리자: 잠금 장치를 제거하고 리소스를 재배포하며 조직 결정을 내립니다.
Comms: 상태 페이지, SLA 업데이트.
보안 IR: 격리, 법의학, 법적 통지.
공급 업체 소유자: 외부 공급자, 전환/대체.
6) 임시 가이드 (랜드 마크)
SEV-1/0: ACK
에스컬레이터 사다리: P1 → P2 (5m) → IC (10m) → 듀티 매니저 (15m) → Exec on-call (30m).
보안: 지연 및 "조용한 시간" 없이 q = 15m 업데이트됩니다.
7) 경로 및 세분화
서비스/지역/테넌트 별: 라우팅 키 = '서비스 + 지역 + 테넌트'.
프로브 정원: 2 개 이상의 독립적 인 소스가 확인 된 경우에만 확대됩니다 (2 개 영역 + RUM/비즈니스 SLI의 합성).
결제: 수십 가지 증상 대신 하나의 마스터 경고 (DB "빨간색" 은 5xx 노이즈를 억제 함).
8) 예외 및 특수 모드
보안/법률: 보안 IR과 법률의 확대; 조정을 통해서만 공개 텍스트.
제공자: 별도의 OLA/SLA 매트릭스 (연락처, 시간대, 우선 순위).
동결 변경: SEV-1/0-릴리스 및 구성의 자동 동결.
9) 매트릭스 성숙도 지표
Ack p95 (SEV-1/0) 체크 5 분
선언하는 시간 (중간)
SLA 부착력이 95% 이상입니다.
확장 성공 (P1/P2 수준에서 해결) 70% 이상.
비 ACK 에스컬레이션 온라인 QoQ.
계약 내 중요한 공급자를위한 공급 업체 대응 시간.
10) 점검표
온라인 (통화 중)
- SLO 영향 및 잠재적 SEV가 식별되었습니다.
- ACK 제작 및 IC 할당 (SEV-1/0).
- 전쟁 실 개방, 플레이 북 첨부.
- SLA에서 게시/계획 한 상태 업데이트.
- 동결 활성화 (필요한 경우), 공급자/보안이 확대되었습니다.
프로세스 (주간 검토)
- 에스컬레이션 사다리가 SLA에서 작동 했습니까?
- IC보다 불필요한 에스컬레이션이 있었습니까?
- 고객 알림이시기 적절하고 정확합니까?
- 차단제 (액세스, 제공자 연락처, 자동 채널) 가 있습니까?
- 프로세스 오류에 대한 CAPA도 마련되어 있습니다.
11) 템플릿
11. 1 에스컬레이션 정책 (YAML 아이디어)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 회 에스컬레이션 카드 (봇 용)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 첫 번째 공개 업데이트를위한 3 개의 템플릿
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) 통합
알림: 각 페이지 규칙은 정확히 하나의 플레이 북을 참조하고 자체 에스컬레이션 행렬을 알고 있습니다.
ChatOps: 명령 '/선언 sev1 ', '/페이지 p2', '/상태 업데이트 ', 업데이트 자동 타이머.
CMDB/카탈로그: 서비스에는 소유자, 통화 중, 행렬, 공급자, 채널이 있습니다.
상태 페이지: SEV-1/0 템플릿, 이력 업데이트, RCA 링크.
13) 반 패턴
"한 번에 모두 확장" → 소음과 책임 흐림.
IC/전쟁 실 없음-솔루션이 채팅에 들어갑니다.
첫 번째 업데이트 지연-불만 및 홍보 위험 증가.
보안 예외는 없습니다-법적 위험.
소유자와 연락처가없는 외부 제공 업체
계단은 자동화되어 있지 않습니다. 모든 것이 "핸드 브레이크" 에 있습니다.
14) 구현 로드맵 (3-5 주)
1. 네드. 1: SEV 기준 및 타이밍을 수정합니다. 역할/제공자 연락처를 선택하십시오.
2. 네드. 2: 정책 (YAML) 을 설명하고 Alert-as-Code에 묶고 호출기/봇의 사다리를 켜십시오.
3. 네드. 3: 2-3 중요 서비스에 대한 파일럿; 디버그 SLA Comms 및 템플릿.
4. 네드. 4-5: 적용 범위를 확장하고 매주 에스컬레이션 검토 및 성숙 지표를 도입하십시오.
15) 결론
에스컬레이션 매트릭스는 사건의 운영 헌법입니다. 명확한 SEV, 타이밍, 채널, 보안 예외 및 플레이 북 및 상태 페이지와의 통합을 통해 팀은 빠르고 일관되고 투명하게 반응하며 사용자는 예측 가능한 업데이트와 자신감있는 서비스 복구를 볼 수 있습니다.