GH GambleHub

에스컬레이션 매트릭스

1) 매트릭스 목적

에스컬레이션 매트릭스는 누가 연결하고 언제 연결하는지에 대한 균일 한 규칙이므로 사고가 혼돈에서 관리 프로세스로 빠르게 이동합니다. 그녀는 설정합니다:
  • SEV 수준과 기준;
  • 타이밍 (ack → → 에스컬레이션 → 업데이트 감지);
  • 각 단계의 역할/채널
  • 예외 (보안 및 규정 준수를위한 조용한 시간 없음)
  • 플레이 북과 상태 페이지가있는 번들.

2) 심각도 별 분류 (SEV)

SEV영향시간의 목표
SEV-0주요 비즈니스/데이터의 사용할 수 없음 완지역 다운, 데이터 손실 Tier-0모든 것을 선언합니다. 첫 번째 Comms MTTR-최대
SEV-1심각한 SLO 분해SLO에 대한 지불 -3%, p95> 400 ms모든 것을 선언합니다. 첫 번째 Comms 업데이트 q = 15-30 용지
SEV-2부분 분해/바이 패스 가능한 공급자가 넘어지고 폴백이 있습니다모든 것을 선언합니다. 필요에 따라
SEV-3낮은 충격/내부실패에 영향을 미치는 비 고객공개 업데이트 없음

도메인과 SLO의 대상 번호를 지정하십시오.

3) 기본 누가/언제/어디서 행렬

이벤트타이밍누가 시작우리가 확대하는 사람채널/도구코멘트
탐지 (페이지)T0 → 즉시모니터링/P1P1페이저/채팅 # alerts-svcPlaybook 자동 첨부 파일
ACK 페이지3/5 분 (SEV-1/0)P1페이저ACK가없는 경우-자동 에스컬레이션
No-ACK5 분페이저P2페이저/사운드추가-5-10 분 IC
SEV-1/0 선언할 수 없습니다IC/P1Comms 직무 관리자# war-room- , 상태 페이지프리즈 릴리스
첫 번째 Comms10 분의 1 분Comms (IC 별)고객/Int. 이해 관계자상태 페이지/메일Impact-Diag-Actions-ETA 템플릿
보안 트리거한 번에보안 IRIC, 법률, Exec# sec-war-room조용한 시간이 없으면
공급자 빨간색확인 후 할 수 없습니다공급 업체 소유자IC, 제품공급 업체 채널/메일전환을 시작하십시오
업데이트 없음> 30 분 (SEV-1/0)보트IC/Comms전쟁 실SLA 알림 업데이트

4) 중요한 에스컬레이션 트리 (본질)

1. SLO에 미치는 영향이 확인 되었습니까?

→ 예: IC를 할당하고 SEV를 선언하며 전쟁 실을 엽니 다.
→ 아니오: 티켓/관찰, 페이지 없음.

2. 제 시간에 ACK가 있습니까?

→ 예: 우리는 플레이 북을 계속합니다.
→ 아니오: P2 → IC → DM (시간의 사다리).

3. 보안/누출/PII?

→ 항상 보안 IR + 법률, 공공 커뮤니케이션이 조정됩니다.

4. 외부 공급자?

→ 공급 업체 소유자 에스컬레이션, 경로 전환, 상태 수정.

5) 에스컬레이션 역할 및 책임 (짧은)

P1 (1 차): 심사, 플레이 북 시작, IC에 대한 링크.
P2 (2 차): 백업, 복잡한 동작, 컨텍스트 유지.
IC (Incident Commander): SEV 발표, 동결/롤백 결정, 속도 유지.
직무 관리자: 잠금 장치를 제거하고 리소스를 재배포하며 조직 결정을 내립니다.
Comms: 상태 페이지, SLA 업데이트.
보안 IR: 격리, 법의학, 법적 통지.
공급 업체 소유자: 외부 공급자, 전환/대체.

6) 임시 가이드 (랜드 마크)

SEV-1/0: ACK

에스컬레이터 사다리: P1 → P2 (5m) → IC (10m) → 듀티 매니저 (15m) → Exec on-call (30m).
보안: 지연 및 "조용한 시간" 없이 q = 15m 업데이트됩니다.

7) 경로 및 세분화

서비스/지역/테넌트 별: 라우팅 키 = '서비스 + 지역 + 테넌트'.
프로브 정원: 2 개 이상의 독립적 인 소스가 확인 된 경우에만 확대됩니다 (2 개 영역 + RUM/비즈니스 SLI의 합성).
결제: 수십 가지 증상 대신 하나의 마스터 경고 (DB "빨간색" 은 5xx 노이즈를 억제 함).

8) 예외 및 특수 모드

보안/법률: 보안 IR과 법률의 확대; 조정을 통해서만 공개 텍스트.
제공자: 별도의 OLA/SLA 매트릭스 (연락처, 시간대, 우선 순위).
동결 변경: SEV-1/0-릴리스 및 구성의 자동 동결.

9) 매트릭스 성숙도 지표

Ack p95 (SEV-1/0) 체크 5 분

선언하는 시간 (중간)

SLA 부착력이 95% 이상입니다.
확장 성공 (P1/P2 수준에서 해결) 70% 이상.
비 ACK 에스컬레이션 온라인 QoQ.
계약 내 중요한 공급자를위한 공급 업체 대응 시간.

10) 점검표

온라인 (통화 중)

  • SLO 영향 및 잠재적 SEV가 식별되었습니다.
  • ACK 제작 및 IC 할당 (SEV-1/0).
  • 전쟁 실 개방, 플레이 북 첨부.
  • SLA에서 게시/계획 한 상태 업데이트.
  • 동결 활성화 (필요한 경우), 공급자/보안이 확대되었습니다.

프로세스 (주간 검토)

  • 에스컬레이션 사다리가 SLA에서 작동 했습니까?
  • IC보다 불필요한 에스컬레이션이 있었습니까?
  • 고객 알림이시기 적절하고 정확합니까?
  • 차단제 (액세스, 제공자 연락처, 자동 채널) 가 있습니까?
  • 프로세스 오류에 대한 CAPA도 마련되어 있습니다.

11) 템플릿

11. 1 에스컬레이션 정책 (YAML 아이디어)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 회 에스컬레이션 카드 (봇 용)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 첫 번째 공개 업데이트를위한 3 개의 템플릿


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) 통합

알림: 각 페이지 규칙은 정확히 하나의 플레이 북을 참조하고 자체 에스컬레이션 행렬을 알고 있습니다.
ChatOps: 명령 '/선언 sev1 ', '/페이지 p2', '/상태 업데이트 ', 업데이트 자동 타이머.
CMDB/카탈로그: 서비스에는 소유자, 통화 중, 행렬, 공급자, 채널이 있습니다.
상태 페이지: SEV-1/0 템플릿, 이력 업데이트, RCA 링크.

13) 반 패턴

"한 번에 모두 확장" → 소음과 책임 흐림.
IC/전쟁 실 없음-솔루션이 채팅에 들어갑니다.
첫 번째 업데이트 지연-불만 및 홍보 위험 증가.
보안 예외는 없습니다-법적 위험.

소유자와 연락처가없는 외부 제공 업체

계단은 자동화되어 있지 않습니다. 모든 것이 "핸드 브레이크" 에 있습니다.

14) 구현 로드맵 (3-5 주)

1. 네드. 1: SEV 기준 및 타이밍을 수정합니다. 역할/제공자 연락처를 선택하십시오.
2. 네드. 2: 정책 (YAML) 을 설명하고 Alert-as-Code에 묶고 호출기/봇의 사다리를 켜십시오.
3. 네드. 3: 2-3 중요 서비스에 대한 파일럿; 디버그 SLA Comms 및 템플릿.
4. 네드. 4-5: 적용 범위를 확장하고 매주 에스컬레이션 검토 및 성숙 지표를 도입하십시오.

15) 결론

에스컬레이션 매트릭스는 사건의 운영 헌법입니다. 명확한 SEV, 타이밍, 채널, 보안 예외 및 플레이 북 및 상태 페이지와의 통합을 통해 팀은 빠르고 일관되고 투명하게 반응하며 사용자는 예측 가능한 업데이트와 자신감있는 서비스 복구를 볼 수 있습니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.