Eskalasiya matrisi
1) Matrisin təyinatı
Eskalasiya matrisi, hadisələrin tez bir zamanda xaosdan idarə olunan prosesə çevrilməsi üçün kimin və nə vaxt qoşulacağı ilə bağlı vahid qaydalardır. O soruşur:- SEV səviyyələri və onların meyarları;
- zamanlama (aşkarlama → ack → eskalasiya → yeniləmə);
- hər addım üçün rollar/kanallar;
- istisnalar (təhlükəsizlik və uyğunluq üçün «sakit saatlar» olmadan);
- playbook və status səhifə ilə əlaqə.
2) Ağırlıq təsnifatı (SEV)
Domen və SLO üçün hədəf ədədləri dəqiqləşdirin.
3) Əsas matris «kim/nə vaxt/harada»
4) Eskalasiyanın həlledici ağacı (mahiyyəti)
1. SLO-da təsdiqlənmiş impakt varmı?
→ Bəli: IC təyin, SEV elan, war-room açmaq.
→ Yox: ticket/müşahidə, page olmadan.
2. ACK vaxtında var?
→ Bəli: playbook davam edir.
→ Xeyr: P2 → IC → DM (zaman keçidi).
3. Təhlükəsizlik/sızma/PII?
→ Həmişə Təhlükəsizlik IR + Legal, ictimai mesajlar razılaşdırılır.
4. Xarici provayder?
→ Vendor Owner eskalasiyası, marşrutların dəyişdirilməsi, statusda fiks.
5) Eskalasiyada rollar və vəzifələr (qısa)
P1 (Primary): triaj, playbook start, IC ilə əlaqə.
P2 (Secondary): arxa plan, mürəkkəb hərəkətlər, kontekstin saxlanması.
IC (Incident Commander): SEV elan, freeze/rollback həll, temp saxlayır.
Duty Manager: blokları aradan qaldırır, resursları yenidən bölüşdürür, org qərarlarını qəbul edir.
Comms: status-səhifə, SLA update.
Təhlükəsizlik IR: izolyasiya, forensika, hüquqi bildirişlər.
Vendor Owner: xarici provayderlər, switchover/fallback.
6) Müvəqqəti qaydalar
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Eskalasiya lesenka: P1 → P2 (5 m) → IC (10 m) → Duty Manager (15 m) → Exec on-call (30 m).
Security: heç bir gecikmə və «sakit saat», yeniləmə q = 15 m.
7) Marşrutlaşdırma və seqmentləşdirmə
Xidmət/region/tenant üzrə: marşrutlaşdırma açarı = 'service + region + tenant'.
Sondaların kvorumu: yalnız 2 müstəqil mənbənin (2 regiondan synthetic + RUM/Business SLI) ≥ təsdiq edildikdə eskalasiya.
Dedoop: onlarla simptomlar əvəzinə bir master alert (DD «qırmızı» 5xx səs-küy söndürür).
8) istisnalar və xüsusi rejimlər
Security/Legal: Təhlükəsizlik IR və Legal növbədənkənar eskalasiyası; ictimai mətnlər yalnız koordinasiya vasitəsilə.
Provayderlər: ayrı OLA/SLA matrisi (kontaktlar, saat kəmərləri, prioritet).
Change Freeze: SEV-1/0 - avtomatik sərbəst buraxılışlar və konfiqurasiyalar.
9) Matrisin yetkinlik metrikası
Ack p95 (SEV-1/0) ≤ 5 dəq.
Time to Declare (mediana) ≤ 10 dəq.
Comms SLA Adherence ≥ 95%.
Escalation Success (P1/P2 səviyyəsində həll edilmişdir) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time müqavilə çərçivəsində kritik provayderləri.
10) Çek vərəqləri
Operativ (on-call üçün)
- SLO və potensial SEV impact müəyyən.
- ACK tərəfindən hazırlanmış və IC (SEV-1/0 üçün) təyin edilmişdir.
- Açıq war-room, playbook bağlı.
- Status-yeniləmə dərc/SLA ilə planlaşdırılır.
- freeze aktiv (lazım olduqda), provayder/təhlükəsizlik eskalasiya.
Proses (həftəlik baxış)
- Eskalasiya pilləkəni SLA ilə işlədi?
- IC-dən əvvəl lazımsız eskalasiya baş vermədi?
- Müştəri bildirişləri vaxtında və dəqiq?
- Blokerlər (girişlər, provayderlərin əlaqələri, «dilsiz» kanal) varmı?
- Prosesin pozulması üçün CAPA-lar işə salınır.
11) Şablonlar
11. 1 Eskalasiya siyasəti (YAML ideyası)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Kart «zaman eskalasiyası» (bot üçün)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 İlk ictimai yeniləmə şablonu
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) İnteqrasiya
Alert-as-Code: Hər Page qaydası düz bir pleybuka istinad edir və öz eskalasiya matrisini bilir.
ChatOps: '/declare sev1 ', '/page p2', '/status update 'əmrləri, yeniləmələrin avtomatik zamanlayıcıları.
CMDB/Kataloq: xidmət - sahibləri, on-call, matris, provayderlər, kanallar.
Status page: SEV-1/0 üçün şablonlar, yeniləmələrin tarixi, RCA linkləri.
13) Anti-nümunələr
«Hamını bir anda eskalasiya edirik» → səs-küy və qeyri-müəyyən məsuliyyət.
IC/war-room yoxdur - həllər chat vasitəsilə yayılır.
Birinci yeniləmənin gecikməsi şikayətlərin və PR risklərinin artmasıdır.
Təhlükəsizlik üçün istisnaların olmaması hüquqi risklərdir.
Sahibi və əlaqəsi olmayan xarici provayderlər.
Pilləkən avtomatlaşdırılmayıb - hər şey «əlində».
14) Yol xəritəsi (3-5 həftə)
1. Ned. 1: SEV kriteriyaları və taymingləri düzəltmək; rolları/provayderləri əlaqə toplamaq; kanalları seçin.
2. Ned. 2: Siyasəti təsvir edin (YAML), Alert-as-Code-a bağlayın, Peycer/Bot-da lent yandırın.
3. Ned. 3: 2-3 kritik xidmətlərdə pilot; Comms SLA və şablonları düzəltmək.
4. Ned. 4-5: əhatə genişləndirmək, həftəlik Escalation Review və yetkinlik metrik daxil.
15) Yekun
Eskalasiya matrisi hadisələrin əməliyyat konstitusiyasıdır: kim, nə vaxt və necə qoşulur. Aydın SEV, vaxtlar, kanallar, təhlükəsizlik istisnaları və playbook və status səhifəsi ilə inteqrasiya ilə komanda sürətli, ahəngdar və şəffaf reaksiya verir və istifadəçilər proqnozlaşdırıla bilən yeniləmələri və xidmətin inamlı bərpasını görürlər.