Eskalasyon matrisi
1) Matrix amacı
Tırmanma matrisi, kimin ne zaman bağlandığı konusunda tek tip kurallardır, böylece olaylar hızla kaostan yönetilen bir sürece geçer. O ayarlar:- SEV seviyeleri ve kriterleri;
- Zamanlamalar (ack tespiti - eskalasyon - güncellemeler);
- Her adım için roller/kanallar
- İstisnalar (güvenlik ve uyumluluk için sessiz saatler yok)
- Oyun kitapları ve durum sayfası içeren bir paket.
2) Şiddetine göre sınıflandırma (SEV)
Etki alanınız ve SLO'nuz için hedef numaraları belirtin.
3) Temel kim/ne zaman/nerede matrisi
4) Kritik tırmanma ağacı (öz)
1. SLO üzerinde doğrulanmış bir etki var mı?
Evet: IC atayın, SEV ilan edin, savaş odası açın.
Hayır: bilet/gözlem, sayfa yok.
2. Zamanında ACK var mı?
Evet: Oyun kitabı boyunca devam ediyoruz.
No: P2, IC, DM (zamanda merdiven).
3. Güvenlik/sızıntı/PII?
Her Zaman Güvenlik IR + Yasal, kamu iletişimi koordine edilir.
4. Dış sağlayıcı mı?
Satıcı Sahibi yükseltme, rota değiştirme, durumda düzeltme.
5) Tırmanma Rolleri ve Sorumlulukları (kısa)
P1 (Birincil): triyaj, playbook başlangıcı, IC bağlantısı.
P2 (İkincil): yedekleme, karmaşık eylemler, bağlam tutma.
IC (Olay Komutanı): SEV'i duyurur, dondurmaya/geri almaya karar verir, ayak uydurur.
Görev Yöneticisi: kilitleri kaldırır, kaynakları yeniden dağıtır, organizasyonel kararlar alır.
İletişim: durum sayfası, SLA güncellemeleri.
Güvenlik IR: izolasyon, adli tıp, yasal bildirimler.
Satıcı Sahibi: dış sağlayıcılar, geçiş/geri dönüş.
6) Geçici kılavuzlar (yer işaretleri)
: ACK 5 , Declare 10 , First Comms 15 , Updates q = 15-30 .
Yürüyen merdiven merdiveni: P1 - P2 (5 m) - IC (10 m) - Duty Manager (15 m) - Exec on-call (30 m).
Güvenlik: gecikmeler ve "sessiz saatler" olmadan, güncellemeler q = 15 m.
7) Yönlendirme ve segmentasyon
Hizmet/bölge/kiracı ile: yönlendirme anahtarı = 'hizmet + bölge + kiracı'.
Probların yeterli çoğunluğu: Yalnızca ≥2 bağımsız kaynak doğrulanırsa artar (2 bölgeden sentetik + RUM/iş SLI).
Dedup: düzinelerce semptom yerine bir ana uyarı (DB "kırmızı" 5xx gürültüsünü bastırır).
8) İstisnalar ve özel modlar
Güvenlik/Hukuk: Güvenlik IR ve Hukuk'un sıra dışı olarak artması; Kamu metinleri sadece koordinasyon yoluyla.
Sağlayıcılar: Ayrı OLA/SLA matrisi (kişiler, zaman dilimleri, öncelik).
Dondurmayı Değiştir: eğer SEV-1/0 - sürümlerin ve yapılandırmaların otomatik olarak dondurulması.
9) Matris olgunluk metrikleri
Ack p95 (SEV-1/0) ≤ 5 dk.
Bildirme Zamanı (medyan) ≤ 10 dk.
İletişim SLA Uyumu ≥ %95.
Eskalasyon Başarısı (P1/P2 düzeyinde çözüldü) ≥ %70.
QoQ ↓ No-ACK yükselmeleri.
Sözleşme dahilindeki kritik sağlayıcılar için Satıcı Yanıt Süresi.
10) Kontrol listeleri
Online (on-call için)
- SLO etkisi ve potansiyel SEV tanımlandı.
- ACK yapılmış ve IC atanmış (SEV-1/0 için).
- Savaş odası açık, oyun kitabı eklenmiş.
- SLA tarafından yayınlanan/planlanan durum güncellemesi.
- Freeze etkin (gerekirse), sağlayıcı/güvenlik arttı.
Süreç (haftalık inceleme)
- Tırmanma merdiveni SLA üzerinde çalıştı mı?
- IC'den önce gereksiz yükselmeler var mıydı?
- Müşteri bildirimleri zamanında ve doğru mu?
- Engelleyiciler (erişimler, sağlayıcı bağlantıları, sessiz kanal) var mıydı?
- Süreç hataları için CAPA'lar da mevcuttur.
11) Şablonlar
11. 1 Eskalasyon Politikası (YAML fikri)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Zaman yükseltme kartı (bot için)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 İlk genel güncelleme için şablon
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Entegrasyonlar
Alert-as-Code: Her Sayfa kuralı tam olarak bir oyun kitabına başvurur ve kendi eskalasyon matrisini bilir.
ChatOps:'/declare sev1 ','/page p2','/status update 'komutları, güncellemelerin otomatik zamanlayıcıları.
CMDB/Katalog: Hizmetin sahipleri, çağrı üzerine, matrisi, sağlayıcıları, kanalları vardır.
Durum sayfası: SEV-1/0 şablonları, güncelleme geçmişi, RCA bağlantıları.
13) Anti-desenler
"Hepsini aynı anda yükseltin" - gürültü ve bulanık sorumluluk.
IC/savaş odası yok - çözümler sohbetlere giriyor.
İlk güncellemenin gecikmesi - şikayetlerde ve PR risklerinde artış.
Güvenlik istisnası yok - yasal riskler.
Sahibi ve kişileri olmayan dış sağlayıcılar.
Merdivenler otomatik değildir - her şey'el freni üzerindedir ".
14) Uygulama Yol Haritası (3-5 hafta)
1. Ned. 1: SEV kriterlerini ve zamanlamalarını düzeltin; Rol/sağlayıcı kişileri seçin kanalları toplayın.
2. Ned. 2: Politikayı (YAML) tanımlayın, Alert-as-Code'a bağlanın, çağrı cihazı/bottaki merdiveni açın.
3. Ned. 3: 2-3 kritik servislerde pilot; Hata ayıklama SLA İletişim ve şablonlar.
4. Ned. 4-5: Kapsamı genişletin, haftalık Eskalasyon İncelemesi ve olgunluk metriklerini tanıtın.
15) Alt satır
Tırmanma matrisi, olayların operasyonel Anayasasıdır: kim, ne zaman ve nasıl bağlanır. Net SEV'ler, zamanlamalar, kanallar, güvenlik istisnaları ve playbook'larla entegrasyon ve bir durum sayfası ile ekip hızlı, tutarlı ve şeffaf bir şekilde tepki verir ve kullanıcılar öngörülebilir güncellemeler ve güvenli hizmet kurtarma görür.