GH GambleHub

Eskalasyon matrisi

1) Matrix amacı

Tırmanma matrisi, kimin ne zaman bağlandığı konusunda tek tip kurallardır, böylece olaylar hızla kaostan yönetilen bir sürece geçer. O ayarlar:
  • SEV seviyeleri ve kriterleri;
  • Zamanlamalar (ack tespiti - eskalasyon - güncellemeler);
  • Her adım için roller/kanallar
  • İstisnalar (güvenlik ve uyumluluk için sessiz saatler yok)
  • Oyun kitapları ve durum sayfası içeren bir paket.

2) Şiddetine göre sınıflandırma (SEV)

SEVEtkiÖrneklerZamanın hedefleri
SEV-0Anahtar iş/verilerin tamamen bulunmamasıBölgesel düşüş, veri kaybı Tier-0≤ 5 м beyan edin; İlk İletişim ≤ 10 м; MTTR - ASAP
SEV-1Ciddi SLO bozulmasıÖdemeler - SLO'ya %3, p95> 400 ms≤ 10 м beyan edin; İlk İletişim ≤ 15 м; Güncellemeler q = 15-30 м
SEV-2Kısmi bozulma/bypass mümkünBir sağlayıcı düşüyor, folback var≤ 20 м ilan edin; Gerektiği gibi iletişim
SEV-3Düşük etkili/dahiliArızaları etkileyen müşteri olmayanGenel güncelleme yok

Etki alanınız ve SLO'nuz için hedef numaraları belirtin.

3) Temel kim/ne zaman/nerede matrisi

OlayZamanlamaKim başlatırKimi tırmandırıyoruzKanal/AraçYorum yap
Algılama (Sayfa)T0 - hemenMonitoring/P1P1Pager/chat # alerts-svcPlaybook Otomatik ekleme
ACK Sayfası≤ 5 dakika (SEV-1/0)P1Çağrı cihazıACK yoksa - otomatik yükseltme
No-ACK5 dakikaÇağrı cihazıP2Çağrı cihazı/SesDaha fazla - IC 5-10 dakika içinde
SEV-1/0 bildirme≤ 10 dakikaIC/P1Görev Yöneticisi, Comms# war-room- , durum sayfasıBültenleri dondur
İlk İletişim≤ 15 dakikaİletişim (IC ile)Müşteriler/Int. paydaşlarDurum sayfası/postaEtki-Diag-Eylemler-ETA Şablonu
Güvenlik tetikleyicisiHemenGüvenlik IRIC, Yasal, Exec# sec-war-roomSessiz saatler olmadan
Sağlayıcı kırmızı≤ onaylandıktan 5 dakika sonraSatıcı sahibiIC, ÜrünSatıcı kanalı/postaGeçiş işlemini başlat
Güncelleme yok> 30 dakika (SEV-1/0)TekneIC/İletişimSavaş odasıSLA Hatırlatıcısını Güncelle

4) Kritik tırmanma ağacı (öz)

1. SLO üzerinde doğrulanmış bir etki var mı?

Evet: IC atayın, SEV ilan edin, savaş odası açın.
Hayır: bilet/gözlem, sayfa yok.

2. Zamanında ACK var mı?

Evet: Oyun kitabı boyunca devam ediyoruz.
No: P2, IC, DM (zamanda merdiven).

3. Güvenlik/sızıntı/PII?

Her Zaman Güvenlik IR + Yasal, kamu iletişimi koordine edilir.

4. Dış sağlayıcı mı?

Satıcı Sahibi yükseltme, rota değiştirme, durumda düzeltme.

5) Tırmanma Rolleri ve Sorumlulukları (kısa)

P1 (Birincil): triyaj, playbook başlangıcı, IC bağlantısı.
P2 (İkincil): yedekleme, karmaşık eylemler, bağlam tutma.
IC (Olay Komutanı): SEV'i duyurur, dondurmaya/geri almaya karar verir, ayak uydurur.
Görev Yöneticisi: kilitleri kaldırır, kaynakları yeniden dağıtır, organizasyonel kararlar alır.
İletişim: durum sayfası, SLA güncellemeleri.
Güvenlik IR: izolasyon, adli tıp, yasal bildirimler.
Satıcı Sahibi: dış sağlayıcılar, geçiş/geri dönüş.

6) Geçici kılavuzlar (yer işaretleri)

: ACK 5 , Declare 10 , First Comms 15 , Updates q = 15-30 .
Yürüyen merdiven merdiveni: P1 - P2 (5 m) - IC (10 m) - Duty Manager (15 m) - Exec on-call (30 m).
Güvenlik: gecikmeler ve "sessiz saatler" olmadan, güncellemeler q = 15 m.

7) Yönlendirme ve segmentasyon

Hizmet/bölge/kiracı ile: yönlendirme anahtarı = 'hizmet + bölge + kiracı'.
Probların yeterli çoğunluğu: Yalnızca ≥2 bağımsız kaynak doğrulanırsa artar (2 bölgeden sentetik + RUM/iş SLI).
Dedup: düzinelerce semptom yerine bir ana uyarı (DB "kırmızı" 5xx gürültüsünü bastırır).

8) İstisnalar ve özel modlar

Güvenlik/Hukuk: Güvenlik IR ve Hukuk'un sıra dışı olarak artması; Kamu metinleri sadece koordinasyon yoluyla.
Sağlayıcılar: Ayrı OLA/SLA matrisi (kişiler, zaman dilimleri, öncelik).
Dondurmayı Değiştir: eğer SEV-1/0 - sürümlerin ve yapılandırmaların otomatik olarak dondurulması.

9) Matris olgunluk metrikleri

Ack p95 (SEV-1/0) ≤ 5 dk.
Bildirme Zamanı (medyan) ≤ 10 dk.
İletişim SLA Uyumu ≥ %95.
Eskalasyon Başarısı (P1/P2 düzeyinde çözüldü) ≥ %70.
QoQ ↓ No-ACK yükselmeleri.
Sözleşme dahilindeki kritik sağlayıcılar için Satıcı Yanıt Süresi.

10) Kontrol listeleri

Online (on-call için)

  • SLO etkisi ve potansiyel SEV tanımlandı.
  • ACK yapılmış ve IC atanmış (SEV-1/0 için).
  • Savaş odası açık, oyun kitabı eklenmiş.
  • SLA tarafından yayınlanan/planlanan durum güncellemesi.
  • Freeze etkin (gerekirse), sağlayıcı/güvenlik arttı.

Süreç (haftalık inceleme)

  • Tırmanma merdiveni SLA üzerinde çalıştı mı?
  • IC'den önce gereksiz yükselmeler var mıydı?
  • Müşteri bildirimleri zamanında ve doğru mu?
  • Engelleyiciler (erişimler, sağlayıcı bağlantıları, sessiz kanal) var mıydı?
  • Süreç hataları için CAPA'lar da mevcuttur.

11) Şablonlar

11. 1 Eskalasyon Politikası (YAML fikri)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 Zaman yükseltme kartı (bot için)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 İlk genel güncelleme için şablon


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Entegrasyonlar

Alert-as-Code: Her Sayfa kuralı tam olarak bir oyun kitabına başvurur ve kendi eskalasyon matrisini bilir.
ChatOps:'/declare sev1 ','/page p2','/status update 'komutları, güncellemelerin otomatik zamanlayıcıları.
CMDB/Katalog: Hizmetin sahipleri, çağrı üzerine, matrisi, sağlayıcıları, kanalları vardır.
Durum sayfası: SEV-1/0 şablonları, güncelleme geçmişi, RCA bağlantıları.

13) Anti-desenler

"Hepsini aynı anda yükseltin" - gürültü ve bulanık sorumluluk.
IC/savaş odası yok - çözümler sohbetlere giriyor.
İlk güncellemenin gecikmesi - şikayetlerde ve PR risklerinde artış.
Güvenlik istisnası yok - yasal riskler.
Sahibi ve kişileri olmayan dış sağlayıcılar.
Merdivenler otomatik değildir - her şey'el freni üzerindedir ".

14) Uygulama Yol Haritası (3-5 hafta)

1. Ned. 1: SEV kriterlerini ve zamanlamalarını düzeltin; Rol/sağlayıcı kişileri seçin kanalları toplayın.
2. Ned. 2: Politikayı (YAML) tanımlayın, Alert-as-Code'a bağlanın, çağrı cihazı/bottaki merdiveni açın.
3. Ned. 3: 2-3 kritik servislerde pilot; Hata ayıklama SLA İletişim ve şablonlar.
4. Ned. 4-5: Kapsamı genişletin, haftalık Eskalasyon İncelemesi ve olgunluk metriklerini tanıtın.

15) Alt satır

Tırmanma matrisi, olayların operasyonel Anayasasıdır: kim, ne zaman ve nasıl bağlanır. Net SEV'ler, zamanlamalar, kanallar, güvenlik istisnaları ve playbook'larla entegrasyon ve bir durum sayfası ile ekip hızlı, tutarlı ve şeffaf bir şekilde tepki verir ve kullanıcılar öngörülebilir güncellemeler ve güvenli hizmet kurtarma görür.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.