Olayların tırmanması
1) Amaç ve prensipler
Olay tırmanması, kullanıcılar ve iş metrikleri üzerindeki etkiyi en aza indirmek için doğru rolleri ve kaynakları hızla çeken yönetilen bir süreçtir.
Temel ilkeler:- Hız, idealizmden daha önemlidir. Olayı daha erken bildirmek ve geç kalmaktansa gerilimi azaltmak daha iyidir.
- Birleşik komut. Çözümden sorumlu bir kişi Olay Komutanı'dır (IC).
- Şeffaflık. İç ve dış paydaşlar için açık statüler ve iletişim kanalları.
- Belgelenebilirlik. Tüm adımlar, kararlar ve zaman çizelgeleri denetim ve iyileştirme için yakalanır.
2) Önem derecesi derecelendirmesi (SEV/P düzeyleri)
Örnek ölçek (etki alanına/yetki alanlarına uyum sağlar):- SEV-0/P0 (kritik) - anahtar fonksiyonun (giriş/ödeme), veri sızıntısının, yasal riskin tamamen bulunmaması. Tüm çekirdeğin anında çağrı üzerine çağrılması, serbest bırakılanların dondurulması.
- SEV-1/P1 (yüksek) - p95/p99 bozulması, anahtar işlemdeki hata/hata payının artması, bölgeye/sağlayıcıya erişilememesi.
- SEV-2/P2 (orta) - sınırlı bir kohort (bölge, sağlayıcı) için kısmi bozulma, bir geçici çözüm vardır.
- SEV-3/P3 (düşük) - kullanıcı için kritik değildir, ancak dikkat gerektirir (ETL arka plan gecikmesi, gecikmiş rapor).
- Lezyon yarıçapı (kaç kullanıcı/ciro) × süresi × duyarlılığı (düzenleyici/PR) - SEV seviyesi.
3) Süreç KPI
MTTD (algılama süresi) - olayın başlangıcından ilk sinyale kadar.
MTTA (Receive Time) - IC onayına sinyal.
MTTR (kurtarma süresi) - SLO/işlev geri yüklenene kadar.
Eskalasyon Gecikmesi - onaydan istenen rolü/komutu bağlamaya kadar.
Yeniden Açma Oranı - "çözüldükten" sonra yeniden açılan olayların oranı.
Comm SLA - harici/dahili güncelleme aralıklarına uygunluk.
4) Roller ve Sorumluluklar (RACI)
Olay Komutanı (IC): Çözümün sahibi, seviyeyi ayarlar, plan yapar, dondurur, tırmandırır, tırmandırır. Düzeltmeler yazmaz.
Tech Lead (TL): teknik teşhis, hipotezler, mühendislerin koordinasyonu.
Comms Lead (CL): durum sayfaları, müşteri ve iç iletişim, Hukuk/Halkla İlişkiler ile koordinasyon.
Scribe: gerçeklerin, zaman çizelgelerinin, alınan kararların doğru bir şekilde kaydedilmesi.
Liaisons: Dış sağlayıcıların/ekiplerin temsilcileri (ödemeler, KYC, barındırma).
Nöbetçi mühendisler: planın yürütülmesi, oynatma kitaplarının/geri dönüşlerin başlatılması.
Her rol için görev çizelgeleri ve yedeklemeler atayın.
5) Kanallar ve eserler
Savaş odası kanalı (ChatOps): Otomatik açıklamaların (sürümler, bayraklar, kanaryalar) bir şablonuna sahip tek bir koordinasyon noktası (Slack/Teams).
SEV-1 + için video köprüsü.
Olay bileti (tek çağrı cihazı): ID, SEV, IC, katılımcılar, hipotez/teşhis, adımlar, ETA, durum, etki, grafiklere bağlantılar.
Durum sayfası: public/internal; Düzenli güncellemeleri planlayın (örneğin, SEV-1 + için her 15-30 dakikada bir).
6) Zaman kutuları ve standart aralıklar
T0 (min. 0-5): IC atanmış, SEV atanmış, salımları dondurun (gerekirse), savaş odası açık.
T + 15 dk: ilk genel/dahili mesaj (etkilenen, geçici çözüm, bir sonraki güncelleme penceresi).
T + 30/60 dk: Kararlı dinamikler yoksa, bir sonraki seviyenin (platform/DB/güvenlik/sağlayıcılar) yükselmesi.
Düzenli güncellemeler: SEV-0: Her 15 dakikada bir; SEV-1: 30 dakikada bir; SEV-2 +: her saat başı.
7) Otomatik yükseltme kuralları (tetikleme politikaları)
Kod olarak kaydedilmiş ve izleme/uyarmaya bağlı:- Kısa ve uzun pencerelerde eşiğin üzerinde yakma oranı hata bütçesi.
- Harici örneklerin yeter sayısı: ≥2 bölgeler HTTP/TLS/DNS bozulmasını kaydeder.
- Ticari SLI (ödemelerin/kayıtların başarısı) SLO'nun altına düşer.
- Güvenlik imzaları: şüpheli sızıntı/uzlaşma.
- Sağlayıcı sinyali: webhook durumu "büyük kesinti".
8) Keşiften çözüme süreç
1. Olay Bildirimi (IC): SEV, kapsama, dondurma, oyun kitabı başlatma.
2. Tanılama (TL): hipotezler, yarıçap yalıtımı (bölge, sağlayıcı, özellik), kontroller (DNS/TLS/CDN/DB/önbellekler/veri yolu).
3. Hafifletici eylemler (hızlı zaferler): geri alma/kanarya ↓, bozunma bayrağı özelliği, sağlayıcı yük devretme, hız sınırı, önbellek kaplaması.
4. İletişim (CL): durum sayfası, müşteriler/ortaklar, Yasal/PR, programa göre güncellemeler.
5. Kurtarma onayı: dış sentetikler + gerçek metrikler (SLI), donma giderme.
6. Tırmanma: SEV'de azalma, gözlem N dakika/saate geçiş.
7. Kapatma ve RCA: ölüm sonrası hazırlık, eylem öğeleri, sahipleri ve zamanlama.
9) Dış sağlayıcılarla çalışmak
Çeşitli bölgelerden sağlayıcılara kendi örnekleri + isteklerin/hataların günlük örneklerini yansıtın.
Eskalasyon anlaşmaları (kişiler, yanıt SLA'ları, öncelik, durum web kitapları).
SLO sağlayıcısı aracılığıyla otomatik yük aktarımı/trafik aktarımı.
Kanıt tabanı: zaman çizelgesi, örnek istekleri/yanıtları, gecikme/hata grafikleri, sağlayıcı bilet kimliği.
10) Düzenleyici, Güvenlik ve PR
Security/P0: izolasyon, eserlerin toplanması, açıklamanın en aza indirilmesi, zorunlu bildirimler (iç/dış/düzenleyici).
Yasal: Dış güncellemelerin ifadelerinin onaylanması, sözleşmeye bağlı SLA'ların/para cezalarının muhasebeleştirilmesi.
PR/Müşteri Hizmetleri: hazır yanıt şablonları, soru-cevap, tazminatlar/krediler (varsa).
11) Mesaj şablonları
Birincil (T + 15):- "[Fonksiyon/bölge]'yi etkileyen SEV-1 bir olayı araştırıyoruz. Belirtiler: [Kısaca]. Geçici çözümü [açıklama] etkinleştirdik. Bir sonraki güncelleme [zamanda]"
- "Tanı: [hipotez/onay]. Eylemler: [Switched provider/rolled back release/enabled degradation]. Etki [yüzde/kohort]'a düşürüldü. Bir sonraki güncelleme [zaman]"
- "Olay SEV-1 çözüldü. Sebep: [Kök]. Kurtarma süresi: [MTTR]. Sonraki adımlar: [fix/checks/watch N hours]. Ölüm sonrası - [ne zaman/nerede]"
12) Oyun kitapları (örnek)
Ödemelerin düşen başarısı: A sağlayıcısındaki payı azaltmak, % X'i B'ye aktarmak; Degrade-payments-UX sınırlarında retras dahil etkinleştirmek; yüzgeç komutuna haber ver.
P99 API büyümesi: yeni sürümün kanaryasını azaltın; Ağır özellikleri kapatın; Önbellek-TTL artırın; DB indekslerini/bağlantılarını kontrol edin.
DNS/TLS/CDN sorunu: sertifikaları/zinciri doğrulayın; Kaydı güncelle Yedek CDN'ye geç Önbelleği yeniden oluştur.
Güvenlik şüphesi: düğüm izolasyonu, anahtar döndürme, mTLS kalemlerini etkinleştirme, eserleri toplama, Yasal bildirim.
13) Gerginliğin azaltılması ve "çözülmüş" kriterler
Aşağıdaki durumlarda bir olay düşürülür:- Yeşil bölgede SLI/SLO kararlı ≥ N aralıklarla;
- Hafifletici eylemler ve gözlem yapıldı - regresyon olmadan;
- Güvenlik sınıfı için - vektörler kapalı olarak onaylanır, anahtarlar/sırlar döndürülür.
Kapanış - sadece zaman çizelgesi, eylem öğeleri sahipleri ve son tarihler düzeltildikten sonra.
14) Ölüm sonrası (cezalandırıcı olmayan)
Yapısı:1. Gerçekler (zaman çizelgesi, kullanıcıların/metriklerin gördükleri).
2. Kök neden (teknik/süreç).
3. Tırmanışta ne işe yaradı/yaramadı.
4. Önleyici tedbirler (testler, uyarılar, sınırlar, mimari).
5. Son tarihler ve sahipler ile eylem planı.
6. Hata bütçesine bağlantı ve SLO'ları/süreçleri revize edin.
15) Süreç Olgunluk Metrikleri
Kullanıcı şikayetlerinden önce bildirilen olayların yüzdesi.
SEV seviyelerine göre MTTA; İstenilen rolü bağlama zamanı.
Güncelleme aralıklarına uyum (Comm SLA).
Manuel "yaratıcılık" olmadan oyun kitapları tarafından çözülen olayların yüzdesi.
Post-mortemlerden eylem öğelerinin zamanında yürütülmesi.
16) Anti-desenler
"Birisi bir şey yapsın" - IC/roller yok.
Savaş odasındaki polifoni, eylemler yerine versiyonlar üzerine bir tartışmadır.
Geç beyan - insanları toplamak için zaman kaybı.
Dondurma ve serbest bırakma ek açıklamaları yok - eşzamanlı değişiklikler nedeni maskeler.
Dış iletişim eksikliği - artan şikayetler/PR riski.
Ölüm sonrası ve eylemler olmadan kapanış - aynı hataları tekrarlıyoruz.
17) IC Kontrol Listesi (Cep Kartı)
- Bir SEV atayın ve savaş odasını açın.
- TL, CL, Scribe, check on-call mevcut atayın.
- Serbest bırakma-dondurmayı etkinleştir (eğer SEV-1 + ise).
- Gerçeğin kaynaklarını onaylayın: SLI panoları, sentetikler, günlükler, izleme.
- Hızlı hafifletici eylemleri kabul edin (geri alma/bayraklar/yük devretme).
- Planlanmış düzenli güncellemeler sağlayın.
- Çözüm ve kurtarma sonrası izleme için Yakalama Kriterleri.
- Post-mortem başlatın ve eylem öğeleri sahipleri atayın.
18) Günlük işlemlere gömme
Oyun günleri: Temel senaryolarda simülasyonlar.
Playbook kataloğu: versiyonlu, test edilmiş, parametrelerle.
Araçlar: ChatOps komutları "/declare ", "/page ", "/status ", "/rollback".
Entegrasyonlar: biletleme, durum sayfası, post-mortemler, CMDB/servis kataloğu.
SLO/Hata Bütçesi ile anlaşma: otomatik yükseltme tetikleyicileri ve dondurma kuralları.
19) Alt satır
Eskalasyon operasyonel bir disiplindir, sadece görevliye yapılan bir çağrı değildir. IC tarafından atanan net SEV seviyeleri, hazır oyun kitapları, güncelleme zaman kutuları ve SLO metrikleri ve bütçe politikaları ile entegrasyon, kaotik bir yangını öngörülebilir bir sonuçla yönetilebilir bir sürece dönüştürür - hızlı hizmet kurtarma, minimum PR/düzenleyici risk ve her olaydan sonra sistemik iyileştirmeler.