Gerçek zamanlı uyarılar
1) Amaç ve prensipler
Amaç: SLO'yu, geliri ve uyumu tehdit eden olayların doğru kişileri/sistemleri zamanında, doğru ve hedefli bir şekilde bilgilendirmek ve doğru eylemleri tetiklemek (manuel/otomatik).
İlkeler: SLO-ilk, gürültü minimizasyonu, açıklanabilirlik, bağlam, iş etkisine göre önceliklendirme,'tek sinyal - anlaşılabilir bir eylem ".
2) Sinyal taksonomisi
SLO sinyalleri: kritik yollar için hata bütçesinin yanma oranı (giriş, depozito, oran, çıktı).
KRI: Erken risk göstergeleri (banka/GEO tarafından PSP auth-başarı düşüşü, tüketici-gecikme büyümesi, p99↑).
Olay: bağımlılık bayrakları, yük devretme, manuel anahtarlar, koruma aktivasyonu (oran sınırı, WAF).
Güvenlik/Uyumluluk: Hassas Operasyonlarda Artış, PII İhracatı, SoD İhlalleri.
3) Uyarı seviyeleri ve SLA'lar
4) Kaynaklar ve bağlam korelasyonu
Telemetri: metrikler/yollar/günlükler, sentetikler ve RUM.
Dizinler: CMDB/hizmet haritası, sahipler, bağımlılıklar.
Değişiklikler: sürümler, özellik bayrakları, göçler, planlı çalışma.
Harici sağlayıcılar: PSP/KYC/oyun stüdyoları/CDN/WAF durumları.
Her uyarı zenginleştirilir: Bundan sonra ne değişti? (sürüm/özellik), hangi bağımlılıklar kırmızı?, hangi segment etkilenecek? (GEO/PSP/banka/kiracı).
5) SLO uyarı kuralları (çekirdek)
Yanma oranı: iki pencere (hızlı 1h ve yavaş 6-24h). Çağrı cihazı - yalnızca aynı anda aşılırsa.
Korkuluklar: p99/hata oranına göre eşikler yalnızca bağlam analizi tetikleyicileri olarak hizmet eder, SLO'nun yerini almaz.
Impakt: değerlendirme "izleyici payı × para/maden × regulyatorika" - P1-P4 seviyesi.
6) Gürültü azaltma
Veri tekilleştirme - hizmet/kiracı/nedene göre gruplandırma; Düzinelerce sinyal yerine bir olayı paylaşıyoruz.
Histerezis: N-of-M onayları, minimum anomali süresi.
Sessizlikler/Etler: Planlı işler, bilinen olaylar, "güneşi takip eden" pencereler.
Oran sınırları ve kotaları: kaynak/etiket/kiracı başına; "Fırtına'ya karşı koruma.
Kardinalite azaltma: Uyarı etiketlerinde userId/sessionId kullanımı yasaktır.
7) Yönlendirme ve Eskalasyon
Bağlama göre yönlendirme: etki alanı (Ödemeler/Oyunlar/Çekirdek), çevre (prod/stage), bölge, önem derecesi.
Eskalasyon: t0 - çağrı üzerine L1; T0 + X - L2/domain sahibi; T0 + Y - IC/Manuel. X/Y süresi P1-P3 bağlıdır.
Kanallara göre çoğaltma: P1'de çağrı cihazı + sohbet; P3'te sohbet/bilet.
Shift değişimi: Bağlamın otomatik aktarımı (zaman çizelgesi, gerçekleştirilen eylemler, hipotezler).
8) Otomatik iyileştirme
Ödemeler: Sağlık × ücreti × dönüşüm ile PSP değiştirme, bankaların/yöntemlerin kısıtlanması, jitter ile retrai.
Oyunlar/bahisler: Önbellek kama/limit yazma işlemlerini etkinleştirin, ön tarafta kuyruk sayfası/bekleme odası.
Infra: trafiğin boşaltılması, aşağılayıcı işçilerin yeniden başlatılması, gecikmeyle ölçeklendirme.
Güvenlik/uyumluluk: PII ihracatını geçici olarak kapatın, P1 işlemleri için çift kontrole girin.
Herhangi bir otomatik işlem - bir geri alma politikası ve iade kriterleri ile.
9) Runbook-first deneyimi
Her uyarı bir çalışma kitabı ile ilişkilidir: hedef, hızlı tanılama (3-5 kontrol), düzeltme/geri alma adımları, iletişim kişileri, panolara ve durum sayfasına bağlantılar. Sohbet/çağrı cihazında kısa bir eylem kartı gösteriyoruz.
10) He-call siyaset
Rotasyon 24 × 7, etki alanı kapsamı (Ödemeler/Oyun Çekirdeği/SRE).
P1 için "ikinci on-call", var odasında iki kişilik bir kural.
Sessiz saatler ve güneşi takip eden pencereler.
Eğitim: Üç aylık egzersizler (masa üstü/oyun günü), gölge kaymaları.
Tükenmişliği önlemek için olay sonrası krediler (comp-time).
11) Entegrasyonlar
Olay yönetimi: Kartların otomatik oluşturulması, güncelleme bantları, IC/CL rolleri, zamanlayıcılar.
Durum sayfası: Şablonlar ve yerelleştirme ile P1/P2 yayınlama (Comms Lead aracılığıyla).
Sürümler: SLI tarafından serbest bırakma kapıları, uyarıyla otomatik durdurma/geri alma.
Dizinler: sahipler, CMDB, sağlayıcı kişileri.
12) Uyarı örnekleri (iGaming)
1. PSP-1'da otomatik başarı 10 dakikada %25 TR↓
İşlemlerin> %30'u kapsandığında P2 - P1.
Otomatik eylem: trafik PSP-2/3 yeniden dağıtın; Basitleştirilmiş 3DS İş Ortağı Yöneticisi uyarısını etkinleştirin.
2. AB'de p99 "stavka> settl"> 3 × normları
Nedenleri: gecikme replikasyonu, işçi kuyruğu.
Otomatik işlem: ölçeklendirme çalışanları, ısınma önbelleği, kritik olmayan özellikleri geçici olarak kapatın.
3. PII sivri uçlarını dışa aktarma
Bilet/onay yokluğunda P1.
Otomatik işlem: indirme bloğu, Uyumluluk bildirimi, SoD kontrolü.
13) Kalite Metriklerinin Uyarılması (KPI/KRI)
MTTA-Comms/MTTA-Ops: Reaksiyon zamanı/ilk eylem.
Hassas/Geri Çağırma (olay ↔ uyarı), Yanlış Alarm Oranı.
SLO ihlalinden önce teslim süresi, TTD (algılama süresi).
Çağrı cihazı yorgunluğu: uyarılar/kişi/hafta, gece çağrıları, "mankenler" yüzdesi.
Otomatik düzeltme oranı: Bir kişi olmadan otomatik reaksiyonla kapatılan sorunların oranı.
Yaşlanma: Asılı P3/P4> X gün oranı.
14) Maliyet yönetimi
Uyarılar/kaynaklar için kotalar, gereksiz etiketleri kesmek.
Altörnekleme ve metrik toplama, parça örnekleme; sınıfa göre.
Düzenli maliyet incelemesi: $/alert, $/SLI-dashboard,'ağır "serisi.
15) Gizlilik ve uyumluluk
Uyarılar ve etiketler metninde PII olmadan; tanımlayıcıların tokenizasyonu.
Erişim ilkeleri (RBAC/ABAC), uyarı yapılandırmasında SoD.
Denetim kuralı değişiklikleri, sürüm oluşturma, testler ve farklılık.
16) Uygulama Yol Haritası (6-10 hafta)
Ned. 1-2: SLI/KRI dizini, sahip haritası, P1-P4 düzeyleri, ilk SLO kuralları (yazma hızı).
Ned. 3-4: dedup/hysteresis/silences, olay sistemi ve sohbetler, runbook demetleri ile entegrasyon.
Ned. 5-6: Ödemeler/Kuyruklar, serbest bırakma kapıları, durum sayfası beslemesi için otomatik işlemler.
Ned. 7-8: bağlam (bültenler/özellik bayrakları/sağlayıcıları), PSP ısı kartları × banka × GEO, P1/P2 egzersizleri.
Ned. 9-10: FinOps uyarısı, KPI panoları, eşik ve kotaların revizyonu, çağrı üzerine eğitim.
17) Eserler ve desenler
Alert Spec: metrik/durum, pencereler, bastırma, sahibi, çalışma kitabı, otomatik eylemler.
Yönlendirme Haritası: domen ^ kanal ^ eskalatsii, yedek kişiler.
Sessizlik Politikası: Dahil edebilecek sessiz kurallar (planlanan/bilinen olaylar).
Çağrı El Kitabı: rotasyonlar, vardiya değişiklikleri, P1/P2 kontrol listeleri, kanallar.
Olay Sonrası Paket: uyarı yüklemeleri/zaman çizelgeleri, sinyal kalitesi analizi.
18) Antipatterns
SLO olmadan "ham" p95/p99 için çağrı cihazı - gürültü ve yorgunluk.
Aynı şey hakkında düzinelerce sinyal (veri tekilleştirme/korelasyon yok).
Uyarının bir çalışma kitabı veya sahibi yok.
Mevsimsellik/segmentasyon olmadan "taş" eşiği (GEO/PSP/banka/saat).
Otomatik işlemlerden sonra geri dönüş yok (geri alma kriteri yok).
PII ve userId içeren etiketler - riskler ve bir kardinalite patlaması.
Sonuç
Gerçekten kullanışlı bir uyarı, SLO merkezli bir boru hattıdır: yanma oranı, akıllı gürültü azaltma, net yönlendirme ve yükseltme, runbook-first deneyimi ve güvenli otomatik işlemler ile bağlam kuralları. Böyle bir devre kritik olayları kullanıcılardan daha erken yakalar, MTTR'yi azaltır, geliri korur ve aynı zamanda çağrıyı "çağrı-cehennem" rutininden korur.