Operasyonlar ve Yönetim Olay Tahmin
Olayları tahmin etmek
1) Neden ihtiyacınız var
Olaylar nadiren "aniden patlar". Başarısızlıktan önce, platform sinyaller verir: p99'un hızlandırılmış büyümesi, hata bütçesinin yavaş yavaş tükenmesi, kuyruk gecikmeleri, belirli bir aşağı akışta geri dönüşlerin büyümesi, sağlayıcı kotalarına yaklaşma. Sistemik olay tahmini, yanıtı "yangın söndürme'dan" erken müdahale'ye çevirerek MTTR, Değişim Başarısızlık Oranı ve gelir kayıplarını azaltır.
Hedefler:- Öncü modelleri tanımlayın ve otomatik olarak önleyici eylemler başlatın.
- Sola kayarak P1/P2 payını azaltın (olay öncesi tespit oranı).
- Bültenler, feilover ve kapasite önkoşulları süreçlerine tahminler oluşturun.
2) Kurşun göstergeleri
Platform/infra:- Hızlanma p95/p99 (gradyan), gecikmelerin "kuyrukları", varyasyonda artış.
- Kuyruklar/akışlar: büyüme 'gecikmesi've pozitif türev gecikmesi; HPA maksimumda.
- DB/cache: 'active _ conns/max _ conns', 'replication _ lag', 'evictions', drop 'cache _ hit'.
- Ağ: mTLS/el sıkışma hataları, 5xx/timeout dışa doğru büyüme.
- 'outbound _ error _ rate'/' retry _ rate' belirli bir sağlayıcıya, 'circuit _ open', 'kota _ kullanımı> 0. 9`.
- SLA sağlayıcısı: planlı pencereler, bozulma.
- Anormal yük (kampanyalar/eşleşmeler), RPS/TPS sıçramaları, sıra dışı bölgesel/kanal karışımları.
- Mevduat/oran dönüşüm p99 büyüme ile düşer - yarı-proxy olay.
- Hata oranı-bütçe> eşik değeri (örneğin, 10-15 dakika için> 4 ×).
- Yaklaşan başarısızlığın bir işareti olarak SLO'nun (mikro-bozulma) sık sık küçük ihlalleri.
3) Veri kaynakları ve veri martları
Çevrimiçi teleemetri: Prometheus/OTel (metrikler, günlükler, izler).
Olay olayları: Biletler/statüler/postmortemler (hedef için geçerlidir).
Planı/gerçekleri değiştirme: sürümler, phicheflags, göçler, sağlayıcı pencereleri.
Dizinler: bağımlılık haritası, kotalar, sahipler.
DWH-anlık görüntüleri: eğitim/doğrulama için birimler (eşzamanlı pencere!).
Kalite gereksinimleri: % ≥99 bütünlük, saat/dakika TZ hizalama, tekdüze p95/p99 tanımları.
4) Tahmin yaklaşımları
4. 1 Parametrik olmayan/kurallar (hızlı başlangıç)
Değişiklik oranı için eşik uyarıları: 'Deriv (p99)', kısa pencereler için'z-skoru '.
Bileşik koşullar: 'lag↑ + HPA = max + circuit_open (to = "PSP-X")'.
SLO-yanık kapıları: yakma hızında serbest bırakma/kanarya durdurma> X.
4. 2 Anomali tespiti
Mevsimsel taban çizgileri (STL/Peygamber benzeri fikirler), medyan + MAD yuvarlanması.
Çok değişkenli: eklem anomalisi 'p99 + retry + open_circuit + kota'.
Değişim noktası algılama: Trend değişimleri için CUSUM/BOCPD.
4. 3 ML-modelleri (denetimli)
Sınıflandırma "T + K'daki olay?" Özellik penceresine göre (örneğin, 10-30 dakika önce).
Özellikler: istatistikler, türevler, mevsimsel artıklar, tek sıcak sağlayıcılar/bölgeler, serbest bayraklar.
Etiketler: 'incident{severity∈[P1,P2]}' [t, t + K] aralığında.
Açıklanabilirlik: Güven ve çalışabilirlik için SHAP/Permutasyon önemi.
4. 4 SRE-first hibrit
Model - puanlama riski (0-1) - eylem politikası (phicheflags/feilover/pre-scale), eleştiri için HITL ile.
5) Özellik mühendisliği
Sürgülü pencereler (1/5/15 dk): ortalama, p95/p99, std, max, eğim.
Göreceli göstergeler: 'p99/baseline _ 1d', 'error _ rate _ delta'.
Kohort özellikleri: sağlayıcı, bölge, oyun/maç türü, cihaz kanalı.
"Yük" özellikleri: RPS, yük boyutu, açılan WS sayısı.
Sistem: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
Etkinlik bayrakları: "release in progress", "canary 10 %", "provider window".
6) Tahmin mekaniği ve eylemleri
Karar zinciri:1. Etki alanına göre her N saniyede bir puanlama riski (Ödemeler/Bahisler/Oyunlar/KYC).
2. Uyarı politikası:- Risk ≥ 0. 8 + onay sinyalleri - alan adı sahibi sayfası;
- 0. 6–0. 8 - uyarı + önlemlerin hazırlanması.
- Ön tarama (HPA minReplicas↑), önbellekleri etkinleştirme, ağır işlevleri sınırlama;
- Yedekleme sağlayıcısına/rotasına geçiş
- Kanaryaları duraklat/geri al;
- "Dar" aşağı akışa geri ödeme sınırı.
4. HITL: Bir kişi "iş davranışındaki değişim" düzeyindeki önlemleri onaylar.
7) Günlük süreçlere entegrasyon
Bültenler: kanaryalar üzerindeki tahmini kapılar (karşılaştırmadan önce/sonra ve risk puanlaması).
Feilover: Sağlayıcı riski altında yedekleme yolunun otomatik olarak hazırlanması/ısıtılması.
Kapasite: Headroom düşen ve gecikmeler yükselen "erken yükselme".
Uyarılar: ayrı besleme "olay öncesi" + panolarda ek açıklamalar.
8) Gözlemlenebilirlik ve gösterge panoları
Riske Genel Bakış: etki alanına ve sağlayıcıya göre risk, eğilimler, özellik katkısı.
Kurşun Sinyalleri: Üst-N habercileri (p99 gradyan, gecikme, açık kırıcılar).
Eylemler ve Sonuçlar: ne açık, p95/hata etkisi, iptal edilen olaylar.
Model Sağlığı: hassasiyet/hatırlama/gecikme, işaretlerin sürüklenmesi, otomatik eylemlerin sıklığı.
9) Tahmin kalitesi metrikleri
Geri çağırma @ P1/P2 (kritik olay duyarlılığı).
Hassasiyet (daha az "yanlış sayfa").
Kurşun Süresi (medyan "gerçeklerden kaç dakika önce").
Müdahale Kazanma oranı (eylemin riski/maliyeti azalttığı vakaların oranı).
Uyarı Yorgunluk İndeksi (uyarı/vardiya/kişi).
Drift Puanı (stat. Eğitim dönemine karşı özelliklerin dağılımındaki farklılıklar).
Varsayılan hedefler Geri Çağırma (P1) ≥ 0'dır. 7, Hassas ≥ 0. 6, Kurşun Süresi medyan ≥ 8-10 dk.
10) Model Risk Yönetimi (ML Ops/Yönetişim)
Veri/kod/artifact sürüm oluşturma, tekrarlanabilirlik.
Şampiyon/Challenger: Yeni model paralel, çevrimdışı/çevrimiçi karşılaştırmada çalışır.
Sürüklenme: PSI/KL-ıraksama, eşiklerin otomatik numaralandırılması, "modelin modası geçmiş" uyarısı.
Açıklanabilirlik: Her çözüm için, özelliklerin önemini ve verilere bağlantıyı saklayın.
Güvenlik/etik: erişim, PII maskeleme, politikacıların otomatik eylemlerinin kontrolü.
11) Örnek kurallar ve politikalar
SLO-yanık ve kanarya (kavram):
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
Sağlayıcı bileşik riski:
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
Akışta gecikme fırtınası:
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12) Uygulama kontrol listesi (30-60 gün)
- Olaylara göre sinyallerin ve "gerçeklerin" kataloğu (şiddet, zaman çizelgeleri).
- Temel metrikler için temel ve mevsimsellik (yayın öncesi/sonrası).
- Erken sinyal kuralları (p99, lag, burn-rate degradeler).
- Risk/Kurşun Sinyalleri/Eylemler panoları.
- Phicheflags/kanaryalar ile entegrasyon, ön ölçekli HPA.
- Aynı etki alanındaki ML sınıflandırıcı pilotu (örn. Ödemeler).
- HITL Politikaları ve Otomatik Etkinlik Günlüğü.
- Model kayması/sağlığı için kalite metrikleri ve uyarıları.
13) Anti-desenler
"Kristal toplar": taban çizgileri ve basit kuralları olmayan karmaşık bir ML modeli.
Harekete geçirilebilirlik yok: "Kötü" tahmin ediyoruz, ancak otomatik olarak hiçbir şey yapmıyoruz.
Mevsimselliği/etkinlik takvimini (maçlar/turnuvalar) görmezden gelmek - yanlış alarmlar.
Zaman dilimlerini karıştırma - yanlış metrikler/olay pencereleri.
Açıklanabilirlik eksikliği - güvensizlik, tahminciyi komutlarla devre dışı bırakma.
Tüm etki alanları/bölgeler için tek bir küresel eşik - düşük doğruluk.
14) Etki alanı özgüllüğü (iGaming)
Ödemeler: sağlayıcılar/kotalar, büyüme 'retry _ rate've' circuit _ open '- erken sahte.
Bahisler: katsayıların güncellenmesinde gecikme, WS fan çıkışı büyümesi - yayın limiti.
Oyunlar/Canlı: bağlantı sivri uçları, stüdyo sınırları - UI bozulması/önbellekler.
KYC/AML: webhook gecikmeleri, doğrulama kuyrukları - HITL ve ertelenmiş işleme.
15) Metrik ve uyarı örnekleri (fikirler)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16) Tahmin Programı KPI
Olay öncesi tespit oranı.
Avg Kurşun Zamanı olaydan önce.
P1/P2 QoQ'da azalma
MTTR (erken bağlam nedeniyle beklenen ↓).
Yanlış Alarm Hızı/Uyarı Yorgunluğu (kararlı ↓).
Maliyet Kaçınma.
17) Hızlı başlangıç (tarif)
1. P99/lag ve SLO-burn üzerinde degrade kurallarını etkinleştir;
2. Sağlayıcılar için kompozit koşullar ekleyin;
3. Yüklemi phicheflags ve ön ölçeğe bağlayın;
4. Tahmin - eylem - etki raporu;
5. Bir alanda ML pilotu; Hassas/Geri Çağırma büyüdükten sonra ölçek.
18) SSS
S: ML olmadan nereden başlamalı?
A: Mevsimsel taban çizgileri + degradeler + bileşik kurallar. Bu, geri çağırmada komplikasyon olmadan gözle görülür bir artış sağlar.
S: Halk pozitiflerinde boğulmamak nasıl?
C: Sinyalleri birleştirin, histerezis ve onay süresi girin, alan başına/bölge eşiklerini ayarlayın, Hassas ve Uyarı Yorgunluğunu değerlendirin.
S: Önce hangi eylemler otomatikleştirilecek?
C: Güvenli ve geri dönüşümlü: Ön ölçeklendirme, önbellek/bozulma, duraklatma/geri alma kanaryaları etkinleştirme, onaylanmış sinyallerde sağlayıcı değiştirme.