Yük ve Risk Tahmini
1) Neden ihtiyacınız var
Yük ve risk tahmini, altyapı ve süreçleri zirve etkinlikleri (sürümler, turnuvalar, promosyon kampanyaları, maçlar, tatiller) için önceden hazırlama, kesinti sürelerini ve bütçe aşımlarını en aza indirme olanağı sağlar. Sonuçlar için kullanılır:- Kapasite planlama ve bütçeleme
- SLO/SLI ayarları, hata bütçeleri ve uyarı ilkeleri
- Bir serbest bırakma stratejisi seçmek (kanarya, mavi-yeşil, koyu lansman);
- risk yönetimi: bozulmanın önlenmesi, kuyruklar, bırakma işlemleri, SLA cezaları.
2) Temel kavramlar
Load-Gelen olayların/işlemlerin (RPS, TPS, events/sec) yanı sıra CPU/RAM/IO/NET tüketiminin oranı.
Kapasite-Belirli bir SLO ve maliyette tutarlı bir şekilde ulaşılabilir performans.
Risk: İstenmeyen bir olayın olasılığı × etkisi (SLA hatası, olay, aşırı harcama).
Erken göstergeler: Olaydan önce büyüyen metrikler (gecikme p95/p99, kuyruk derinliği, GC duraklamaları, hata oranı, doygunluk).
Headroom - Mevcut kapasitenin mevcut yüke oranı.
3) Veri kaynakları ve metrikler
Kaynaklar: günlükler ve metrikler (Prometheus/OTel), izler, iş etkinlikleri (Kafka), CDN/WAF/ALB günlükleri, marktech verileri (kampanyalar), etkinlik takvimleri, faturalandırma/kemikler (FinOps), phicheflags/bültenler, kuyruklar (Kafka/Rabbit), DB/önbellekler.
Temel metrikler:- Trafik: RPS/TPS, aktif kullanıcılar (DAU/MAU), oturumlar, adım dönüştürme.
- Performans: gecikme p50/p95/p99, iş hacmi, hatalar (4xx/5xx), zaman aşımları, yeniden denemeler.
- Ресурсы: CPU/LoadAvg, RAM/GC, disk IOps/lat, ağ bw, bağlantı havuzu kullanımı.
- Kuyruklar: backlog, lag, consumer lag, time-in-queue.
- БД: QPS, kilit beklemeleri, yavaş sorgular, çoğaltma gecikmesi.
- Кэши: isabet oranı, tahliye oranı, kısayol tuşları.
- İş seviyesi: dakika başına para yatırma/oranları, ödeme reddetmeleri, KYC/AML kuyruğu.
- Güvenilirlik: SLI/SLO, hata bütçe yakma oranı (1h/6h/24h).
4) Temel tahmin modelleri
1. Deterministik ve takvim: Bilinen sürücülerde gerileme (tarih/saat, maçlar, turnuvalar, pazar havuzları, coğrafi, stok kabartmaları).
2. İstatistiksel: mevsimsellik/eğilim (ARIMA/ETS), tatillerle gerileme, Peygamber benzeri yaklaşımlar.
3. ML/topluluklar: degrade artırma/Rastgele Orman/XGBoost/LightGBM; Özellikler ekleyin: hava durumu, döviz kuru, spor haberleri, rakip etkinlikler.
4. Karışık: eksojen faktörler için temel mevsimsellik + ML istatistikleri (kampanyalar, sürümler).
5. Kotalar/nicelikler: Sadece ortalama değil, aynı zamanda boşluk planlaması için p90/p95 tahmini.
Model çıktıları: T + 1h/T + 24h/T + 7d/T + 30d ufuklarında güven aralıklarıyla RPS/TPS ve gecikme/hata dağılımlarının tahmini.
5) Kuyruklar ve Sınırlar: Mini Teori
Küçük Yasası: L = λ × W (sistemdeki ortalama sayı = yoğunluk × ortalama zaman).
Darboğazlar: DB/önbellek/veri yolu/bağlantı havuzu/API sağlayıcı sınırları.
Doygunluk: yükte> %70-80 gecikme doğrusal olmayan şekilde artar.
Geri basınç: aşırı yüklenmeye karşı tüketici koruması (sınırlar, kuyruklar, dökülen politikalar, özellik bozulması).
6) Kapasite planlaması
SLO yöntemi: gerekli p99 gecikme süresi ve kabul edilebilir hata oranı - hangi işlem hacmi % N boşlukta tutulur.
"Senaryolardan" yöntemi: "Şampiyonlar Ligi maçı", "Kara Cuma", "Büyük ölçekli turnuva" - trafiğin üst nicelikleri + bir AZ/düğümün başarısızlığı.
"Maliyete duyarlı" yöntem: indirimler, rezervasyonlar, spot/abonelikler, otomatik ölçeklendirme dikkate alınarak $/RPS ile yapılandırmaları seçin.
Artifaktlar: Hizmet başına Kapasite Modeli, sınırlar ve kotalar (API, DB, kuyruklar), darboğaz> eylem tablosu (sharding, caching, replica, CQRS, async).
7) Risk yönetimi
Risk kaydı: tanımlama, açıklama, olasılık, etki (finans/SLA/düzenleyici), sahipler, önleme/yanıt planları.
Kategoriler: yük (aşırı yük), altyapı (AZ/bölge başarısız), bağımlılıklar (ödeme sağlayıcıları), serbest bırakma (regresyon), ürün (kampanya beklentilerden daha güçlü yükseldi), uyumluluk (limitler/düzenleyici).
Matris: Isı haritası (Düşük/Orta/Yüksek × Etkisi).
KRI (Anahtar Risk Göstergeleri): kuyruk derinliği, p99 büyümesi, isabet oranı düşüşü, yanma oranı> × 2, sağlayıcı hataları.
8) Erken uyarı ve uyarı
Erken uyarı SLI'leri: p95 büyümesi, önbellek isabetleri azalması, kuyruk gecikme büyümesi, yeniden deneme/zaman aşımı büyümesi, tüketici gecikme artışı.
Bütçe hatalarında yazma oranı uyarıları: hızlı (1 saat) ve yavaş (6-24 saat) pencereler.
Eşik ve anomali tabanlı uyarılar: temel eşikler + anomali modelleri (IQR, STL, akış dedektörleri).
Sinyal toplama: Serbest bırakma/phicheflag/kampanya olaylarının bozulma ile korelasyonu.
9) Senaryo analizi ve'ne-eğer "
"Trafik büyümesi + 10 dakika içinde %60 ise?"
CDN/WAF yasal trafiğin %5'ini keserse?
"Ödeme sağlayıcısı yetkilerin %30'unu kaybederse?"
Her senaryo için: beklenen metrikler, darboğazlar, bozulma adımları (kritik olmayan özellikleri kapatın), manuel/otomatik ölçeklendirme, anahtarlama sağlayıcıları.
10) Tahminlerin test edilmesi ve doğrulanması
Yük testleri: sentetik trafik (k6/JMeter/Locust), gerçek karışım profilleri.
Oyun Günleri/Kaos: AZ'yi devre dışı bırakın, veritabanını bozun, havuzu tüketin.
Gölge/Karanlık: Prod etkilemeden yeni yolun "gölgesine" trafik.
Doğruluk retrospektifi: MAPE/SMAPE/RMSE + ölüm sonrası "nerede yanıldın? ”.
11) Süreçler ve roller
RACI:- Sorumlu: SRE/Platform/DS analistleri.
- Sorumlu: Ops/SRE Başkanı.
- Danışmanlık: Dev Leads, Pazarlama, Finans (FinOps).
- Bilgilendirildi: Destek/Uyumluluk/İş.
- Cadence: haftalık tahmin güncellemeleri, aylık SLO/Kapasite revizyonları, etkinlik öncesi var odaları.
12) Araçlar ve yığın
Veri: Kafka, ClickHouse/BigQuery, Lake/DWH, dbt.
İzleme: Prometheus, Grafana, Tempo/Jaeger, Loki/ELK, OTel.
ML/Tahminler: Hava akışı/Argo, özellik deposu, ARIMA/ETS/GBM modelleri, tahmin hizmeti (gRPC/REST).
Тесты: k6/JMeter/Locust, Arıza-enjeksiyon/Kaos Mesh.
Yönetim: Özellik Bayrakları, Otomatik Ölçeklendirme (HPA/KEDA), Kod Olarak Politika.
FinOps: maliyet gezgini, showback/ters ibraz, $/RPS gösterge tabloları.
13) Uygulama Uygulaması (yol haritası)
1. Metriklerin ve bağımlılıkların envanteri - kritik yol haritası (depozito, oran, çıktı).
2. SLO/SLI ve hata bütçeleri - hedef p95/p99, hata oranları, uyarı yazma.
3. Veri toplama ve temizleme - tek olay/metrik katman, veri tekilleştirme, gecikme.
4. Temel mevsimsellik tahmini - gün/hafta kalıpları, tatiller/maçlar.
5. Sürücüler tarafından genişleme - pazar kampanyaları, sürümler, coğrafi, ödeme pencereleri.
6. Hizmetlere göre kapasite modelleri - boşluk, sınırlar, darboğazlar, optimizasyon planı.
7. Senaryo "what-if've bozunma tablosu (kill-switch, salt okunur, grace).
8. Testler/gölgeler aracılığıyla doğrulama - modellerin ve eşiklerin ayarlanması.
9. Çalışma rutini - haftalık tahminler, etkinlik öncesi incelemeler, etkinlik sonrası retro.
10. Otomasyon - tahminlere göre otomatik ölçek, sağlayıcıların otomatik değişimi, otomatik phicheflags.
14) Antipatterns
P95/p99 kuyrukları olmadan "sadece orta" tahmin.
Kuyrukları ve havuzları görmezden gelmek - sorunlar zirvede ortaya çıkıyor.
Doğrulama ve doğruluk metrikleri olmadan gözle manuel.
Hiçbir bağlantı yok - aşırı ölçekleme maliyetleri.
Bozulma planı ve phicheflags eksikliği.
15) Gösterge panoları ve raporlama
Exec-dashboard: RPS/TPS tahmini (p50/p90/p95), boşluk, risk kartı, yanma oranı.
Tech-dashboard: Servisler tarafından p95/p99 gecikme, kuyruklar/gecikme, isabet oranı, bağlantı havuzu, veritabanı/önbellek, harici API sınırları.
Finansal: $/RPS, maliyet tahmini, optimizasyon etkisi.
Tahmin doğruluğu: gerçek vs tahmin, dönem/geo/kanal hatası.
16) Eser desenleri
Risk Kaydı: Kimlik, risk, olasılık/etki, sahip, KRI, önleme planı, reaksiyon planı.
Kapasite Sayfası: servis, mevcut verim, limit, darboğaz, boşluk, gerekli genişletme, ETA/maliyet.
What-If Kartları: senaryo, giriş faktörleri, beklenen metrikler, eylemler, tamamlama kriterleri.
Playbook Degrade: devre dışı bırakılacak özelliklerin listesi, QoS seviyeleri, önbellek/statik yollar, yeniden deneme/zaman aşımı sınırları.
17) Anahtar KPI işlevleri
SLO uygulaması (hedefteki dönemlerin yüzdesi), erken göstergelere yanıt süresi, tahmin doğruluğu (MAPE/SMAPE), aşırı yüklenme nedeniyle olay sayısı, otomatik ölçeklendirme payı, SLO bozulması olmadan $/RPS tasarrufu.
Toplam
Yük ve risklerin sistem öngörüsü bir pakettir: kaliteli veriler - anlamlı metrikler - test edilebilir modeller - senaryolar ve oyun kitapları - ölçeklendirme ve bozulma otomasyonu. Bu kontur, aşırı zirvelerde bile istikrar, maliyetlerin öngörülebilirliği ve istikrarlı bir kullanıcı deneyimi sağlar.