Model izleme
1) Neden
Amaç, modelin satıştaki çözümlerinin kalitesini ve güvenliğini SLA/SLO, RG/AML/Legal ve bütçelere uygun olarak sürdürmektir. İzleme, erken bozulmayı (veri, kalibrasyon, gecikme, maliyet) tespit etmeli, beklenen hata maliyetini en aza indirmeli ve tekrarlanabilirlik/denetim sağlamalıdır.
2) İzleme alanları (harita)
1. Kullanılabilirlik ve performans: gecikme süresi p95/p99, hata oranı, RPS, otomatik ölçeklendirme.
2. Tahmin kalitesi: PR-AUC/KS (çevrimiçi etiketlerde), kalibrasyon (ECE), beklenen maliyet @ eşik.
3. Sürüklenme ve kararlılık: Özelliklere ve hıza göre PSI/KL, dağılımların/kategorilerin değişimi.
4. Kapsam ve bütünlük: başarıyla sunulan isteklerin payı, "boş" özelliklerin payı, isabet oranı önbellekleri.
5. Dilim/Adalet: pazar/sağlayıcı/cihaz/hesap yaşına göre metrikler.
6. Korkuluklar (RG/AML): politika ihlalleri, müdahale sıklıkları, yanlış pozitifler/negatifler.
7. Maliyet: Maliyet/istek, maliyet/özellik, GPU/CPU-saat, küçük dosyalar/IO (toplu iş/RT'ye yakın).
8. Veri/sözleşmeler: özellik şeması, sürümler, çevrimiçi/çevrimdışı eşdeğerlik.
3) SLI/SLO (iGaming için simge yapılar)
Gecikme süresi p95: 150 ms ≤ kişiselleştirme, e2e ile RG/AML uyarıları ≤ 5.
Kullanılabilirlik: ≥ 99. 9%.
Hata oranı 5xx: ≤ 0. 5 dakikalık pencerede %5.
Kapsam: Taleplerin ≥ %99'u geçerli bir hız ve çözüm aldı.
Çevrimiçi değerlendirme için etiketlerin tazeliği: D + 1 (günlük), hızlı proxy'ler için - ≤ 1 saat.
Drift PSI: Özellik/Oran <0. 2 (uyarı с 0. 1).
ECE kalibrasyonu: ≤ 0. 05.
Expected-cost_live: temel modelden daha yüksek değil + % X (X hedefi işletme tarafından seçilir).
4) Sinyaller ve formüller
4. 1 Drift
PSI: Dağılımlardaki farkı bin ile özetleyin (tren vs prod).
KL-diverjans:'ince "kuyruklara duyarlı; Temel özellikler/hız için monitör.
Oranlar için KS (etiketler varsa): Pozitif/negatif için CDF farkı.
4. 2 Kalibrasyon
4. 3 Beklenen Maliyet
Çalışma eşiğinde en aza indirin (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); Gecikmeli etiketlerle kayan bir pencerede çevrimiçi sayım.
5) Etiket kaynakları
Çevrimiçi etiketler (hızlı proxy'ler): 7 günlük depozito etkinliği, tıklama/dönüşüm, tamamlanmış RG durumu.
Gecikmeli etiketler: ters ibraz/dolandırıcılık (45-90 gün), uzun vadeli çalkalama/LTV.
Kurallar: zaman olarak tutmak; "Gelecekten gelen" olayları kullanmayın.
6) Gösterge panoları (minimum kompozisyon)
1. Çalışma: RPS, p50/p95/p99 gecikme, 4xx/5xx, doygunluk, otomatik ölçekleme.
2. Kalite: skor-dağıtım, PR-AUC (proxy etiketlerinde), ECE, beklenen maliyet, KS.
3. Sürüklenme: En iyi özelliklere göre PSI/KL, yenilik kategorileri, eksik oran, özellik getirme gecikmesi.
4. Dilim/Adalet: PR-AUC/ECE/pazar/sağlayıcı/cihaz tarafından beklenen maliyet.
5. Korkuluklar: RG/AML ihlalleri, müdahaleler/1k istekleri, yanlış durma oranı.
6. Maliyet: Maliyet/istek, CPU/GPU zamanı, önbellek isabet oranı, harici aramalar.
7) Uyarı (örnek kurallar)
HighP95Latency: p95> 150 ms (5 dk) - sayfa SRE/MLOps.
ErrorBurst: 5xx> 0. 5 % (5 dakika) - geri alma komut dosyası mevcuttur.
PSI_Drift: PSI (amount_base)> 0. 2 (15 dk) - Isınma eğitimi.
ECE_Bad: ECE> 0. 07 (30 dk) - kalibrasyon/eşikleri yeniden oluşturun.
ExpectedCost_Up: Kıyaslama için + % X (1 gün) - geri alma/aşırı yükleme düşünün.
Slice_Failure: R pazarındaki PR-AUC düştü> Y % (1 gün) - bilet alanının sahibi.
Guardrails_Breach: agresif tekliflerin payı> kapak> anında kill-switch.
8) Günlüğe kaydetme ve izleme
Sorgu günlükleri (minimum): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (eksik %, aşırı uçlar), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimation', (isteğe bağlı) açıklamalar (SHAP top-k)
OTel- трейсы: спаны 'feature _ fetch' - 'preprocess' - 'score' - 'postprocess' - 'guardirail'.
PII: yalnızca takma adlar/belirteçler; Politika maskeleme, anahtar ikametgahı.
9) Online kalite değerlendirmesi
Hızlı etiketlerle PR-AUC/KS için sürgülü pencereler (saat/gün).
Tutulan etiketler: D + 7/D + 30/D + 90 geriye dönük raporlar, beklenen maliyet ayarlamaları.
Kalibrasyon: D + 1'de izotonik/Platt yeniden değerlendirme, otomatik yenileme artefaktı.
10) Karar eşiği ve politika
Eşiği kayıtta bir yapılandırma olarak tutuyoruz; Çevrimiçi olarak beklenen maliyeti göz önünde bulundurur ve izin verilen aralıkta ayarlarız (oran sınırlı).
Güvenlik kapakları: eylemlerin üst/alt sınırları; Uyumluluk için manuel geçersiz kılma.
Geri test eşikleri: dünün verileri üzerinde gece simülasyonu.
11) Dilim ve Adalet
Segmentler: pazar/yargı, sağlayıcı, cihaz/ASN, hesap yaşı, mevduat gücü.
Metrikler: PR-AUC, ECE, beklenen maliyet, FPR/TPR farklılıkları (eşitlenmiş oranlar), farklı etki.
Eylemler: dilimler için kalibrasyon/eşik, ölçeklerle yeniden eğitim, özelliğin revizyonu.
12) Çevrimiçi/çevrimdışı eşdeğerlik
Eşitlik testi özelliği: Kontrol numunesinde MAE/MAPE; ayrılırken uyarı> eşik.
Sürüm oluşturma: 'feature _ spec _ version', 'logic _ version'; WORM arşivi.
Devre sözleşmeleri: Çift giriş (v1/v2) olmadan kırılma değişimine izin verilmez.
13) Korkuluklar (RG/AML)
Filtre öncesi/sonrası eylemler, frekans sınırları, bekleme süresi, yasaklama listeleri.
Логи 'policy _ id/propensity/mask/decision'; İhlalleri bildirin.
Görüşme süresi ve yanlış müdahale oranı metrikleri.
14) Olaylar ve runbook
Senaryolar ve adımlar:1. Latency↑/5xx↑: harici özellik sağlayıcılarını kontrol edin - önbellek/zaman aşımlarını etkinleştirin - ölçeklendirin - gerekirse geri alma.
2. PSI/ECE/Beklenen maliyet kötüleşti: Trafiği dondurun (canary↓), geri dönüş eşiklerini/modelini etkinleştirin, yeniden eğitin.
3. Dilim hatası: geçici dilime özgü eşik, alan sahibine bilet.
4. Korkuluk ihlali: kill-switch, vaka denetimi, deniz sonrası.
15) Maliyet ve performans
Profilleme: Özellik getirmede zamanın kesiri vs skor vs IO.
Önbellek stratejileri: TTL/tahliye, RAM'de sıcak özellikler, soğuk olanlar - tembel.
Model niceleme/optimizasyon: Kaliteyi korurken FP16/INT8.
Ters ibraz: maliyet/talep, takıma/pazara göre maliyet/özellik.
16) Örnekler (parçalar)
Beklenen maliyet eşiği (pseudocode):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (metrik fikirler):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Uyarı (fikir):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Süreçler ve RACI
R (Sorumlu): MLOps (gözlemlenebilirlik/uyarılar/kayıt defteri), Veri Bilimi (kalite metrikleri/kalibrasyon/eşik), Veri Müh (özellikler/sözleşmeler/eşdeğerlik).
A (Sorumlu): Veri/CDO Başkanı.
C (Consulted): Uyumluluk/DPO (PII/RG/AML/DSAR), Güvenlik (KMS/Denetim), SRE (SLO/Olaylar), Finans (Maliyet).
I (Bilgilendirilmiş): Ürün/Pazarlama/Operasyon/Destek.
18) Yol haritası
MVP (2-4 hafta):1. Temel SLI/SLO (gecikme/5xx/kapsama) + gösterge tablosu.
2. En iyi 10 özellik ve puan dağılımı için PSI; ECE ve proxy etiketlerinde beklenen maliyet.
3. Karar günlükleri + OTel izleri; Çevrimiçi/çevrimdışı eşdeğerlik testi.
4. Uyarılar HighP95Latency/PSI_Drift/ECE_Bad + runbook've.
Faz 2 (4-8 hafta):- Dilim/adalet panelleri, gecikmeli etiketlerde gece geri doldurma metrikleri.
- Otomatik yeniden kalibrasyon ve eşik simülatörü.
- Maliyet panosu ve kotalar/özellikler/tekrarlar sınırları.
- Kanarya kontrolü ile otomatik serbest bırakma/yeniden eğitim sürüklenme.
- WORM kalite raporları ve eserler arşivi.
- Kaos izleme testleri ve DR egzersizleri.
19) Teslimat kontrol listesi
- SLI/SLO kabul etti ve 24 saat ≥ gölge/kanarya izlenir.
- PSI/KL, ECE, beklenen maliyet ve PR-AUC çevrimiçi olarak kabul edilir; eşikler ve uyarılar belirtilmiştir.
- Dilim/adalet panelleri etkinleştirildi; segment sahipleri atanır.
- Kayıtlar/yollar tamamlandı (kararlar, eşikler, maskeler), PII maskeleme ve ikamet bir araya geldi.
- Eşdeğerlik testi çevrimiçi/çevrimdışı yeşil; Sözleşme kapsamındaki özellik diyagramları.
- Runbook've tek tıklamayla geri alma testi; Korkuluklar для kill-switch.
- Maliyet bütçelere uyar; Önbellek/kotalar/limitler etkindir.
- WORM metrik/artifacts ve kalite raporları arşivi kaydedilir.
20) Anti-kalıplar ve riskler
Online etiket eksikliği ve geriye dönük değerlendirme.
ROC-AUC sadece beklenen maliyet ve kalibrasyon olmadan izleme.
Dilim/adilliği görmezden gelin - bölgelerdeki/cihazlardaki gizli arızalar.
Çevrimiçi/çevrimdışı eşdeğerlik özelliği yoktur - "çift gerçeklik".
Sıfır korkuluklar: Toksik teklifler, RG/AML ihlalleri.
Geri alma/DR planları yok, WORM arşivi yok.
21) Alt satır
Model izleme, "haftada bir kez bakmak" yerine erken uyarı ve risk/maliyet yönetim sistemidir. "SLO girin, sürüklenme/kalibrasyon/beklenen maliyeti ölçün, dilimleri ve korkulukları izleyin, geri alma/kill-switch düğmelerini tutun, raporları otomatikleştirin ve yeniden başlatın. Böylece modeller yararlı, etik ve herhangi bir veri ve trafik türbülansıyla uyumlu kalacaktır.