Model izleme

1) Neden

Amaç, modelin satıştaki çözümlerinin kalitesini ve güvenliğini SLA/SLO, RG/AML/Legal ve bütçelere uygun olarak sürdürmektir. İzleme, erken bozulmayı (veri, kalibrasyon, gecikme, maliyet) tespit etmeli, beklenen hata maliyetini en aza indirmeli ve tekrarlanabilirlik/denetim sağlamalıdır.

2) İzleme alanları (harita)

1. Kullanılabilirlik ve performans: gecikme süresi p95/p99, hata oranı, RPS, otomatik ölçeklendirme.
2. Tahmin kalitesi: PR-AUC/KS (çevrimiçi etiketlerde), kalibrasyon (ECE), beklenen maliyet @ eşik.
3. Sürüklenme ve kararlılık: Özelliklere ve hıza göre PSI/KL, dağılımların/kategorilerin değişimi.
4. Kapsam ve bütünlük: başarıyla sunulan isteklerin payı, "boş" özelliklerin payı, isabet oranı önbellekleri.
5. Dilim/Adalet: pazar/sağlayıcı/cihaz/hesap yaşına göre metrikler.
6. Korkuluklar (RG/AML): politika ihlalleri, müdahale sıklıkları, yanlış pozitifler/negatifler.
7. Maliyet: Maliyet/istek, maliyet/özellik, GPU/CPU-saat, küçük dosyalar/IO (toplu iş/RT'ye yakın).
8. Veri/sözleşmeler: özellik şeması, sürümler, çevrimiçi/çevrimdışı eşdeğerlik.

3) SLI/SLO (iGaming için simge yapılar)

Gecikme süresi p95: 150 ms ≤ kişiselleştirme, e2e ile RG/AML uyarıları ≤ 5.
Kullanılabilirlik: ≥ 99. 9%.
Hata oranı 5xx: ≤ 0. 5 dakikalık pencerede %5.
Kapsam: Taleplerin ≥ %99'u geçerli bir hız ve çözüm aldı.
Çevrimiçi değerlendirme için etiketlerin tazeliği: D + 1 (günlük), hızlı proxy'ler için - ≤ 1 saat.
Drift PSI: Özellik/Oran <0. 2 (uyarı с 0. 1).
ECE kalibrasyonu: ≤ 0. 05.
Expected-cost_live: temel modelden daha yüksek değil + % X (X hedefi işletme tarafından seçilir).

4) Sinyaller ve formüller

4. 1 Drift

PSI: Dağılımlardaki farkı bin ile özetleyin (tren vs prod).
KL-diverjans:'ince "kuyruklara duyarlı; Temel özellikler/hız için monitör.
Oranlar için KS (etiketler varsa): Pozitif/negatif için CDF farkı.

4. 2 Kalibrasyon

ECE (Beklenen Kalibrasyon Hatası):	Predicted-prob − ampirik oran	sepetlerde.
Güvenilirlik eğrisi: doğruluk grafiği ve olasılık.

4. 3 Beklenen Maliyet

Çalışma eşiğinde en aza indirin (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); Gecikmeli etiketlerle kayan bir pencerede çevrimiçi sayım.

5) Etiket kaynakları

Çevrimiçi etiketler (hızlı proxy'ler): 7 günlük depozito etkinliği, tıklama/dönüşüm, tamamlanmış RG durumu.
Gecikmeli etiketler: ters ibraz/dolandırıcılık (45-90 gün), uzun vadeli çalkalama/LTV.
Kurallar: zaman olarak tutmak; "Gelecekten gelen" olayları kullanmayın.

6) Gösterge panoları (minimum kompozisyon)

1. Çalışma: RPS, p50/p95/p99 gecikme, 4xx/5xx, doygunluk, otomatik ölçekleme.
2. Kalite: skor-dağıtım, PR-AUC (proxy etiketlerinde), ECE, beklenen maliyet, KS.
3. Sürüklenme: En iyi özelliklere göre PSI/KL, yenilik kategorileri, eksik oran, özellik getirme gecikmesi.
4. Dilim/Adalet: PR-AUC/ECE/pazar/sağlayıcı/cihaz tarafından beklenen maliyet.
5. Korkuluklar: RG/AML ihlalleri, müdahaleler/1k istekleri, yanlış durma oranı.
6. Maliyet: Maliyet/istek, CPU/GPU zamanı, önbellek isabet oranı, harici aramalar.

7) Uyarı (örnek kurallar)

HighP95Latency: p95> 150 ms (5 dk) - sayfa SRE/MLOps.
ErrorBurst: 5xx> 0. 5 % (5 dakika) - geri alma komut dosyası mevcuttur.
PSI_Drift: PSI (amount_base)> 0. 2 (15 dk) - Isınma eğitimi.
ECE_Bad: ECE> 0. 07 (30 dk) - kalibrasyon/eşikleri yeniden oluşturun.
ExpectedCost_Up: Kıyaslama için + % X (1 gün) - geri alma/aşırı yükleme düşünün.
Slice_Failure: R pazarındaki PR-AUC düştü> Y % (1 gün) - bilet alanının sahibi.
Guardrails_Breach: agresif tekliflerin payı> kapak> anında kill-switch.

8) Günlüğe kaydetme ve izleme

Sorgu günlükleri (minimum): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (eksik %, aşırı uçlar), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimation', (isteğe bağlı) açıklamalar (SHAP top-k)

OTel- трейсы: спаны 'feature _ fetch' - 'preprocess' - 'score' - 'postprocess' - 'guardirail'.
PII: yalnızca takma adlar/belirteçler; Politika maskeleme, anahtar ikametgahı.

9) Online kalite değerlendirmesi

Hızlı etiketlerle PR-AUC/KS için sürgülü pencereler (saat/gün).
Tutulan etiketler: D + 7/D + 30/D + 90 geriye dönük raporlar, beklenen maliyet ayarlamaları.
Kalibrasyon: D + 1'de izotonik/Platt yeniden değerlendirme, otomatik yenileme artefaktı.

10) Karar eşiği ve politika

Eşiği kayıtta bir yapılandırma olarak tutuyoruz; Çevrimiçi olarak beklenen maliyeti göz önünde bulundurur ve izin verilen aralıkta ayarlarız (oran sınırlı).
Güvenlik kapakları: eylemlerin üst/alt sınırları; Uyumluluk için manuel geçersiz kılma.
Geri test eşikleri: dünün verileri üzerinde gece simülasyonu.

11) Dilim ve Adalet

Segmentler: pazar/yargı, sağlayıcı, cihaz/ASN, hesap yaşı, mevduat gücü.
Metrikler: PR-AUC, ECE, beklenen maliyet, FPR/TPR farklılıkları (eşitlenmiş oranlar), farklı etki.
Eylemler: dilimler için kalibrasyon/eşik, ölçeklerle yeniden eğitim, özelliğin revizyonu.

12) Çevrimiçi/çevrimdışı eşdeğerlik

Eşitlik testi özelliği: Kontrol numunesinde MAE/MAPE; ayrılırken uyarı> eşik.
Sürüm oluşturma: 'feature _ spec _ version', 'logic _ version'; WORM arşivi.
Devre sözleşmeleri: Çift giriş (v1/v2) olmadan kırılma değişimine izin verilmez.

13) Korkuluklar (RG/AML)

Filtre öncesi/sonrası eylemler, frekans sınırları, bekleme süresi, yasaklama listeleri.
Логи 'policy _ id/propensity/mask/decision'; İhlalleri bildirin.
Görüşme süresi ve yanlış müdahale oranı metrikleri.

14) Olaylar ve runbook

Senaryolar ve adımlar:

1. Latency↑/5xx↑: harici özellik sağlayıcılarını kontrol edin - önbellek/zaman aşımlarını etkinleştirin - ölçeklendirin - gerekirse geri alma.

2. PSI/ECE/Beklenen maliyet kötüleşti: Trafiği dondurun (canary↓), geri dönüş eşiklerini/modelini etkinleştirin, yeniden eğitin.

3. Dilim hatası: geçici dilime özgü eşik, alan sahibine bilet.

4. Korkuluk ihlali: kill-switch, vaka denetimi, deniz sonrası.

15) Maliyet ve performans

Profilleme: Özellik getirmede zamanın kesiri vs skor vs IO.
Önbellek stratejileri: TTL/tahliye, RAM'de sıcak özellikler, soğuk olanlar - tembel.
Model niceleme/optimizasyon: Kaliteyi korurken FP16/INT8.
Ters ibraz: maliyet/talep, takıma/pazara göre maliyet/özellik.

16) Örnekler (parçalar)

Beklenen maliyet eşiği (pseudocode):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus (metrik fikirler):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Uyarı (fikir):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) Süreçler ve RACI

R (Sorumlu): MLOps (gözlemlenebilirlik/uyarılar/kayıt defteri), Veri Bilimi (kalite metrikleri/kalibrasyon/eşik), Veri Müh (özellikler/sözleşmeler/eşdeğerlik).
A (Sorumlu): Veri/CDO Başkanı.
C (Consulted): Uyumluluk/DPO (PII/RG/AML/DSAR), Güvenlik (KMS/Denetim), SRE (SLO/Olaylar), Finans (Maliyet).
I (Bilgilendirilmiş): Ürün/Pazarlama/Operasyon/Destek.

18) Yol haritası

MVP (2-4 hafta):

1. Temel SLI/SLO (gecikme/5xx/kapsama) + gösterge tablosu.

2. En iyi 10 özellik ve puan dağılımı için PSI; ECE ve proxy etiketlerinde beklenen maliyet.

3. Karar günlükleri + OTel izleri; Çevrimiçi/çevrimdışı eşdeğerlik testi.

4. Uyarılar HighP95Latency/PSI_Drift/ECE_Bad + runbook've.

Faz 2 (4-8 hafta):

Dilim/adalet panelleri, gecikmeli etiketlerde gece geri doldurma metrikleri.
Otomatik yeniden kalibrasyon ve eşik simülatörü.
Maliyet panosu ve kotalar/özellikler/tekrarlar sınırları.

Faz 3 (8-12 hafta):

Kanarya kontrolü ile otomatik serbest bırakma/yeniden eğitim sürüklenme.
WORM kalite raporları ve eserler arşivi.
Kaos izleme testleri ve DR egzersizleri.

19) Teslimat kontrol listesi

SLI/SLO kabul etti ve 24 saat ≥ gölge/kanarya izlenir.
PSI/KL, ECE, beklenen maliyet ve PR-AUC çevrimiçi olarak kabul edilir; eşikler ve uyarılar belirtilmiştir.
Dilim/adalet panelleri etkinleştirildi; segment sahipleri atanır.
Kayıtlar/yollar tamamlandı (kararlar, eşikler, maskeler), PII maskeleme ve ikamet bir araya geldi.
Eşdeğerlik testi çevrimiçi/çevrimdışı yeşil; Sözleşme kapsamındaki özellik diyagramları.
Runbook've tek tıklamayla geri alma testi; Korkuluklar для kill-switch.
Maliyet bütçelere uyar; Önbellek/kotalar/limitler etkindir.
WORM metrik/artifacts ve kalite raporları arşivi kaydedilir.

20) Anti-kalıplar ve riskler

Online etiket eksikliği ve geriye dönük değerlendirme.
ROC-AUC sadece beklenen maliyet ve kalibrasyon olmadan izleme.
Dilim/adilliği görmezden gelin - bölgelerdeki/cihazlardaki gizli arızalar.
Çevrimiçi/çevrimdışı eşdeğerlik özelliği yoktur - "çift gerçeklik".
Sıfır korkuluklar: Toksik teklifler, RG/AML ihlalleri.
Geri alma/DR planları yok, WORM arşivi yok.

21) Alt satır

Model izleme, "haftada bir kez bakmak" yerine erken uyarı ve risk/maliyet yönetim sistemidir. "SLO girin, sürüklenme/kalibrasyon/beklenen maliyeti ölçün, dilimleri ve korkulukları izleyin, geri alma/kill-switch düğmelerini tutun, raporları otomatikleştirin ve yeniden başlatın. Böylece modeller yararlı, etik ve herhangi bir veri ve trafik türbülansıyla uyumlu kalacaktır.

Model izleme

Bizimle iletişime geçin

Hızlı iletişim

Video yakında güncellenecek

Şu anda projelerle çok meşgulüz