GH GambleHub

Monitorizarea modelelor

1) De ce

Scopul este de a menține calitatea și siguranța soluțiilor modelului în vânzare, respectând SLA/SLO, RG/AML/Legal și bugetele. Monitorizarea ar trebui să detecteze degradarea precoce (date, calibrare, latență, cost), să minimizeze costul așteptat al erorilor și să asigure reproductibilitatea/auditul.


2) Zone de monitorizare (hartă)

1. Disponibilitate și performanță: latență p95/p99, rată de eroare, RPS, autoscale.
2. Calitatea predictiei: PR-ASC/KS (pe etichete online), etalonare (ECE), prag preconizat-cost @.
3. Drift și stabilitate: PSI/KL după caracteristici și viteză, schimbarea distribuțiilor/categoriilor.
4. Acoperire și completitudine: ponderea cererilor deservite cu succes, cota de caracteristici „goale”, cache-uri hit-rate.
5. Felie/corectitudine: valori după vârsta pieței/furnizorului/dispozitivului/contului.
6. Guardrails (RG/AML): încălcări ale politicilor, frecvențe de intervenție, fals pozitive/negative.
7. Cost: cost/cerere, cost/caracteristică, GPU/CPU-ceas, fișiere mici/IO (pentru lot/near-RT).
8. Date/contracte: schemă de caracteristici, versiuni, echivalență online/offline.


3) SLI/SLO (repere pentru iGaming)

Latență p95: personalizare ≤ 150 ms, alerte RG/AML ≤ 5 cu e2e.
Disponibilitate: ≥ 99. 9%.
Rata de eroare 5xx: ≤ 0. 5% în fereastra de 5 min.
Acoperire: ≥ 99% din solicitări au primit o viteză și o soluție validă.
Prospețimea etichetelor pentru evaluarea online: D + 1 (zilnic), pentru proxy-uri rapide - ≤ 1 oră.
Drift PSI: Caracteristică/rată <0. 2 (avertisment с 0. 1).
Calibrare ECE: ≤ 0. 05.
Expected-cost_live: nu mai mare decât modelul de bază + X% (ținta X este aleasă de întreprindere).


4) Semnale și formule

4. 1 Drift

PSI: rezumați prin bin diferența de distribuții (tren vs prod).
KL-divergență: sensibil la cozi „subțiri”; monitor pentru caracteristici cheie/viteză.
KS pentru rate (dacă etichetele sunt prezente): diferență CDF pentru pozitive/negative.

4. 2 Calibrare

ECE (Eroare de calibrare preconizată):prezis-prob − empiric-rataîn coşuri.
Curba de fiabilitate: graficul de precizie vs probabilitate.

4. 3 Costul preconizat

Minimizarea (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) la pragul de lucru; numărătoarea online într-o fereastră glisantă cu etichete întârziate.


5) Surse de etichetare

Etichete online (proxy-uri rapide): eveniment de depozit de 7 zile, click/conversie, caz RG finalizat.
Etichete întârziate: chargeback/fraudă (45-90 zile), pe termen lung Churn/LTV.
Reguli: păstrați ca-de-timp; nu utilizați evenimente „din viitor”.


6) Tablouri de bord (compoziție minimă)

1. Operare: RPS, p50/p95/p99 latență, 4xx/5xx, saturație, autoscaling.
2. Calitate: scor-distribuție, PR-ASC (pe etichetele proxy), ECE, cost așteptat, SK.
3. Drift: PSI/KL după caracteristici de top, categorii de noutăți, rata lipsă, latență de preluare a funcțiilor.
4. Felie/corectitudine: PR-ASC/ECE/costul așteptat de piață/furnizor/dispozitiv.
5. Guardrails: încălcări RG/AML, intervenții/cereri 1k, rata fals-stop.
6. Cost: cost/cerere, timp CPU/GPU, cache hit-rate, căutări externe.


7) Alertarea (reguli de exemplu)

HighP95Latency: p95> 150 ms (5 min) → pagina SRE/MLOps.
ErrorBurst: 5xx> 0. 5% (5 min) → script rollback este disponibil.
PSI_Drift: PSI (amount_base)> 0. 2 (15 min) → reîncălzire.
ECE_Bad: ECE> 0. 07 (30 min) → reconstrui calibrarea/pragurile.
ExpectedCost_Up: + X% la criteriul de referință (1 zi) → ia în considerare rollback/supraîncărcare.
Slice_Failure: PR-ASC în piața R a scăzut> Y% (1 zi) → proprietarul domeniului de bilete.
Guardrails_Breach: ponderea ofertelor agresive> cap → kill-switch imediat.


8) Înregistrarea și urmărirea

Jurnale de interogare (minim): 'request _ id',' trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (lipsă%, extreme), 'score', 'decizie', 'prag', 'policy _ id',' guard _ mask ',' latency _ ms', 'cost _ estimate', (opţional) explicații (SHAP top-k).
OTel- : 'feature _ fetch' 'preprocess' 'score' 'postprocess'.
PII: numai aliasuri/jetoane; mascare politică, rezidență cheie.


9) Evaluarea online a calității

Ferestre glisante pentru PR-ASC/KS după etichete rapide (oră/zi).
Etichete păstrate: D + 7/D + 30/D + 90 rapoarte retrospective, ajustări ale costurilor preconizate.
Calibrare: reevaluare Isotonic/Platt pe D + 1, artefact auto-refresh.


10) Pragul decizional și politica

Păstrăm pragul ca config în registru; online considerăm costul așteptat și ajustarea în intervalul admis (rată limitată).
Capacele de siguranță: limitele superioare/inferioare ale acțiunilor; suprascriere manuală pentru conformitate.
Praguri de testare: simulare nocturnă pe datele de ieri.


11) Felie și corectitudine

Segmente: piață/jurisdicție, furnizor, dispozitiv/ASN, vârsta contului, putere de depozit.
Valori: PR-ASC, ECE, cost așteptat, diferențe FPR/TPR (cote egalizate), impact disparat.
Acțiuni: calibrare/prag pentru felii, recalificare cu cântare, revizuirea caracteristicii.


12) Echivalență online/offline

Caracteristica testului de egalitate: MAE/MAPE pe eșantionul de control; alertă atunci când divergența> prag.
Versioning: 'feature _ aug _ version', 'logic _ version'; Arhiva WORM.
Contracte de circuit: breaking-schimbare nu este permisă fără o intrare dublă (v1/v2).


13) Guardrails (RG/AML)

Acțiuni pre-/post-filtru, limite de frecvență, cooldown, liste de interdicții.
Логи „policy _ id/înclination/mask/decision”; raportează încălcări.
Timp-la-interviu și măsurători ale ratei de intervenție falsă.


14) Incidente și runbook

Scenarii și pași:

1. Latency↑/5xx↑: verificați furnizorii de caracteristici externe → activați memoria cache/timeout → scară → rollback, dacă este necesar.

2. PSI/ECE/Preconizat-cost deteriorat: congela traficul (canary↓), permite praguri de rezervă/model, rula recalificare.

3. Eșecul feliei: prag temporar specific feliei, bilet către proprietarul domeniului.

4. Guardrails încălcare: kill-switch, caz de audit, post-mare.


15) Cost și performanță

Profilare: Fracțiune de timp în feature-fetch vs scor vs IO.
Strategii cache: TTL/evacuare, caracteristici fierbinți în RAM, cele reci - leneș.
Model de cantizare/optimizare: FP16/INT8 menținând în același timp calitatea.
Chargeback: cost/cerere, cost/caracteristică de echipă/piață.


16) Exemple (fragmente)

Prag de cost preconizat (pseudocod):
python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometeu (idei metrice):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert (idee):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m

17) Procese și RACI

R (Responsible): MLOps (observabilitate/alerte/registry), Data Science (quality metrics/calibration/prag), Data Eng (features/contracts/echivalence).
A (Responsabil): șef de date/CDO.
C (Consultat): Conformitate/DPO (PII/RG/AML/DSAR), Securitate (KMS/Audit), SRE (SLO/Incidente), Finanțe (Cost).
I (Informat): Produs/Marketing/Operațiuni/Suport.


18) Foaie de parcurs

MVP (2-4 săptămâni):

1. SLI/SLO de bază (latenţă/5xx/acoperire) + tablou de bord.

2. PSI pentru top 10 caracteristici și scor-distribuție; ECE și costul așteptat pe etichetele proxy.

3. Jurnale de decizii + trasee OTel; testul de echivalență online/offline.

4. Alerte HighP95Latency/PSI_Drift/ECE_Bad + runbook 'și.

Faza 2 (4-8 săptămâni):
  • Panouri felie/corectitudine, măsurători de rambursare nocturnă pe etichete întârziate.
  • Auto-recalibrare și prag simulator.
  • Tabloul de bord al costurilor și cotele/limitele caracteristicilor/reluărilor.
Faza 3 (8-12 săptămâni):
  • Auto-release/retrain drift cu control canar.
  • Arhivele WORM ale rapoartelor și artefactelor de calitate.
  • Teste de monitorizare haos și exerciții DR.

19) Lista de verificare a livrării

  • SLI/SLO a fost de acord și monitorizat la umbră/canar ≥ 24 de ore.
  • PSI/KL, ECE, costul așteptat și ASC-PR sunt considerate online; sunt specificate praguri și alerte.
  • Panourile felie/corectitudine sunt activate; proprietarii de segmente sunt atribuite.
  • Busteni/trasee complete (decizii, praguri, măști), PII mascare, și rezidență îndeplinite.
  • Testul de echivalență online/verde offline; diagrame caracteristică în cadrul contractului.
  • Runbook 'și un singur clic rollback testat; kill-switch для guardrails.
  • Costul se încadrează în bugete; cache/cote/limite sunt active.
  • Arhiva WORM a metricii/artefactelor și rapoartelor de calitate este salvată.

20) Anti-modele și riscuri

Lipsa etichetelor online și evaluarea retrospectivă.
ROC-ASC monitorizează numai fără costuri şi calibrare aşteptate.
Ignorați felia/corectitudinea → defecțiunile ascunse în regiuni/dispozitive.
Nu există nici o echivalență caracteristică online/offline → „realitate dublă”.
Zero parapete: oferte toxice, încălcări RG/AML.
Fără planuri rollback/DR, fără arhivă WORM.


21) Linia de jos

Modelul de monitorizare este un sistem de avertizare timpurie și de gestionare a riscurilor/costurilor, mai degrabă decât "aspect o dată pe săptămână. "Introduceți SLO, măsurați deriva/calibrarea/costul așteptat, feliile de cale și guardrails, țineți butoanele rollback/kill-switch, automatizați rapoartele și recalculările. Astfel, modelele vor rămâne utile, etice și conforme cu orice turbulență a datelor și a traficului.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.