GH GambleHub

模型監控

1)為什麼

目標是通過遵守SLA/SLO,RG/AML/Legal和預算來保持模型解決方案的質量和安全性。監控必須及早檢測降解(數據、校準、延遲、成本),最大限度地減少被排除的錯誤,並確保可重復性/審核。


2)監測區域(地圖)

1.可用性和性能: latency p95/p99, error-rate, RPS, autoscail.

2.預測質量:PR-AUC/KS(在線標簽),校準(ECE),expected-cost@threshold。

3.漂移和穩定性: PSI/KL在假發和爭球,分布/類別的變化.

4.覆蓋面和完整性:成功服務的請求比例,「空白」信息比例,命中率緩存。
5.Slice/Fairness:按市場/提供商/設備/帳戶年齡分列的指標。
6.Guardrails (RG/AML):策略違規、幹預頻率、false positives/negatives。
7.費用:費用/要求,費用/功能,GPU/CPU手表,小型文件/IO(用於batch/near-RT)。
8.數據/合同:Fitch方案、版本、在線/離線等效。


3)SLI/SLO(iGaming地標)

Latency p 95:個性化≤ 150毫秒,RG/AML alerta ≤ 5與e2e。

Availability: ≥ 99.9%.

Error-rate 5xx: ≤ 0.5分鐘窗口為5%。
Coverage: ≥ 99%的請求已收到有效漏洞和解決方案。
用於在線評估的新鮮標簽:D+1(每日),用於快速代理-≤ 1小時。

Drift PSI: fici/scor <0。2 (warning с 0.1).

ECE校準: ≤ 0。05.

Expected-cost_live:不高於基本型號+X%(目標X選擇業務)。


4)信號和公式

4.1漂移

PSI:總和分布差異(train vs prod)。
KL發散:對「薄」尾巴敏感;監控關鍵鏡頭/skor。
Skors的KS(如果有標簽):正面/負面的CDF差。

4.2校準

ECE (Expected Calibration Error):predicted-prob − empirical-rate通過籃子。
可信度曲線:精度圖vs概率。

4.3 Expected-Cost

在工作閾值處最小化(C=c_{fp}\cdot FPR+c_{fn}\cdot FNR);在網上我們考慮在帶延遲標簽的滑動窗口中。


5)標簽來源

在線標簽(快速代理):「7天存款」事件,點擊/轉換,完成RG案例。
延遲標簽:chargeback/frod(45-90天),長期的churn/LTV。
規則:保留時間;不要使用「來自未來」的事件。


6)Dashbords(最低組成)

1.運營:RPS,p50/p95/p99 latency,4xx/5xx,aturation,autoscaling。
2.質量:分布得分,PR-AUC(在代理標簽上),ECE,開銷和KS。
3.漂移:PSI/KL排名第一,新奇類別,錯過率,功能性問答。
4.Slice/Fairness: PR-AUC/ECE/expected-cost按市場/提供商/設備劃分。
5.Guardrails:RG/AML違規行為,幹預/1k查詢,假停止率。
6.費用:費用/要求,CPU/GPU時間,cache命中率,外部外觀。


7)Alerting(示例規則)

HighP95Latency: p95> 150 ms (5分鐘)→ page SRE/MLOps.

ErrorBurst: 5xx > 0.5%(5分鐘)→ rollback腳本可用。
PSI_Drift: PSI(amount_base) > 0.2(15分鐘)→戰利品/金絲雀回滾。
ECE_Bad: ECE > 0.07(30分鐘)→越過校準/閾值。
ExpectedCost_Up:+X%到基準(1天)→考慮回滾/流式傳輸。
Slice_Failure:R市場的PR-AUC下跌>Y%(1天)→股票域名的所有者。
Guardrails_Breach:激進的offers> cap →立即殺手開關的比例。


8)邏輯和跟蹤

OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.

查詢邏輯(最小值):"request_id"、"trace_id"、"model_id/version"、"feature_version"、"feature_stats" (missing%,extremes)、"score"、"decision"、"threshold"、"policy_id"、"guard_mask"、"latency_ms', 'cost_estimate'(可選)解釋(SHAP top-k)。
PII:僅別名/代幣;策略偽裝,關鍵居民身份。


9)在線質量評估

PR-AUC/KS的滑動窗口通過快速標簽(每小時/每天)。
延遲標簽:回顧性報告D+7/D+30/D+90,外收費用調整。
校準:將Isotonic/Platt重新評估為D+1, auto-refresh工件。


10)臨界值和決策策略

閾值在註冊表中保持為config;在網上計算外價,並在有效範圍(rate-limited)內進行調整。
安全帽:上部/下部動作邊界;手動配對。
逆止閾值:對昨天的數據進行夜間模擬。


11) Slice & Fairness

細分市場:市場/司法管轄區,提供商,設備/ASN,帳戶年齡,存款能力。
度量標準:PR-AUC,ECE,expected-cost,FPR/TPR差分(等值碼),分離影響。
動作:在幻燈片上校準/閾值,用權重重新訓練,修改幻燈片。


12)在線/離線等效性

相等性測試:對照樣本中的MAE/MAPE;差異時alert>閾值。
轉化:「feature_spec_version」,「logic_version」;WORM存檔。
電路合同:禁止在沒有雙重記錄(v1/v2)的情況下進行中斷更改。


13) Guardrails (RG/AML)

前/後過濾器操作,頻率限制,cooldown,禁令列表。
Логи `policy_id/propensity/mask/decision`;違規報告。
時間到intervene和false intervention rate度量。


14)事件和運行手冊

腳本和步驟:

1.Latency↑/5xx↑:檢查外部信息提供商→啟用緩存/定時→縮放→如果需要滾回。

2.PSI/ECE/Expected-cost變得更糟:freeze流量(canary↓),啟用fallback閾值/模型,啟動retrain。

3.Slice失敗:臨時幻燈片特定閾值,字幕域所有者。

4.Guardrails breach: kill-switch、案例審核、後海。


15)成本和性能

Profilation:在feature-fetch vs比分vs IO中的時間份額。
緩存策略:TTL/eviction,RAM中的「熱」fici,寒冷-懶惰。
量化/優化模型:FP16/INT8同時保持質量。

Chargeback: cost/request, cost/feature by command/Market.


16)示例(片段)

expected-cost(偽代碼)閾值:
python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus(指標思想):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert(想法):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m

17)流程和RACI

A (Accountable): Head of Data / CDO.

R(響應能力):MLOps(可觀察性/Alerta/註冊表),數據科學(質量指標/校準/閾值),數據能力(fici/合同/等效性)。
C(咨詢):合規性/DPO(PII/RG/AML/DSAR),安全(KMS/審計),SRE(SLO/事件),財務(成本)。
I (Informed):產品/營銷/運營/支持。


18)路線圖

MVP(2-4周):

1.基本的SLI/SLO(latency/5xx/coverage)+dashboard。

2.PSI排名前10位Fich和Score-distribution;代理標簽上的ECE和開銷。

3.解決方案的邏輯+OTel步道;在線/離線等效性測試。

4.Alerta HighP95Latency/PSI_Drift/ECE_Bad+runbook'和。

第二階段(4-8周):
  • Slice/fairness面板,延遲標簽上的夜間背景指標。
  • 自動重新校準和閾值模擬器。
  • Cost-dashbord和fici/replay配額/限制。
第三階段(8至12周):
  • 通過金絲雀控制漂移自動轉發/轉發。
  • WORM質量報告和工件歸檔。
  • 混沌監測測試和DR演習。

19)準備就緒支票清單

  • SLI/SLO在影子/金絲雀上協調並宣傳≥ 24小時。
  • PSI/KL,ECE,expected-cost和PR-AUC在線計算;閾值和Alertes設置。
  • 包含Slice/fairness面板;分區所有者被指定。
  • Logi/Traces是完整的(解決方案,閾值,口罩),PII掩蓋和居住性。
  • 在線/離線等效性測試為綠色;合約下的攝影計劃。
  • Runbook'和單擊滾動測試;kill-switch для guardrails.
  • 成本適用於預算;緩存/配額/限額處於活動狀態。
  • 保存了度量/工件和質量報告的WORM存檔。

20)反模式和風險

缺乏在線標簽和回顧性評估。
僅監視ROC-AUC而不進行開銷和校準。
忽略slice/fairness →區域/設備中的潛在故障。
在線/離線幻燈片→「雙重現實」沒有等效性。
零護欄:有毒的離場,RG/AML違規行為。
沒有回滾/DR計劃,沒有WORM存檔。


21)結果

模型監控是一個早期預警和風險/成本管理系統,而不是「每周觀看一次」。輸入SLO,測量漂移/校準/開關成本,跟蹤幻燈片和guardrails,保持滾回/殺手開關按鈕,自動化報告和轉發。因此,在數據和流量的任何動蕩中,模型將保持有用,合乎道德和兼容性。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。