模型监控
1)为什么
目标是通过遵守SLA/SLO,RG/AML/Legal和预算来保持模型解决方案的质量和安全性。监控必须及早检测降解(数据、校准、延迟、成本),最大限度地减少被排除的错误,并确保可重复性/审核。
2)监测区域(地图)
1.可用性和性能: latency p95/p99, error-rate, RPS, autoscail.
2.预测质量:PR-AUC/KS(在线标签),校准(ECE),expected-cost@threshold。
3.漂移和稳定性: PSI/KL在假发和争球,分布/类别的变化.
4.覆盖面和完整性:成功服务的请求比例,"空白"信息比例,命中率缓存。
5.Slice/Fairness:按市场/提供商/设备/帐户年龄分列的指标。
6.Guardrails (RG/AML):策略违规、干预频率、false positives/negatives。
7.费用:费用/要求,费用/功能,GPU/CPU手表,小型文件/IO(用于batch/near-RT)。
8.数据/合同:Fitch方桉、版本、在线/离线等效。
3)SLI/SLO(iGaming地标)
Latency p 95:个性化≤ 150毫秒,RG/AML alerta ≤ 5与e2e。
Availability: ≥ 99.9%.
Error-rate 5xx: ≤ 0.5分钟窗口为5%。
Coverage: ≥ 99%的请求已收到有效漏洞和解决方桉。
用于在线评估的新鲜标签:D+1(每日),用于快速代理-≤ 1小时。
Drift PSI: fici/scor <0。2 (warning с 0.1).
ECE校准: ≤ 0。05.
Expected-cost_live:不高于基本型号+X%(目标X选择业务)。
4)信号和公式
4.1漂移
PSI:总和分布差异(train vs prod)。
KL发散:对"薄"尾巴敏感;监控关键镜头/skor。
Skors的KS(如果有标签):正面/负面的CDF差。
4.2校准
4.3 Expected-Cost
在工作阈值处最小化(C=c_{fp}\cdot FPR+c_{fn}\cdot FNR);在网上我们考虑在带延迟标签的滑动窗口中。
5)标签来源
在线标签(快速代理):"7天存款"事件,点击/转换,完成RG案例。
延迟标签:chargeback/frod(45-90天),长期的churn/LTV。
规则:保留时间;不要使用"来自未来"的事件。
6)Dashbords(最低组成)
1.运营:RPS,p50/p95/p99 latency,4xx/5xx,aturation,autoscaling。
2.质量:分布得分,PR-AUC(在代理标签上),ECE,开销和KS。
3.漂移:PSI/KL排名第一,新奇类别,错过率,功能性问答。
4.Slice/Fairness: PR-AUC/ECE/expected-cost按市场/提供商/设备划分。
5.Guardrails:RG/AML违规行为,干预/1k查询,假停止率。
6.费用:费用/要求,CPU/GPU时间,cache命中率,外部外观。
7)Alerting(示例规则)
HighP95Latency: p95> 150 ms (5分钟)→ page SRE/MLOps.
ErrorBurst: 5xx > 0.5%(5分钟)→ rollback脚本可用。
PSI_Drift: PSI(amount_base) > 0.2(15分钟)→战利品/金丝雀回滚。
ECE_Bad: ECE > 0.07(30分钟)→越过校准/阈值。
ExpectedCost_Up:+X%到基准(1天)→考虑回滚/流式传输。
Slice_Failure:R市场的PR-AUC下跌>Y%(1天)→股票域名的所有者。
Guardrails_Breach:激进的offers> cap →立即杀手开关的比例。
8)逻辑和跟踪
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
查询逻辑(最小值):"request_id"、"trace_id"、"model_id/version"、"feature_version"、"feature_stats" (missing%,extremes)、"score"、"decision"、"threshold"、"policy_id"、"guard_mask"、"latency_ms', 'cost_estimate'(可选)解释(SHAP top-k)。
PII:仅别名/代币;策略伪装,关键居民身份。
9)在线质量评估
PR-AUC/KS的滑动窗口通过快速标签(每小时/每天)。
延迟标签:回顾性报告D+7/D+30/D+90,外收费用调整。
校准:将Isotonic/Platt重新评估为D+1, auto-refresh工件。
10)临界值和决策策略
阈值在注册表中保持为config;在网上计算外价,并在有效范围(rate-limited)内进行调整。
安全帽:上部/下部动作边界;手动配对。
逆止阈值:对昨天的数据进行夜间模拟。
11) Slice & Fairness
细分市场:市场/司法管辖区,提供商,设备/ASN,帐户年龄,存款能力。
度量标准:PR-AUC,ECE,expected-cost,FPR/TPR差分(等值码),分离影响。
动作:在幻灯片上校准/阈值,用权重重新训练,修改幻灯片。
12)在线/离线等效性
相等性测试:对照样本中的MAE/MAPE;差异时alert>阈值。
转化:"feature_spec_version","logic_version";WORM存档。
电路合同:禁止在没有双重记录(v1/v2)的情况下进行中断更改。
13) Guardrails (RG/AML)
前/后过滤器操作,频率限制,cooldown,禁令列表。
Логи `policy_id/propensity/mask/decision`;违规报告。
时间到intervene和false intervention rate度量。
14)事件和运行手册
脚本和步骤:1.Latency↑/5xx↑:检查外部信息提供商→启用缓存/定时→缩放→如果需要滚回。
2.PSI/ECE/Expected-cost变得更糟:freeze流量(canary↓),启用fallback阈值/模型,启动retrain。
3.Slice失败:临时幻灯片特定阈值,字幕域所有者。
4.Guardrails breach: kill-switch、桉例审核、后海。
15)成本和性能
Profilation:在feature-fetch vs比分vs IO中的时间份额。
缓存策略:TTL/eviction,RAM中的"热"fici,寒冷-懒惰。
量化/优化模型:FP16/INT8同时保持质量。
Chargeback: cost/request, cost/feature by command/Market.
16)示例(片段)
expected-cost(伪代码)阈值:python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus(指标思想):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert(想法):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17)流程和RACI
A (Accountable): Head of Data / CDO.
R(响应能力):MLOps(可观察性/Alerta/注册表),数据科学(质量指标/校准/阈值),数据能力(fici/合同/等效性)。
C(咨询):合规性/DPO(PII/RG/AML/DSAR),安全(KMS/审计),SRE(SLO/事件),财务(成本)。
I (Informed):产品/营销/运营/支持。
18)路线图
MVP(2-4周):1.基本的SLI/SLO(latency/5xx/coverage)+dashboard。
2.PSI排名前10位Fich和Score-distribution;代理标签上的ECE和开销。
3.解决方案的逻辑+OTel步道;在线/离线等效性测试。
4.Alerta HighP95Latency/PSI_Drift/ECE_Bad+runbook'和。
第二阶段(4-8周):- Slice/fairness面板,延迟标签上的夜间背景指标。
- 自动重新校准和阈值模拟器。
- Cost-dashbord和fici/replay配额/限制。
- 通过金丝雀控制漂移自动转发/转发。
- WORM质量报告和工件归档。
- 混沌监测测试和DR演习。
19)准备就绪支票清单
- SLI/SLO在影子/金丝雀上协调并宣传≥ 24小时。
- PSI/KL,ECE,expected-cost和PR-AUC在线计算;阈值和Alertes设置。
- 包含Slice/fairness面板;分区所有者被指定。
- Logi/Traces是完整的(解决方案,阈值,口罩),PII掩盖和居住性。
- 在线/离线等效性测试为绿色;合约下的摄影计划。
- Runbook'和单击滚动测试;kill-switch для guardrails.
- 成本适用于预算;缓存/配额/限额处于活动状态。
- 保存了度量/工件和质量报告的WORM存档。
20)反模式和风险
缺乏在线标签和回顾性评估。
仅监视ROC-AUC而不进行开销和校准。
忽略slice/fairness →区域/设备中的潜在故障。
在线/离线幻灯片→"双重现实"没有等效性。
零护栏:有毒的离场,RG/AML违规行为。
没有回滚/DR计划,没有WORM存档。
21)结果
模型监控是一个早期预警和风险/成本管理系统,而不是"每周观看一次"。输入SLO,测量漂移/校准/开关成本,跟踪幻灯片和guardrails,保持滚回/杀手开关按钮,自动化报告和转发。因此,在数据和流量的任何动荡中,模型将保持有用,合乎道德和兼容性。