MLOps:模型操作
1)操作在iGaming中的作用
在iGaming中,模型会影响真实货币和监管:RG干扰,反欺诈行为,付款,KYC,限制,发行和推荐。可操作性是具有保证SLO,可追溯性和安全性的可靠预测。
目标是:- 可预测的发布和回滚,没有停机时间。
- 数据一致性和离线/在线信息。
- 可观察性:质量,漂移,诚实,隐私。
- 降低TCO:性能,缓存,GPU/CPU混合。
- 合规性(审计/DSAR/法律保留/道德)。
2)伺服架构
Batch(离线):每晚/每小时得分(限制、细分)。优点:更便宜,更稳定。缺点:没有即时反应。
流(近实时):处理带有1-5分钟窗口的事件(投注、异常)。
Online (sync API): <100-300 ms p95用于UX/风险解决方桉、缓存和降级。
混合体:"来自batch+在线澄清的基础"(例如:7天的RG风险+在线会话触发器)。
- Ensemble/Stacking在关键路径上带有轻量级的"门模特"。
- 模型故障时的倒退启发式方法。
- 电路断路器和rate限制在峰值或供应商降级时。
3)模型注册和版本控制
模型注册:版本,所有者,发布日期,度量(AUC/PR,校准),dataset_version,feature_set_version,使用限制。
模型卡(Model Card): 任务、数据/fichi, fairness/privacy分区,风险区,咆哮频率。
发布策略:'MAJOR。MINOR.PATCH'+强制性滚动计划。
Champion-Challenger:与报告并行运行的Challenger;满足条件时自动提升。
4)在线摄影和连贯性
Feature Store:离线(培训)和在线(地狱)店面,拥有严格的合同。
在培训期间进行时间旅行和点对点合作。
偶然的上衣和防漏针。
一致性:"阅读您的写作"保修或SLA交付(例如,≤ 60秒)。
特征策略:allow/deny床单,蒙面,令牌化,禁止代理PII。
5)发布策略
影子:所有负荷→冠军;挑战者收到请求的副本,响应不会影响业务。
金丝雀:流量的1-10% →新版本;KPI/度量比较,按阈值自动回滚。
Blue-Green:两个服务器/端点池;DNS/路由切换。
标志:通过市场/tenant/渠道进行微调。
6)可观察性和异位
信号(在线):- 可靠性:error rate, timeouts, p50/p95/p99 latency, QPS, aturation。
- 数据/fichi:新鲜,完整,分布,异常,跳过,计划漂移。
- 质量:校准,事后指标(AUC/PR,uplift),干预响应。
- 漂移:在输入(PSI/KS)和输出(得分漂移)。
- 道德/正义:EO/EOp-delta,disparate impact。
- 隐私:Attack-AUC(membership/inversion)≈ 0。5、ε usage(如果DP)。
- 业务:chargeback,RG干预,offer转换-分段分解。
- p95 latency ≤ 200毫秒(在线评分RG/antifrod)。
- Error rate ≤ 0.1%5分钟。平均值。
- Drift PSI ≤ 0.2次关键犯规;EOp-delta ≤ 3 p.p.
- Freshness fich ≤ 60秒;错过≤ 0。5%.
- ACE ≤ 0校准。02.
7)事件和花花公子
Sev-level:P1(付款锁定/RG错误),P2(错误增长>阈值),P3(质量降解)。
自动联网:切换到冠军,降低查询频率,启用后退规则,隔离"有毒"的镜头。
Runbooks:"fichi已过时","漂移已经长大","fid类型已经改变","GPU已用尽"。
后太平间:RCA,假计划,测试/阈值/合同更新。
8)实验和变更控制
A/B和多臂乐队-仅按关键组(国家/频道/设备)分层。
道德停止规则:随着RG风险/投诉的急剧增加。
在切换之前,双奔跑店面和模型。
对KPI和定义(BI合同)进行验证,以稳定地解释结果。
9)销售中的安全和隐私
mTLS/TLS 1.3、查询签名、反回复(nonce/idempotency)。
来自Secrets Manager、JIT发行、审核的秘密。
输入/标志化;在赛道上禁止PII。
VIP 付款/AML的TEE/机密地狱(根据需要)。
接入策略(RBAC/ABAC/JIT)到Fix和Endpoint。
DSAR/Legal Hold:通过令牌可解释性和可删除性解决方桉。
10)性能和成本
具有TTL的缓存(功能/得分),尤其是对于稳定信号。
加速量化/蒸馏技术(INT8/FP 16)。
自动滑行:水平的QPS/latency,垂直的batch尺寸。
CPU/GPU混合体:对GPU持批评态度,对CPU具有"质量"。
通过加热模型来跟踪冷启动。
针对缓存本地性的市场/tenant的模型池和"粘性路由"。
11)iGaming Case(参考)
RG得分:入场和会议中的在线得分;严格的overrides(自我排除),目标指标是EOp+校准。
防胎付款:授权解决办法<150毫秒;FPR的EO控制,机器人信号聚合器。
KYC/AML:文件支持;PSI/MPC与合作伙伴;DSAR兼容性。
个性化:uplift模型和频率限制;从激进的offers中排除高风险。
12)操作度量和SLO(示例)
13)工件模板
13.1个发行注释(草图)
模型: 'rg_risk@2.1.0` (MINOR)
更改: 添加了"loss_streak_7d"字样;校准更新
验证: shadow 14天;delta KPI ≤ 0.3%;EOp三角洲正常
Rollout: canary 10% EU → 50% → 100%
Rollback: 标志'rg。use_v1=true`
所有者/日期/tiket
13.2型号卡(片段)
任务: 付款反欺诈行为
数据: 'payments_gold v3.2',fich-set 'payout_signals v1.7`
度量: AUC=0。89, ACE=0.015,FPR@歌剧。阈值=1。2%
Fairness: EO TPR/FPR Δ ≤ 2 п.п. по «country/method»
局限性: VIP客户-只有人文评论
隐私: TEE地狱;非PII编译
Review: 每90天一次
13.3后端的SLO策略(片段)
yaml endpoint: /v1/score/rg slo:
latency_p95_ms: 200 success_rate: 0. 995 max_error_burst_per_5m: 50 data:
feature_freshness_s: 60 allowed_missing_pct: 0. 5 ethics:
eop_delta_pp: 3 privacy:
attack_auc_max: 0. 55
13.4 Runbook "Fichi已过时"
1.检查Feature Store中的故障和吹风机的来源。
2.切换到备用通道/缓存。
3.减少流量/启用后退规则。
4.#ml-status中的通信;P2/P1 SLA事件。
5.RCA和合同/撤消编辑。
14)发布前的测试过程
Fich合同:schema/enum/nullable,SLA新鲜。
数据:DQ测试,点对点,目标泄漏。
模型:单位/整合,校准,压力/负载。
Security: Security, mTLS, Zero-PII在日志中。
道德/隐私:公平支票,攻击套件。
可观察性:dashbords/alerta,SLO configa。
文档:Release Notes+滚回计划。
15) RACI(示例)
ML Lead (A/R):质量、发布、指标。
数据平台(R):功能商店,寄存器,编排,可观察性。
Domain Owners (R):来源/远景合同。
安全/DPO (A/R):可用性、隐私、令牌化、TEE。
SRE/SecOps(R):事件,SLO,汽车轨道,SOAR。
分析/财务(C):对KPI和报告的影响。
支持/RG/风险(C):人为循环和可解释性。
16)实施路线图
0-30天(MVP)
1.高影响模型的Model Registry+卡(RG/付款/防冻剂)。
2.基本监控:latency, errors, freshness, drift输入。
3.新版本的影子运行,金丝雀轮廓。
4.Logs中的Fich和Zero-PII合同。
5.Runbooks和#ml-status通道。
30-90天
1.Champion-Challenger和自动晋级标准。
2.CI/CD中的Fairness/privacy门,攻击套件。
3.缓存,量化,自动轨道;SLO预算/成本。
4.BI/ML协调KPI和在线指标;SLO dashbords。
3-6个月
1.定期的后面模特,季度模型评论。
2.Geo/Tenant隔离末端,钥匙和仙女。
3.私人支付地狱/AML的TEE/MPC。
4.从线性和diff完全自动化Release Notes。
5.外部流程审核(许可证要求)。
17)反模式
没有影子/金丝雀和滚回计划的版本。
不一致的离线/在线照片→降级。
Logi with PII,没有令牌政策。
未经修订的"永恒"阈值;忽略漂移和校准。
高风险解决方案缺乏人性化循环。
没有分层和道德停止规则的实验。
18)相关部分
DataOps实践,访问控制,数据令牌化,安全性和加密,审计和验证,减少偏见,保密ML,联合学习,存储策略,数据来源和路径,数据伦理。
底线
模型操作是生产服务级别的工程学科:明确的合同和版本,可预测的版本,24/7的可观察性,可管理的道德/隐私风险以及对业务的透明影响。因此,ML成为可靠的产品而不是"笔记本电脑中的最佳脚本"。