数据标记和模型质量
1)任命和原则
目的:获得可再现的标签和可测量的模型质量,不含湖颈和兼容性。
原则:- Schema-first:形式化的本体,类词典和标准。
- 点对点时间:标签是根据解决方桉时可用的信息构建的。
- Quality-as-code:说明、测试、支票单和样本-在存储库中。
- 按设计保密:PII最小化,DSAR/RTBF,居住。
- Cost-aware:计算标记和错误解决方桉的成本(expected cost)。
2)本体论和标签图
定义标记对象、类、异常和真相来源: 示例(AML/Antifrod):- 对象:事务/会话。
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- 例外:没有证据的chargeback →"未知"。
- 来源:案例管理,chargeback注册表,提供商/银行。
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3)注释说明(guidelines)
结构是:1.任务说明和业务上下文。
2.具有正/负示例和边界案例的类别定义。
3.源优先级规则(真理>启发式方法>意见)。
4."未知"和升级标准。
5.隐私政策(伪装,代币而不是ID)。
6.常见问题解答和标记清单。
指令片段(Frod):- "fraud_confirmed":带有FRAUD标签的经过验证的chargeback/封闭案例。
- "fraud_suspected":10分钟
- "法律":窗口中没有60天的旗帜和确认的桉例。
- "未知":冲突迹象或数据不足。
4)标签来源和点对点规则
自动标签:规则/案例,充电器,自我体验(RG),出价。
地面:调查/监管结果的结果。
点对点时间:决定点后禁止使用事件(t0)。
延迟:例如,chargeback在45-90天后出现→标签"成熟"。
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5)样本: 分层和平衡
罕见的事件:按市场/提供商/日期使用结构化的采样;oversampling稀有类或focal loss。
验证层:按周/市场/tenant保持控股。
制裁/PII:从培训集中排除具有直接ID的字段。
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6)标记一致性(IRR)
测量跨语法一致性:Cohen's κ (2 个注释器)/Krippendorff's α (N注释器,不同的音阶类型)。
地标:- κ < 0.4-缺乏一致性→修订说明/示例。
0.4–0.6-复杂任务可接受;>0。6-好;>0。8-很棒。
- 覆盖范围(标记多少),κ/ α按类别和幻灯片,"未知"比例,平均时间,最高错误。
7)QA轮廓和黄金基准
金色套装:1-5%的标记是双检查基准。
蜂蜜锅作业:任务流中隐藏的已知桉例。
第二种观点:对有争议的例子进行升级/仲裁。
回归标记测试:更新海德后重新验证。
8)主动,弱和半对照培训
主动学习:选择"不确定的"示例(最大熵/多样性)。
Weak Supervision: 启发式技术/distant supervision+标签噪声模型。
Semi-Supervised:具有温度阈值并随后进行检查的伪浮标。
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9)反白血病和时间控制
点对点加入的照片和标签。
从未来禁止标签/照片(在"asof"之后)。
带有转换等效性测试的单独在线/离线管道。
数据集和逻辑的转换("logic_version","data_version","asof_date")。
10)模型质量度量
根据错误的业务成本选择指标:- 分类:PR-AUC/ROC-AUC,F1@k,Recall@k,expected cost(FP/FN重量)。
- 风险评分:KS/ROC-AUC,Brier,校准(ECE),PSI/CSI用于漂移。
- 建议:NDCG/MAP@K,coverage/diversity,新颖性。
- 异常:Precision@k, AUCPR在合成/金套件上。
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11)幻灯片分析和公平性
幻灯片:市场,提供商,devys/ASN,帐户年龄,存款规模,白天时间。
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
动作:重新拍摄幻灯片,在幻灯片上校准,修改阈值,训练重量。
12)生产质量监测
数据/预测漂移:PSI/KL在ficham/scar上。
校准:ECE,可信度图。
阈值稳定性:警报,如果expected成本↑> X%或PR-AUC ↓。
计划/合同:捕获突破性变化(计划注册)。
背面循环:快速手动事件标签(案例关闭,RG结果)。
13)隐私、安全、合规性
PII最小化:别名,单独的安全映射。
居住权:分开的管道/钥匙(EEA/UK/BR);无故禁止跨区域合作。
DSAR/RTBF:可计算投影和选择性编辑。
Legal Hold:用于案例和报告包的WORM档案。
日志:不可更改的访问/导出审核。
14)组织标记过程
工具:任务跟踪器、示例队列、上下文预览、PII掩蔽、热键。
速度和质量控制:注释器的KPI(速度,精度),培训和认证。
转化:"guidelines_version","annotator_id","reviewer_id",时间表。
文档:拨号卡(所有者、来源、窗口、规则、指标)。
15)模式示例
Dataset卡(YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
标记QA规则:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
配对矩阵(SQL想法):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16)实施路线图
MVP(2-4周):1.本体和指令v1,金集(每个域≥1000示例)。
2.带有PII掩码的注释流,每周κ度量。
3.基本模型+离线得分(PR-AUC,开关费用),点对点抽样。
4.监控漂移/漂移;日记和海德版本寄存器。
第二阶段(4-8周):- Active/weak-supervision流水线,自动三合会"未知"。
- 幻灯片分析和公平报告,概率校准。
- 用于标记集的DSAR/RTBF程序,用于案例的Legal Hold。
- 完全自动化QA (golden/honey-pots),回归标记测试。
- Dataset目录和"模型质量"卡;外加成本的阈值编排。
- Chargeback按标记/地狱成本,SLA按标签更新。
17) RACI
R(响应性):数据科学(本体论,度量),标签Ops(过程/QA),Data Eng(样本/PII/存储)。
A (Accountable): Head of Data / CDO.
C(咨询):合规性/DPO(PII/residency/DSAR),风险/AML/RG(规则),安全(KMS/审计)。
I (Informed):产品/营销/运营/支持。
18)售前支票清单
- 本体和gaids已获得批准,版本已固定。
- 质量样本:分层,按时间/市场划分。
- κ/ α ≥目标阈值;golden-accuracy遵守。
- 按时收集照片和标签;没有白颈的测试已经通过。
- 度量标准是根据开销选择的,执行了幻灯片分析和公平。
- 包括漂移/校准监测;Alertes设置。
- 遵守PII/DSAR/RTBF和Legal Hold政策;已启用审计。
19)反模式和风险
没有明确标准的标记→低κ,嘈杂的标签。
Lakedge来自未来(事后特征/标签)。
不平衡样本,不考虑成本的ROC-AUC度量。
缺少golden/QA和回归标记测试。
Danaset中的PII没有掩盖或居住。
没有幻灯片分析→区域/提供商的潜在退化。
20)结果
模型质量从标签质量开始。严格的本体论,带有示例的说明,点对点学科,QA轮廓和考虑错误成本的度量标准是iGaming中可复制ML的基础。通过将这些做法嵌入到数据流水线和MLOps中,您将获得可持续、符合道德和合规的模型,这些模型可以轻松地改善业务成果。