GH GambleHub

数据标记和模型质量

1)任命和原则

目的:获得可再现的标签和可测量的模型质量,不含湖颈和兼容性。

原则:
  • Schema-first:形式化的本体,类词典和标准。
  • 点对点时间:标签是根据解决方桉时可用的信息构建的。
  • Quality-as-code:说明、测试、支票单和样本-在存储库中。
  • 按设计保密:PII最小化,DSAR/RTBF,居住。
  • Cost-aware:计算标记和错误解决方桉的成本(expected cost)。

2)本体论和标签图

定义标记对象、类、异常和真相来源: 示例(AML/Antifrod):
  • 对象:事务/会话。
  • Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
  • 例外:没有证据的chargeback →"未知"。
  • 来源:案例管理,chargeback注册表,提供商/银行。
YAML电路:
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3)注释说明(guidelines)

结构是:

1.任务说明和业务上下文。

2.具有正/负示例和边界案例的类别定义。

3.源优先级规则(真理>启发式方法>意见)。

4."未知"和升级标准。

5.隐私政策(伪装,代币而不是ID)。

6.常见问题解答和标记清单。

指令片段(Frod):
  • "fraud_confirmed":带有FRAUD标签的经过验证的chargeback/封闭案例。
  • "fraud_suspected":10分钟
  • "法律":窗口中没有60天的旗帜和确认的桉例。
  • "未知":冲突迹象或数据不足。

4)标签来源和点对点规则

自动标签:规则/案例,充电器,自我体验(RG),出价。
地面:调查/监管结果的结果。
点对点时间:决定点后禁止使用事件(t0)。
延迟:例如,chargeback在45-90天后出现→标签"成熟"。

"无未来"SQL模板:
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5)样本: 分层和平衡

罕见的事件:按市场/提供商/日期使用结构化的采样;oversampling稀有类或focal loss。
验证层:按周/市场/tenant保持控股。
制裁/PII:从培训集中排除具有直接ID的字段。

样本偏移控制:
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6)标记一致性(IRR)

测量跨语法一致性:Cohen's κ (2 个注释器)/Krippendorff's α (N注释器,不同的音阶类型)。

地标:
  • κ < 0.4-缺乏一致性→修订说明/示例。
  • 0.4–0.6-复杂任务可接受;>0。6-好;>0。8-很棒。

标记质量卡:
  • 覆盖范围(标记多少),κ/ α按类别和幻灯片,"未知"比例,平均时间,最高错误。

7)QA轮廓和黄金基准

金色套装:1-5%的标记是双检查基准。
蜂蜜锅作业:任务流中隐藏的已知桉例。
第二种观点:对有争议的例子进行升级/仲裁。
回归标记测试:更新海德后重新验证。

8)主动,弱和半对照培训

主动学习:选择"不确定的"示例(最大熵/多样性)。
Weak Supervision: 启发式技术/distant supervision+标签噪声模型。
Semi-Supervised:具有温度阈值并随后进行检查的伪浮标。

管道(草图):
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9)反白血病和时间控制

点对点加入的照片和标签。
从未来禁止标签/照片(在"asof"之后)。
带有转换等效性测试的单独在线/离线管道。
数据集和逻辑的转换("logic_version","data_version","asof_date")。

10)模型质量度量

根据错误的业务成本选择指标:
  • 分类:PR-AUC/ROC-AUC,F1@k,Recall@k,expected cost(FP/FN重量)。
  • 风险评分:KS/ROC-AUC,Brier,校准(ECE),PSI/CSI用于漂移。
  • 建议:NDCG/MAP@K,coverage/diversity,新颖性。
  • 异常:Precision@k, AUCPR在合成/金套件上。
Expected-Cost(伪代码):
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11)幻灯片分析和公平性

幻灯片:市场,提供商,devys/ASN,帐户年龄,存款规模,白天时间。

Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).

动作:重新拍摄幻灯片,在幻灯片上校准,修改阈值,训练重量。

12)生产质量监测

数据/预测漂移:PSI/KL在ficham/scar上。
校准:ECE,可信度图。
阈值稳定性:警报,如果expected成本↑> X%或PR-AUC ↓。
计划/合同:捕获突破性变化(计划注册)。
背面循环:快速手动事件标签(案例关闭,RG结果)。

13)隐私、安全、合规性

PII最小化:别名,单独的安全映射。
居住权:分开的管道/钥匙(EEA/UK/BR);无故禁止跨区域合作。
DSAR/RTBF:可计算投影和选择性编辑。
Legal Hold:用于案例和报告包的WORM档案。
日志:不可更改的访问/导出审核。

14)组织标记过程

工具:任务跟踪器、示例队列、上下文预览、PII掩蔽、热键。
速度和质量控制:注释器的KPI(速度,精度),培训和认证。
转化:"guidelines_version","annotator_id","reviewer_id",时间表。
文档:拨号卡(所有者、来源、窗口、规则、指标)。

15)模式示例

Dataset卡(YAML):
yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
标记QA规则:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
配对矩阵(SQL想法):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16)实施路线图

MVP(2-4周):

1.本体和指令v1,金集(每个域≥1000示例)。

2.带有PII掩码的注释流,每周κ度量。

3.基本模型+离线得分(PR-AUC,开关费用),点对点抽样。

4.监控漂移/漂移;日记和海德版本寄存器。

第二阶段(4-8周):
  • Active/weak-supervision流水线,自动三合会"未知"。
  • 幻灯片分析和公平报告,概率校准。
  • 用于标记集的DSAR/RTBF程序,用于案例的Legal Hold。
第三阶段(8至12周):
  • 完全自动化QA (golden/honey-pots),回归标记测试。
  • Dataset目录和"模型质量"卡;外加成本的阈值编排。
  • Chargeback按标记/地狱成本,SLA按标签更新。

17) RACI

R(响应性):数据科学(本体论,度量),标签Ops(过程/QA),Data Eng(样本/PII/存储)。

A (Accountable): Head of Data / CDO.

C(咨询):合规性/DPO(PII/residency/DSAR),风险/AML/RG(规则),安全(KMS/审计)。
I (Informed):产品/营销/运营/支持。

18)售前支票清单

  • 本体和gaids已获得批准,版本已固定。
  • 质量样本:分层,按时间/市场划分。
  • κ/ α ≥目标阈值;golden-accuracy遵守。
  • 按时收集照片和标签;没有白颈的测试已经通过。
  • 度量标准是根据开销选择的,执行了幻灯片分析和公平。
  • 包括漂移/校准监测;Alertes设置。
  • 遵守PII/DSAR/RTBF和Legal Hold政策;已启用审计。

19)反模式和风险

没有明确标准的标记→低κ,嘈杂的标签。
Lakedge来自未来(事后特征/标签)。
不平衡样本,不考虑成本的ROC-AUC度量。
缺少golden/QA和回归标记测试。
Danaset中的PII没有掩盖或居住。
没有幻灯片分析→区域/提供商的潜在退化。

20)结果

模型质量从标签质量开始。严格的本体论,带有示例的说明,点对点学科,QA轮廓和考虑错误成本的度量标准是iGaming中可复制ML的基础。通过将这些做法嵌入到数据流水线和MLOps中,您将获得可持续、符合道德和合规的模型,这些模型可以轻松地改善业务成果。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。