数据标记和模型质量

1）任命和原则

目的：获得可再现的标签和可测量的模型质量，不含湖颈和兼容性。

原则：

Schema-first：形式化的本体，类词典和标准。
点对点时间：标签是根据解决方桉时可用的信息构建的。
Quality-as-code：说明、测试、支票单和样本-在存储库中。
按设计保密：PII最小化，DSAR/RTBF，居住。
Cost-aware：计算标记和错误解决方桉的成本（expected cost）。

2）本体论和标签图

定义标记对象、类、异常和真相来源：示例（AML/Antifrod）：

对象：事务/会话。
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
例外：没有证据的chargeback →"未知"。
来源：案例管理，chargeback注册表，提供商/银行。

YAML电路：

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3）注释说明（guidelines）

结构是：

1.任务说明和业务上下文。

2.具有正/负示例和边界案例的类别定义。

3.源优先级规则（真理>启发式方法>意见）。

4."未知"和升级标准。

5.隐私政策（伪装，代币而不是ID）。

6.常见问题解答和标记清单。

指令片段（Frod）：

"fraud_confirmed"：带有FRAUD标签的经过验证的chargeback/封闭案例。
"fraud_suspected"：10分钟
"法律"：窗口中没有60天的旗帜和确认的桉例。
"未知"：冲突迹象或数据不足。

4）标签来源和点对点规则

自动标签：规则/案例，充电器，自我体验（RG），出价。
地面：调查/监管结果的结果。
点对点时间：决定点后禁止使用事件（t0）。
延迟：例如，chargeback在45-90天后出现→标签"成熟"。

"无未来"SQL模板：

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5）样本： 分层和平衡

罕见的事件：按市场/提供商/日期使用结构化的采样；oversampling稀有类或focal loss。
验证层：按周/市场/tenant保持控股。
制裁/PII：从培训集中排除具有直接ID的字段。

样本偏移控制：

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6）标记一致性（IRR）

测量跨语法一致性：Cohen's κ （2 个注释器）/Krippendorff's α （N注释器,不同的音阶类型）。

地标：

κ < 0.4-缺乏一致性→修订说明/示例。

0.4–0.6-复杂任务可接受；>0。6-好；>0。8-很棒。

标记质量卡：

覆盖范围（标记多少），κ/ α按类别和幻灯片，"未知"比例，平均时间，最高错误。

7）QA轮廓和黄金基准

金色套装：1-5%的标记是双检查基准。
蜂蜜锅作业：任务流中隐藏的已知桉例。
第二种观点：对有争议的例子进行升级/仲裁。
回归标记测试：更新海德后重新验证。

8）主动，弱和半对照培训

主动学习：选择"不确定的"示例（最大熵/多样性）。
Weak Supervision：启发式技术/distant supervision+标签噪声模型。
Semi-Supervised：具有温度阈值并随后进行检查的伪浮标。

管道（草图）：

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9）反白血病和时间控制

点对点加入的照片和标签。
从未来禁止标签/照片（在"asof"之后）。
带有转换等效性测试的单独在线/离线管道。
数据集和逻辑的转换（"logic_version"，"data_version"，"asof_date"）。

10）模型质量度量

根据错误的业务成本选择指标：

分类：PR-AUC/ROC-AUC，F1@k，Recall@k，expected cost（FP/FN重量）。
风险评分：KS/ROC-AUC，Brier，校准（ECE），PSI/CSI用于漂移。
建议：NDCG/MAP@K，coverage/diversity，新颖性。
异常：Precision@k, AUCPR在合成/金套件上。

Expected-Cost（伪代码）：

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11）幻灯片分析和公平性

幻灯片：市场，提供商，devys/ASN，帐户年龄，存款规模，白天时间。

Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).

动作：重新拍摄幻灯片,在幻灯片上校准,修改阈值,训练重量。

12）生产质量监测

数据/预测漂移：PSI/KL在ficham/scar上。
校准：ECE，可信度图。
阈值稳定性：警报,如果expected成本↑> X%或PR-AUC ↓。
计划/合同：捕获突破性变化（计划注册）。
背面循环：快速手动事件标签（案例关闭，RG结果）。

13）隐私、安全、合规性

PII最小化：别名，单独的安全映射。
居住权：分开的管道/钥匙（EEA/UK/BR）；无故禁止跨区域合作。
DSAR/RTBF：可计算投影和选择性编辑。
Legal Hold：用于案例和报告包的WORM档案。
日志：不可更改的访问/导出审核。

14）组织标记过程

工具：任务跟踪器、示例队列、上下文预览、PII掩蔽、热键。
速度和质量控制：注释器的KPI（速度，精度），培训和认证。
转化："guidelines_version"，"annotator_id"，"reviewer_id"，时间表。
文档：拨号卡（所有者、来源、窗口、规则、指标）。

15）模式示例

Dataset卡（YAML）：

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

标记QA规则：

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

配对矩阵（SQL想法）：

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16）实施路线图

MVP（2-4周）：

1.本体和指令v1，金集（每个域≥1000示例）。

2.带有PII掩码的注释流，每周κ度量。

3.基本模型+离线得分（PR-AUC，开关费用），点对点抽样。

4.监控漂移/漂移；日记和海德版本寄存器。

第二阶段（4-8周）：

Active/weak-supervision流水线，自动三合会"未知"。
幻灯片分析和公平报告，概率校准。
用于标记集的DSAR/RTBF程序，用于案例的Legal Hold。

第三阶段（8至12周）：

完全自动化QA （golden/honey-pots）,回归标记测试。
Dataset目录和"模型质量"卡；外加成本的阈值编排。
Chargeback按标记/地狱成本，SLA按标签更新。

17) RACI

R（响应性）：数据科学（本体论，度量），标签Ops（过程/QA），Data Eng（样本/PII/存储）。

A (Accountable): Head of Data / CDO.

C（咨询）：合规性/DPO（PII/residency/DSAR），风险/AML/RG（规则），安全（KMS/审计）。
I （Informed）：产品/营销/运营/支持。

18）售前支票清单

本体和gaids已获得批准，版本已固定。
质量样本：分层，按时间/市场划分。
κ/ α ≥目标阈值；golden-accuracy遵守。
按时收集照片和标签；没有白颈的测试已经通过。
度量标准是根据开销选择的，执行了幻灯片分析和公平。
包括漂移/校准监测；Alertes设置。
遵守PII/DSAR/RTBF和Legal Hold政策；已启用审计。

19）反模式和风险

没有明确标准的标记→低κ，嘈杂的标签。
Lakedge来自未来（事后特征/标签）。
不平衡样本，不考虑成本的ROC-AUC度量。
缺少golden/QA和回归标记测试。
Danaset中的PII没有掩盖或居住。
没有幻灯片分析→区域/提供商的潜在退化。

20）结果

模型质量从标签质量开始。严格的本体论，带有示例的说明，点对点学科，QA轮廓和考虑错误成本的度量标准是iGaming中可复制ML的基础。通过将这些做法嵌入到数据流水线和MLOps中，您将获得可持续、符合道德和合规的模型，这些模型可以轻松地改善业务成果。

数据标记和模型质量

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目