數據標記和模型質量
1)任命和原則
目的:獲得可再現的標簽和可測量的模型質量,不含湖頸和兼容性。
原則:- Schema-first:形式化的本體,類詞典和標準。
- 點對點時間:標簽是根據解決方案時可用的信息構建的。
- Quality-as-code:說明、測試、支票單和樣本-在存儲庫中。
- 按設計保密:PII最小化,DSAR/RTBF,居住。
- Cost-aware:計算標記和錯誤解決方案的成本(expected cost)。
2)本體論和標簽圖
定義標記對象、類、異常和真相來源: 示例(AML/Antifrod):- 對象:事務/會話。
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- 例外:沒有證據的chargeback →「未知」。
- 來源:案例管理,chargeback註冊表,提供商/銀行。
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3)註釋說明(guidelines)
結構是:1.任務說明和業務上下文。
2.具有正/負示例和邊界案例的類別定義。
3.源優先級規則(真理>啟發式方法>意見)。
4.「未知」和升級標準。
5.隱私政策(偽裝,代幣而不是ID)。
6.常見問題解答和標記清單。
指令片段(Frod):- 「fraud_confirmed」:帶有FRAUD標簽的經過驗證的chargeback/封閉案例。
- 「fraud_suspected」:10分鐘
- 「法律」:窗口中沒有60天的旗幟和確認的案例。
- 「未知」:沖突跡象或數據不足。
4)標簽來源和點對點規則
自動標簽:規則/案例,充電器,自我體驗(RG),出價。
地面:調查/監管結果的結果。
點對點時間:決定點後禁止使用事件(t0)。
延遲:例如,chargeback在45-90天後出現→標簽「成熟」。
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5)樣本: 分層和平衡
罕見的事件:按市場/提供商/日期使用結構化的采樣;oversampling稀有類或focal loss。
驗證層:按周/市場/tenant保持控股。
制裁/PII:從培訓集中排除具有直接ID的字段。
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6)標記一致性(IRR)
測量跨語法一致性:Cohen's κ (2 個註釋器)/Krippendorff's α (N註釋器,不同的音階類型)。
地標:- κ < 0.4-缺乏一致性→修訂說明/示例。
0.4–0.6-復雜任務可接受;>0。6-好;>0。8-很棒。
- 覆蓋範圍(標記多少),κ/ α按類別和幻燈片,「未知」比例,平均時間,最高錯誤。
7)QA輪廓和黃金基準
金色套裝:1-5%的標記是雙檢查基準。
蜂蜜鍋作業:任務流中隱藏的已知案例。
第二種觀點:對有爭議的例子進行升級/仲裁。
回歸標記測試:更新海德後重新驗證。
8)主動,弱和半對照培訓
主動學習:選擇「不確定的」示例(最大熵/多樣性)。
Weak Supervision: 啟發式技術/distant supervision+標簽噪聲模型。
Semi-Supervised:具有溫度閾值並隨後進行檢查的偽浮標。
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9)反白血病和時間控制
點對點加入的照片和標簽。
從未來禁止標簽/照片(在「asof」之後)。
帶有轉換等效性測試的單獨在線/離線管道。
數據集和邏輯的轉換(「logic_version」,「data_version」,「asof_date」)。
10)模型質量度量
根據錯誤的業務成本選擇指標:- 分類:PR-AUC/ROC-AUC,F1@k,Recall@k,expected cost(FP/FN重量)。
- 風險評分:KS/ROC-AUC,Brier,校準(ECE),PSI/CSI用於漂移。
- 建議:NDCG/MAP@K,coverage/diversity,新穎性。
- 異常:Precision@k, AUCPR在合成/金套件上。
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11)幻燈片分析和公平性
幻燈片:市場,提供商,devys/ASN,帳戶年齡,存款規模,白天時間。
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
動作:重新拍攝幻燈片,在幻燈片上校準,修改閾值,訓練重量。
12)生產質量監測
數據/預測漂移:PSI/KL在ficham/scar上。
校準:ECE,可信度圖。
閾值穩定性:警報,如果expected成本↑> X%或PR-AUC ↓。
計劃/合同:捕獲突破性變化(計劃註冊)。
背面循環:快速手動事件標簽(案例關閉,RG結果)。
13)隱私、安全、合規性
PII最小化:別名,單獨的安全映射。
居住權:分開的管道/鑰匙(EEA/UK/BR);無故禁止跨區域合作。
DSAR/RTBF:可計算投影和選擇性編輯。
Legal Hold:用於案例和報告包的WORM檔案。
日誌:不可更改的訪問/導出審核。
14)組織標記過程
工具:任務跟蹤器、示例隊列、上下文預覽、PII掩蔽、熱鍵。
速度和質量控制:註釋器的KPI(速度,精度),培訓和認證。
轉化:「guidelines_version」,「annotator_id」,「reviewer_id」,時間表。
文檔:撥號卡(所有者、來源、窗口、規則、指標)。
15)模式示例
Dataset卡(YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
標記QA規則:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
配對矩陣(SQL想法):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16)實施路線圖
MVP(2-4周):1.本體和指令v1,金集(每個域≥1000示例)。
2.帶有PII掩碼的註釋流,每周κ度量。
3.基本模型+離線得分(PR-AUC,開關費用),點對點抽樣。
4.監控漂移/漂移;日記和海德版本寄存器。
第二階段(4-8周):- Active/weak-supervision流水線,自動三合會「未知」。
- 幻燈片分析和公平報告,概率校準。
- 用於標記集的DSAR/RTBF程序,用於案例的Legal Hold。
- 完全自動化QA (golden/honey-pots),回歸標記測試。
- Dataset目錄和「模型質量」卡;外加成本的閾值編排。
- Chargeback按標記/地獄成本,SLA按標簽更新。
17) RACI
R(響應性):數據科學(本體論,度量),標簽Ops(過程/QA),Data Eng(樣本/PII/存儲)。
A (Accountable): Head of Data / CDO.
C(咨詢):合規性/DPO(PII/residency/DSAR),風險/AML/RG(規則),安全(KMS/審計)。
I (Informed):產品/營銷/運營/支持。
18)售前支票清單
- 本體和gaids已獲得批準,版本已固定。
- 質量樣本:分層,按時間/市場劃分。
- κ/ α ≥目標閾值;golden-accuracy遵守。
- 按時收集照片和標簽;沒有白頸的測試已經通過。
- 度量標準是根據開銷選擇的,執行了幻燈片分析和公平。
- 包括漂移/校準監測;Alertes設置。
- 遵守PII/DSAR/RTBF和Legal Hold政策;已啟用審計。
19)反模式和風險
沒有明確標準的標記→低κ,嘈雜的標簽。
Lakedge來自未來(事後特征/標簽)。
不平衡樣本,不考慮成本的ROC-AUC度量。
缺少golden/QA和回歸標記測試。
Danaset中的PII沒有掩蓋或居住。
沒有幻燈片分析→區域/提供商的潛在退化。
20)結果
模型質量從標簽質量開始。嚴格的本體論,帶有示例的說明,點對點學科,QA輪廓和考慮錯誤成本的度量標準是iGaming中可復制ML的基礎。通過將這些做法嵌入到數據流水線和MLOps中,您將獲得可持續、符合道德和合規的模型,這些模型可以輕松地改善業務成果。