數據標記和模型質量

1）任命和原則

目的：獲得可再現的標簽和可測量的模型質量，不含湖頸和兼容性。

原則：

Schema-first：形式化的本體，類詞典和標準。
點對點時間：標簽是根據解決方案時可用的信息構建的。
Quality-as-code：說明、測試、支票單和樣本-在存儲庫中。
按設計保密：PII最小化，DSAR/RTBF，居住。
Cost-aware：計算標記和錯誤解決方案的成本（expected cost）。

2）本體論和標簽圖

定義標記對象、類、異常和真相來源：示例（AML/Antifrod）：

對象：事務/會話。
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
例外：沒有證據的chargeback →「未知」。
來源：案例管理，chargeback註冊表，提供商/銀行。

YAML電路：

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3）註釋說明（guidelines）

結構是：

1.任務說明和業務上下文。

2.具有正/負示例和邊界案例的類別定義。

3.源優先級規則（真理>啟發式方法>意見）。

4.「未知」和升級標準。

5.隱私政策（偽裝，代幣而不是ID）。

6.常見問題解答和標記清單。

指令片段（Frod）：

「fraud_confirmed」：帶有FRAUD標簽的經過驗證的chargeback/封閉案例。
「fraud_suspected」：10分鐘
「法律」：窗口中沒有60天的旗幟和確認的案例。
「未知」：沖突跡象或數據不足。

4）標簽來源和點對點規則

自動標簽：規則/案例，充電器，自我體驗（RG），出價。
地面：調查/監管結果的結果。
點對點時間：決定點後禁止使用事件（t0）。
延遲：例如，chargeback在45-90天後出現→標簽「成熟」。

「無未來」SQL模板：

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5）樣本： 分層和平衡

罕見的事件：按市場/提供商/日期使用結構化的采樣；oversampling稀有類或focal loss。
驗證層：按周/市場/tenant保持控股。
制裁/PII：從培訓集中排除具有直接ID的字段。

樣本偏移控制：

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6）標記一致性（IRR）

測量跨語法一致性：Cohen's κ （2 個註釋器）/Krippendorff's α （N註釋器,不同的音階類型）。

地標：

κ < 0.4-缺乏一致性→修訂說明/示例。

0.4–0.6-復雜任務可接受；>0。6-好；>0。8-很棒。

標記質量卡：

覆蓋範圍（標記多少），κ/ α按類別和幻燈片，「未知」比例，平均時間，最高錯誤。

7）QA輪廓和黃金基準

金色套裝：1-5%的標記是雙檢查基準。
蜂蜜鍋作業：任務流中隱藏的已知案例。
第二種觀點：對有爭議的例子進行升級/仲裁。
回歸標記測試：更新海德後重新驗證。

8）主動，弱和半對照培訓

主動學習：選擇「不確定的」示例（最大熵/多樣性）。
Weak Supervision：啟發式技術/distant supervision+標簽噪聲模型。
Semi-Supervised：具有溫度閾值並隨後進行檢查的偽浮標。

管道（草圖）：

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9）反白血病和時間控制

點對點加入的照片和標簽。
從未來禁止標簽/照片（在「asof」之後）。
帶有轉換等效性測試的單獨在線/離線管道。
數據集和邏輯的轉換（「logic_version」，「data_version」，「asof_date」）。

10）模型質量度量

根據錯誤的業務成本選擇指標：

分類：PR-AUC/ROC-AUC，F1@k，Recall@k，expected cost（FP/FN重量）。
風險評分：KS/ROC-AUC，Brier，校準（ECE），PSI/CSI用於漂移。
建議：NDCG/MAP@K，coverage/diversity，新穎性。
異常：Precision@k, AUCPR在合成/金套件上。

Expected-Cost（偽代碼）：

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11）幻燈片分析和公平性

幻燈片：市場，提供商，devys/ASN，帳戶年齡，存款規模，白天時間。

Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).

動作：重新拍攝幻燈片,在幻燈片上校準,修改閾值,訓練重量。

12）生產質量監測

數據/預測漂移：PSI/KL在ficham/scar上。
校準：ECE，可信度圖。
閾值穩定性：警報,如果expected成本↑> X%或PR-AUC ↓。
計劃/合同：捕獲突破性變化（計劃註冊）。
背面循環：快速手動事件標簽（案例關閉，RG結果）。

13）隱私、安全、合規性

PII最小化：別名，單獨的安全映射。
居住權：分開的管道/鑰匙（EEA/UK/BR）；無故禁止跨區域合作。
DSAR/RTBF：可計算投影和選擇性編輯。
Legal Hold：用於案例和報告包的WORM檔案。
日誌：不可更改的訪問/導出審核。

14）組織標記過程

工具：任務跟蹤器、示例隊列、上下文預覽、PII掩蔽、熱鍵。
速度和質量控制：註釋器的KPI（速度，精度），培訓和認證。
轉化：「guidelines_version」，「annotator_id」，「reviewer_id」，時間表。
文檔：撥號卡（所有者、來源、窗口、規則、指標）。

15）模式示例

Dataset卡（YAML）：

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

標記QA規則：

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

配對矩陣（SQL想法）：

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16）實施路線圖

MVP（2-4周）：

1.本體和指令v1，金集（每個域≥1000示例）。

2.帶有PII掩碼的註釋流，每周κ度量。

3.基本模型+離線得分（PR-AUC，開關費用），點對點抽樣。

4.監控漂移/漂移；日記和海德版本寄存器。

第二階段（4-8周）：

Active/weak-supervision流水線，自動三合會「未知」。
幻燈片分析和公平報告，概率校準。
用於標記集的DSAR/RTBF程序，用於案例的Legal Hold。

第三階段（8至12周）：

完全自動化QA （golden/honey-pots）,回歸標記測試。
Dataset目錄和「模型質量」卡；外加成本的閾值編排。
Chargeback按標記/地獄成本，SLA按標簽更新。

17) RACI

R（響應性）：數據科學（本體論，度量），標簽Ops（過程/QA），Data Eng（樣本/PII/存儲）。

A (Accountable): Head of Data / CDO.

C（咨詢）：合規性/DPO（PII/residency/DSAR），風險/AML/RG（規則），安全（KMS/審計）。
I （Informed）：產品/營銷/運營/支持。

18）售前支票清單

本體和gaids已獲得批準，版本已固定。
質量樣本：分層，按時間/市場劃分。
κ/ α ≥目標閾值；golden-accuracy遵守。
按時收集照片和標簽；沒有白頸的測試已經通過。
度量標準是根據開銷選擇的，執行了幻燈片分析和公平。
包括漂移/校準監測；Alertes設置。
遵守PII/DSAR/RTBF和Legal Hold政策；已啟用審計。

19）反模式和風險

沒有明確標準的標記→低κ，嘈雜的標簽。
Lakedge來自未來（事後特征/標簽）。
不平衡樣本，不考慮成本的ROC-AUC度量。
缺少golden/QA和回歸標記測試。
Danaset中的PII沒有掩蓋或居住。
沒有幻燈片分析→區域/提供商的潛在退化。

20）結果

模型質量從標簽質量開始。嚴格的本體論，帶有示例的說明，點對點學科，QA輪廓和考慮錯誤成本的度量標準是iGaming中可復制ML的基礎。通過將這些做法嵌入到數據流水線和MLOps中，您將獲得可持續、符合道德和合規的模型，這些模型可以輕松地改善業務成果。

數據標記和模型質量

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案