GH GambleHub

數據標記和模型質量

1)任命和原則

目的:獲得可再現的標簽和可測量的模型質量,不含湖頸和兼容性。

原則:
  • Schema-first:形式化的本體,類詞典和標準。
  • 點對點時間:標簽是根據解決方案時可用的信息構建的。
  • Quality-as-code:說明、測試、支票單和樣本-在存儲庫中。
  • 按設計保密:PII最小化,DSAR/RTBF,居住。
  • Cost-aware:計算標記和錯誤解決方案的成本(expected cost)。

2)本體論和標簽圖

定義標記對象、類、異常和真相來源: 示例(AML/Antifrod):
  • 對象:事務/會話。
  • Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
  • 例外:沒有證據的chargeback →「未知」。
  • 來源:案例管理,chargeback註冊表,提供商/銀行。
YAML電路:
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3)註釋說明(guidelines)

結構是:

1.任務說明和業務上下文。

2.具有正/負示例和邊界案例的類別定義。

3.源優先級規則(真理>啟發式方法>意見)。

4.「未知」和升級標準。

5.隱私政策(偽裝,代幣而不是ID)。

6.常見問題解答和標記清單。

指令片段(Frod):
  • 「fraud_confirmed」:帶有FRAUD標簽的經過驗證的chargeback/封閉案例。
  • 「fraud_suspected」:10分鐘
  • 「法律」:窗口中沒有60天的旗幟和確認的案例。
  • 「未知」:沖突跡象或數據不足。

4)標簽來源和點對點規則

自動標簽:規則/案例,充電器,自我體驗(RG),出價。
地面:調查/監管結果的結果。
點對點時間:決定點後禁止使用事件(t0)。
延遲:例如,chargeback在45-90天後出現→標簽「成熟」。

「無未來」SQL模板:
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5)樣本: 分層和平衡

罕見的事件:按市場/提供商/日期使用結構化的采樣;oversampling稀有類或focal loss。
驗證層:按周/市場/tenant保持控股。
制裁/PII:從培訓集中排除具有直接ID的字段。

樣本偏移控制:
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6)標記一致性(IRR)

測量跨語法一致性:Cohen's κ (2 個註釋器)/Krippendorff's α (N註釋器,不同的音階類型)。

地標:
  • κ < 0.4-缺乏一致性→修訂說明/示例。
  • 0.4–0.6-復雜任務可接受;>0。6-好;>0。8-很棒。

標記質量卡:
  • 覆蓋範圍(標記多少),κ/ α按類別和幻燈片,「未知」比例,平均時間,最高錯誤。

7)QA輪廓和黃金基準

金色套裝:1-5%的標記是雙檢查基準。
蜂蜜鍋作業:任務流中隱藏的已知案例。
第二種觀點:對有爭議的例子進行升級/仲裁。
回歸標記測試:更新海德後重新驗證。

8)主動,弱和半對照培訓

主動學習:選擇「不確定的」示例(最大熵/多樣性)。
Weak Supervision: 啟發式技術/distant supervision+標簽噪聲模型。
Semi-Supervised:具有溫度閾值並隨後進行檢查的偽浮標。

管道(草圖):
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9)反白血病和時間控制

點對點加入的照片和標簽。
從未來禁止標簽/照片(在「asof」之後)。
帶有轉換等效性測試的單獨在線/離線管道。
數據集和邏輯的轉換(「logic_version」,「data_version」,「asof_date」)。

10)模型質量度量

根據錯誤的業務成本選擇指標:
  • 分類:PR-AUC/ROC-AUC,F1@k,Recall@k,expected cost(FP/FN重量)。
  • 風險評分:KS/ROC-AUC,Brier,校準(ECE),PSI/CSI用於漂移。
  • 建議:NDCG/MAP@K,coverage/diversity,新穎性。
  • 異常:Precision@k, AUCPR在合成/金套件上。
Expected-Cost(偽代碼):
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11)幻燈片分析和公平性

幻燈片:市場,提供商,devys/ASN,帳戶年齡,存款規模,白天時間。

Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).

動作:重新拍攝幻燈片,在幻燈片上校準,修改閾值,訓練重量。

12)生產質量監測

數據/預測漂移:PSI/KL在ficham/scar上。
校準:ECE,可信度圖。
閾值穩定性:警報,如果expected成本↑> X%或PR-AUC ↓。
計劃/合同:捕獲突破性變化(計劃註冊)。
背面循環:快速手動事件標簽(案例關閉,RG結果)。

13)隱私、安全、合規性

PII最小化:別名,單獨的安全映射。
居住權:分開的管道/鑰匙(EEA/UK/BR);無故禁止跨區域合作。
DSAR/RTBF:可計算投影和選擇性編輯。
Legal Hold:用於案例和報告包的WORM檔案。
日誌:不可更改的訪問/導出審核。

14)組織標記過程

工具:任務跟蹤器、示例隊列、上下文預覽、PII掩蔽、熱鍵。
速度和質量控制:註釋器的KPI(速度,精度),培訓和認證。
轉化:「guidelines_version」,「annotator_id」,「reviewer_id」,時間表。
文檔:撥號卡(所有者、來源、窗口、規則、指標)。

15)模式示例

Dataset卡(YAML):
yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
標記QA規則:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
配對矩陣(SQL想法):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16)實施路線圖

MVP(2-4周):

1.本體和指令v1,金集(每個域≥1000示例)。

2.帶有PII掩碼的註釋流,每周κ度量。

3.基本模型+離線得分(PR-AUC,開關費用),點對點抽樣。

4.監控漂移/漂移;日記和海德版本寄存器。

第二階段(4-8周):
  • Active/weak-supervision流水線,自動三合會「未知」。
  • 幻燈片分析和公平報告,概率校準。
  • 用於標記集的DSAR/RTBF程序,用於案例的Legal Hold。
第三階段(8至12周):
  • 完全自動化QA (golden/honey-pots),回歸標記測試。
  • Dataset目錄和「模型質量」卡;外加成本的閾值編排。
  • Chargeback按標記/地獄成本,SLA按標簽更新。

17) RACI

R(響應性):數據科學(本體論,度量),標簽Ops(過程/QA),Data Eng(樣本/PII/存儲)。

A (Accountable): Head of Data / CDO.

C(咨詢):合規性/DPO(PII/residency/DSAR),風險/AML/RG(規則),安全(KMS/審計)。
I (Informed):產品/營銷/運營/支持。

18)售前支票清單

  • 本體和gaids已獲得批準,版本已固定。
  • 質量樣本:分層,按時間/市場劃分。
  • κ/ α ≥目標閾值;golden-accuracy遵守。
  • 按時收集照片和標簽;沒有白頸的測試已經通過。
  • 度量標準是根據開銷選擇的,執行了幻燈片分析和公平。
  • 包括漂移/校準監測;Alertes設置。
  • 遵守PII/DSAR/RTBF和Legal Hold政策;已啟用審計。

19)反模式和風險

沒有明確標準的標記→低κ,嘈雜的標簽。
Lakedge來自未來(事後特征/標簽)。
不平衡樣本,不考慮成本的ROC-AUC度量。
缺少golden/QA和回歸標記測試。
Danaset中的PII沒有掩蓋或居住。
沒有幻燈片分析→區域/提供商的潛在退化。

20)結果

模型質量從標簽質量開始。嚴格的本體論,帶有示例的說明,點對點學科,QA輪廓和考慮錯誤成本的度量標準是iGaming中可復制ML的基礎。通過將這些做法嵌入到數據流水線和MLOps中,您將獲得可持續、符合道德和合規的模型,這些模型可以輕松地改善業務成果。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。