データマークアップとモデル品質
1)目的と原則
目標:白血病なしで、コンプライアンスを考慮してモデルの再現可能なラベルと測定可能な品質を取得する。
原則:- Schema-first:形式化されたオントロジー、クラス辞書、および基準。
- ポイントインタイム:ラベルは、決定時に利用可能な情報から構築されます。
- コードとしての品質:リポジトリ内の指示、テスト、チェックリスト、および選択。
- プライバシー・バイ・デザイン:PII最小化、DSAR/RTBF、レジデンシー。
- コスト意識:マークアップのコストと予想コストを考慮してください。
2)オントロジーとラベルスキーム
マークアップオブジェクト、クラス、例外、および真実のソースを定義します: 例(AML/Antifraud):- オブジェクト:トランザクション/セッション。
- 検索結果:'legit'、 'fraud_suspected'、 'fraud_confidented'、 'unknown'。
- 例外:証拠なしのチャージバック→「不明」。
- ソース:ケース管理、チャージバック登録、プロバイダ/銀行。
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3)ガイドライン
構造:1.タスクとビジネスコンテキストの説明。
2.正/負の例とボーダーラインケースを持つクラス定義。
3.ソース優先ルール(true>ヒューリスティック>オピニオン)。
4.「不明」とエスカレーション基準。
5.プライバシーポリシー(マスキング、IDの代わりにトークン)。
6.FAQとマークアップチェックリスト。
命令の断片(詐欺):- 'fraud_confidentied':実績のあるchargeback/closed case with FRAUD tag。
- 'fraud_suspended':入金≥ 3<10分でREPORT_LIMIT+IPバンドル/リングカード。
- 'legit': 60日間のウィンドウにはフラグと確認されたケースはありません。
- 'unknown':相反する特性または不十分なデータ。
4)ラベルソースとポイントインタイムルール
自動ラベル:ルール/ケース、チャージバック、自己排除(RG)、結果ベット。
グラウンド:調査/規制の結果。
Point-in-time-Do not use events after the decision point (t0)。
遅延:例えば、チャージバックは45-90日後に表示されます→ラベル「成熟」。
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5)サンプル: 層別化およびバランス
まれなイベント:市場/プロバイダ/日付による層別サンプリングを使用します。まれなクラスまたは焦点損失を過剰に増幅します。
検証レイヤー:週/市場/テナントごとにホールドアウトを保持します。
制裁/PII:トレーニングセットから直接IDフィールドを除外します。
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6)トレーサーの一貫性(IRR)
注釈間合意を測定する:コーエンのκ (2アノテータ)/クリッペンドルフのα (Nアノテータ、異なるスケールタイプ)。
ランドマーク:- κ < 0.4-不整合→指示/例を修正します。
0.4–0.6-複雑なタスクに受け入れられます。>0.6-良い;>0.8は優れています。
- カバレッジ(マークされている数)、クラス別のκ/ α、スライス、「不明」シェア、平均時間、トップエラー。
7) QA回路および金の標準
ゴールデンセット:1-5%マーク-ダブルチェックされたベンチマーク。
ハニーポットタスク:タスクストリームに隠された既知のケース。
第二の外観:物議を醸す例のエスカレーション/アービトラージ。
マーキング回帰テスト:ガイドを更新した後の再検討。
8)活動的で、弱く、半指導された学習
アクティブラーニング:「不確実な」例(最大エントロピー/多様性)の選択。
弱い監督:ラベルのためのヒューリスティクス/遠くの監督+騒音モデル。
Semi-Supervised:温度のしきい値とその後の検証を持つ疑似ラベル。
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9)反白血病および時間制御
特徴およびラベルのためのポイント・イン・タイムの結合。
未来からのラベル/フィーチャーの禁止('asof'の後)。
オンライン/オフラインパイプラインと変換等価性テストを分離します。
データとロジックバージョン('logic_version'、 'data_version'、 'asof_date')
10)モデル品質指標
エラーのビジネスコストのメトリックを選択:- 分類:PR-AUC/ROC-AUC、 F1@k、 Recall@k、予想コスト(FP/FN重量)。
- リスクスコアリング:KS/ROC-AUC、 Brier、キャリブレーション(ECE)、ドリフト用PSI/CSI。
- 推奨事項:NDCG/MAP@K、カバレッジ/多様性、ノベルティ。
- 異常:Precision@k、合成/金セットのAUCPR。
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11)スライス分析と公平性
スライス:市場、プロバイダー、デバイス/ASN、アカウントの年齢、預金サイズ、時間の日。
公平性:異なる影響(比率)、等化オッズ(разница FPR/TPR)。
アクション:機能の再構成、スライスによるキャリブレーション、しきい値の改訂、トレーニングの重み。
12)生産の質の監視
データ/予測ドリフト:PSI/KL over features/rate。
キャリブレーション:ECE、信頼性チャート。
しきい値の安定性:予期されたコストの場合にアラートが発生します。
スキーム/コントラクト:変更を破る(スキーマレジストリ)をキャッチします。
フィードバックループ:高速手動インシデントラベル(ケースクローズ、RG-アウトカム)。
13)プライバシー、セキュリティ、コンプライアンス
PII最小化:仮名、個別の保護マッピング。
居住:別のパイプライン/キー(EEA/UK/BR);理由なくクロスリージョナルジョインを禁止します。
DSAR/RTBF:計算可能な投影と選択的編集。
Legal Hold:ケースとレポートパッケージのWORMアーカイブ。
ログ:変更できないアクセス/エクスポート監査。
14)マーキングプロセスの組織
ツール:タスクトラッカー、キュー例、コンテキストプレビュー、PIIマスキング、ホットキー。
速度および品質管理:注釈器のKPI(速度、金の正確さ)、訓練および証明。
バージョン管理:'guidelines_version'、 'annotator_id'、 'reviewer_id'、タイムスタンプ。
ドキュメント:カード(所有者、ソース、ウィンドウ、ルール、メトリック)を設定します。
15)サンプルテンプレート
データセットカード(YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
QAの印の規則:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
混乱行列(SQL idea):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16)実装ロードマップ
MVP (2-4週):1.オントロジーとv1命令、ゴールドセット(ドメインあたり1000例を≥)。
2.PIIマスキングによる注釈フロー、毎週κメトリック。
3.ベースラインモデル+オフライン推定(PR-AUC、予想コスト)、ポイントインタイムサンプリング。
4.特徴/率の漂流を監視して下さい;データセットおよびガイドのバージョンの登録。
フェーズ2(4-8週間):- アクティブ/弱い監督パイプライン、自動トリアージ「不明」。
- スライス分析と公平性レポート、確率キャリブレーション。
- マーク付きセットのDSAR/RTBF手続き、ケースの法的保持。
- 完全なQAのオートメーション(黄金/蜂蜜鍋)、マークアップの回帰テスト。
- データセットと「モデル品質」カードのカタログ。期待される費用のしきい値の保持。
- マークアップ/推論コストによるチャージバック、ラベル更新によるSLA。
17) RACI
R(責任ある):データサイエンス(オントロジー、メトリクス)、Label Ops (プロセス/QA)、 Data Eng (サンプル/PII/ストレージ)。
A(説明責任):データ/CDOの責任者。
C(コンサルティング):コンプライアンス/DPO (PII/レジデンシー/DSAR)、 リスク/AML/RG(ポリシー)、セキュリティ(KMS/監査)。
I (Informed):製品/マーケティング/オペレーション/サポート。
18)売り上げ前のチェックリスト
- オントロジーとガイドが承認され、バージョンが修正されました。
- 質的なサンプル:層別化、時間/市場によるホールドアウト。
- κ/ α ≥ターゲットしきい値の黄金精度に準拠しています。
- 特徴およびラベルのポイント・イン・タイムのコレクション;白血病の不在のためのテストは合格しました。
- 期待されるコスト、スライス分析、公平性によって選択されたメトリック。
- ドリフト/キャリブレーションモニタリング;アラートが設定されています。
- PII/DSAR/RTBFおよび法的保持ポリシーが施行されました。監査が有効になっています。
19)アンチパターンとリスク
明確な基準のないマークアップ→低いκ、騒々しいラベル。
Lakage from the future (post-factual signs/labels)。
アンバランスサンプル、コストを除くROC-AUCメトリック。
黄金/QAおよび回帰マークアップテストの欠如。
マスクされていないデータセットとレジデンシーデータセットのPII。
スライス解析なし→リージョン/プロバイダの非表示の劣化。
20)ボトムライン
モデル品質はラベル品質から始まります。厳密なオントロジー、例を含む指示、ポイントインタイムの規律、QAの輪郭とエラーのコストを考慮に入れるメトリクスは、iGamingで再現可能なMLの基礎です。データパイプラインとMLOpsにこれらの慣行を組み込むことで、驚くことなくビジネス結果を改善する持続可能で倫理的で準拠したモデルを得ることができます。