Datenmarkierung und Modellqualität
1) Zweck und Grundsätze
Das Ziel: reproduzierbare Labels und messbare Modellqualität ohne Leukage und unter Berücksichtigung der Compliance zu erhalten.
Grundsätze:- Schema-first: formalisierte Ontologien, Klassenwörterbücher und Kriterien.
- Point-in-Time: Labels werden aus den zum Zeitpunkt der Entscheidung verfügbaren Informationen aufgebaut.
- Quality-as-code: Anweisungen, Tests, Checklisten und Stichproben befinden sich im Repository.
- Privacy-by-Design: Minimierung von PII, DSAR/RTBF, Residency.
- Kosten-aware: Wir betrachten die Kosten für Markierungen und fehlerhafte Entscheidungen (erwartete Kosten).
2) Ontologie und Etikettenschema
Identifizieren Sie das Markup-Objekt, die Klassen, Ausnahmen und Wahrheitsquellen: Beispiel (AML/Fraud):- Objekt: Transaktion/Sitzung.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- Ausnahmen: chargeback ohne Nachweis → 'unknown'.
- Quellen: Fallmanagement, Chargeback-Register, Anbieter/Bank.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Annotationsanweisungen (Richtlinien)
Struktur:1. Beschreibung der Aufgabe und des Geschäftskontexts.
2. Klassendefinitionen mit positiven/negativen Beispielen und Grenzfällen.
3. Regeln für die Priorität von Quellen (Wahrheit> Heuristik> Meinung).
4. Kriterien für 'unknown' und Eskalation.
5. Datenschutzrichtlinien (Maskierung, Token statt ID).
6. FAQ und Checkliste des Markierers.
Fragment der Anweisungen (Betrug):- 'fraud _ confirmed': nachgewiesener Chargeback/geschlossener Fall mit dem Tag FRAUD.
- 'fraud _ suspected': ≥3 der Einzahlung
- 'legit': keine Flaggen und bestätigte Fälle in einem Fenster von 60 Tagen.
- 'unknown': widersprüchliche Merkmale oder unzureichende Daten.
4) Label-Quellen und Point-in-Time-Regeln
Auto-Labels: Regeln/Fälle, Chargeback, Selbstausschluss (RG), Outcome-Wetten.
Ground-Truth: Ergebnis der Untersuchung/regulatorische Ergebnisse.
Point-in-time: Es ist verboten, Ereignisse nach dem Zeitpunkt der Entscheidung (t0) zu verwenden.
Verzögerungen: Zum Beispiel zeigt sich das Chargeback nach 45-90 Tagen → das Label „reift“.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Stichproben: Schichtung und Balance
Seltene Ereignisse: use stratified sampling nach Märkten/Anbietern/Daten; oversampling seltene Klassen oder focal loss.
Validierungsschichten: Holdout über Wochen/Märkte/Tenanten halten.
Sanktionen/PII: Schließen Sie Felder mit direkten IDs aus Trainingssets aus.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Konsistenz der Markierer (IRR)
Messen Sie die interannotatorische Übereinstimmung: Cohen's κ (2 Annotatoren )/Krippendorff's α (N Annotatoren, verschiedene Arten von Skalen).
Richtlinien:- κ < 0. 4 - schwache Konsistenz → überarbeiten Sie die Anweisungen/Beispiele.
0. 4–0. 6 - für komplexe Aufgaben akzeptabel;> 0. 6 - gut;> 0. 8 ist ausgezeichnet.
- Abdeckung (wie viel markiert ist), κ/ α nach Klassen und Folien, Anteil „unbekannt“, durchschnittliche Zeit, Top-Fehler.
7) QA-Schaltung und Gold-Benchmarks
Goldener Satz: 1-5% markiert - Standard mit doppelter Überprüfung.
Honey-pot-Jobs: Versteckte bekannte Fälle in einer Flut von Aufgaben.
Zweiter Blick: Eskalationen/Schiedsverfahren an umstrittenen Beispielen.
Regressionstests der Markierung: Re-Validierung nach dem Update der Haids.
8) Aktives, schwaches und semi-kontrolliertes Lernen
Aktives Lernen: Auswahl von „unsicheren“ Beispielen (maximale Entropie/Vielfalt).
Weak Supervision: Heuristik/Fernüberwachung + Geräuschmodell für Labels.
Semi-Supervised: Pseudolables mit Temperaturschwelle und anschließender Prüfung.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anti-Leukedge und Zeitsteuerung
Point-in-Time-Join für Fich und Labels.
Verbot von Labels/Fich aus der Zukunft (nach 'asof').
Getrennte Pipelines online/offline mit Transformations-Äquivalenztest.
Versionierung von Datasets und Logik ('logic _ version', 'data _ version', 'asof _ date').
10) Qualitätsmetriken der Modelle
Wählen Sie Metriken für die Geschäftskosten von Fehlern aus:- Klassifizierung: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, erwartete Kosten (FP/FN-Gewichte).
- Risiko-Scoring: KS/ROC-AUC, Brier, Kalibrierung (ECE), PSI/CSI für Drift.
- Empfehlungen: NDCG/MAP @ K, Abdeckung/Vielfalt, Neuheit.
- Anomalien: Präzision @ k, AUCPR auf Synthetik/Gold-Set.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Slice-Analyse und Fairness
Slices: Markt, Anbieter, Gerät/ASN, Alter des Kontos, Größe der Einzahlung, Tageszeit.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Aktionen: Rebuild-Fich, Kalibrierung auf Folien, Überarbeitung der Schwellenwerte, Trainingsgewichte.
12) Überwachung der Produktionsqualität
Daten-/Vorhersagedrift: PSI/KL nach Fich/Score.
Kalibrierung: ECE, Zuverlässigkeitsdiagramme.
Schwellenwertstabilität: Alert, wenn Expected Cost ↑> X% oder PR-AUC ↓.
Schemes/contracts: catch breaking changes (schema registry).
Feedback Loop: Schnelle Handlabels für Incidents (Fallabschlüsse, RG-Ergebnisse).
13) Datenschutz, Sicherheit, Compliance
PII-Minimierung: Pseudonyme, separates geschütztes Mupping.
Wohnsitz: getrennte Pipelines/Schlüssel (EWR/UK/BR); Verbot regionalübergreifender Join's ohne Grundlage.
DSAR/RTBF: Berechenbare Projektionen und selektive Bearbeitungen.
Legal Hold: WORM-Archive für Fälle und Berichtspakete.
Protokolle: Unveränderliche Zugriffs-/Exportprüfung.
14) Organisation des Markierungsprozesses
Tools: Task-Tracker, Beispielwarteschlange, Kontextvorschau, PII-Maskierung, Hotkeys.
Geschwindigkeits- und Qualitätskontrolle: KPI des Annotators (Geschwindigkeit, Genauigkeit auf golden), Training und Zertifizierung.
Versionierung: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', Zeitstempel.
Dokumentation: Set-Karte (Besitzer, Quelle, Fenster, Regeln, Metriken).
15) Musterbeispiele
Dataset-Karte (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Markup-QA-Regeln:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL-Idee):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Fahrplan für die Umsetzung
MVP (2-4 Wochen):1. Ontologie und Anweisungen v1, Goldsatz (≥1000 Beispiele pro Domäne).
2. Annotationsfluss mit PII-Maskierung, κ-Metrik für jede Woche.
3. Basismodell + Offline-Auswertung (PR-AUC, erwartete Kosten), Point-in-Time-Stichproben.
4. Überwachung der Drift von Fitch/Scors; Register der Datasets und Versionen von Gayds.
Phase 2 (4-8 Wochen):- Active/weak-supervision pipeline, auto-triage' unknown'.
- Slice-Analyse und Fairness-Berichte, Kalibrierung von Wahrscheinlichkeiten.
- DSAR/RTBF-Verfahren für markierte Sets, Legal Hold für Fälle.
- Vollständige Automatisierung von QS (golden/honey-pots), Regressionstests von Markup.
- Katalog von Datasets und Karten „Modellqualität“; Expected-cost Orchestrierung von Schwellenwerten.
- Chargeback nach Markup/Inference-Kosten, SLA nach Label-Updates.
17) RACI
R (Responsible): Data Science (Ontologie, Metriken), Label Ops (Prozess/QA), Data Eng (Samples/PII/Storage).
A (Accountable): Head of Data / CDO.
C (konsultiert): Compliance/DPO (PII/residency/DSAR), Risiko/AML/RG (Regeln), Sicherheit (KMS/Audit).
I (Informed): Produkt/Marketing/Betrieb/Support.
18) Checkliste vor dem Verkauf
- Ontologie und Hyden genehmigt, Version fixiert.
- Qualitative Stichprobe: Schichtung, Holdout nach Zeit/Märkten.
- κ/ α ≥ Zielschwelle; golden-accuracy eingehalten wird.
- Point-in-Time-Sammlung von Fich und Labels; Test für das Fehlen von Leukegie bestanden.
- Metriken werden nach Expected Cost, Dia-Analyse und Fairness ausgewählt.
- Drift-/Kalibrierüberwachung aktiviert; Alerts werden konfiguriert.
- Die Richtlinien PII/DSAR/RTBF und Legal Hold wurden eingehalten. Audit ist aktiviert.
19) Anti-Muster und Risiken
Markierungen ohne klare Kriterien → niedrige κ, laute Labels.
Leukej aus der Zukunft (Post-Fact-Zeichen/Etiketten).
Unausgewogene Stichproben, ROC-AUC-Metrik ohne Berücksichtigung der Kosten.
Keine Golden/QA- und Regressionstests der Markierung.
PII in datasets ohne Maskierung und Wohnsitz.
Keine Slice-Analyse → versteckte Degradation auf Regionen/Anbieter.
20) Das Ergebnis
Die Qualität der Modelle beginnt bei der Qualität der Labels. Strenge Ontologie, Anleitungen mit Beispielen, Point-in-Time-Disziplin, QA-Loops und fehlerkostenbasierte Metriken sind die Grundlage für reproduzierbare ML im iGaming. Durch die Integration dieser Praktiken in die Datenpipeline und MLOps erhalten Sie nachhaltige, ethische und Compliance-Modelle, die die Geschäftsergebnisse ohne Überraschungen verbessern.