Datenmarkierung und Modellqualität

1) Zweck und Grundsätze

Das Ziel: reproduzierbare Labels und messbare Modellqualität ohne Leukage und unter Berücksichtigung der Compliance zu erhalten.

Grundsätze:

Schema-first: formalisierte Ontologien, Klassenwörterbücher und Kriterien.
Point-in-Time: Labels werden aus den zum Zeitpunkt der Entscheidung verfügbaren Informationen aufgebaut.
Quality-as-code: Anweisungen, Tests, Checklisten und Stichproben befinden sich im Repository.
Privacy-by-Design: Minimierung von PII, DSAR/RTBF, Residency.
Kosten-aware: Wir betrachten die Kosten für Markierungen und fehlerhafte Entscheidungen (erwartete Kosten).

2) Ontologie und Etikettenschema

Identifizieren Sie das Markup-Objekt, die Klassen, Ausnahmen und Wahrheitsquellen: Beispiel (AML/Fraud):

Objekt: Transaktion/Sitzung.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Ausnahmen: chargeback ohne Nachweis → 'unknown'.
Quellen: Fallmanagement, Chargeback-Register, Anbieter/Bank.

YAML-Schema:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Annotationsanweisungen (Richtlinien)

Struktur:

1. Beschreibung der Aufgabe und des Geschäftskontexts.

2. Klassendefinitionen mit positiven/negativen Beispielen und Grenzfällen.

3. Regeln für die Priorität von Quellen (Wahrheit> Heuristik> Meinung).

4. Kriterien für 'unknown' und Eskalation.

5. Datenschutzrichtlinien (Maskierung, Token statt ID).

6. FAQ und Checkliste des Markierers.

Fragment der Anweisungen (Betrug):

'fraud _ confirmed': nachgewiesener Chargeback/geschlossener Fall mit dem Tag FRAUD.
'fraud _ suspected': ≥3 der Einzahlung
'legit': keine Flaggen und bestätigte Fälle in einem Fenster von 60 Tagen.
'unknown': widersprüchliche Merkmale oder unzureichende Daten.

4) Label-Quellen und Point-in-Time-Regeln

Auto-Labels: Regeln/Fälle, Chargeback, Selbstausschluss (RG), Outcome-Wetten.
Ground-Truth: Ergebnis der Untersuchung/regulatorische Ergebnisse.
Point-in-time: Es ist verboten, Ereignisse nach dem Zeitpunkt der Entscheidung (t0) zu verwenden.
Verzögerungen: Zum Beispiel zeigt sich das Chargeback nach 45-90 Tagen → das Label „reift“.

SQL-Vorlage „ohne Zukunft“:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Stichproben: Schichtung und Balance

Seltene Ereignisse: use stratified sampling nach Märkten/Anbietern/Daten; oversampling seltene Klassen oder focal loss.
Validierungsschichten: Holdout über Wochen/Märkte/Tenanten halten.
Sanktionen/PII: Schließen Sie Felder mit direkten IDs aus Trainingssets aus.

Stichproben-Offset-Überwachung:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Konsistenz der Markierer (IRR)

Messen Sie die interannotatorische Übereinstimmung: Cohen's κ (2 Annotatoren )/Krippendorff's α (N Annotatoren, verschiedene Arten von Skalen).

Richtlinien:

κ < 0. 4 - schwache Konsistenz → überarbeiten Sie die Anweisungen/Beispiele.

0. 4–0. 6 - für komplexe Aufgaben akzeptabel;> 0. 6 - gut;> 0. 8 ist ausgezeichnet.

Markierungsqualitätskarte:

Abdeckung (wie viel markiert ist), κ/ α nach Klassen und Folien, Anteil „unbekannt“, durchschnittliche Zeit, Top-Fehler.

7) QA-Schaltung und Gold-Benchmarks

Goldener Satz: 1-5% markiert - Standard mit doppelter Überprüfung.
Honey-pot-Jobs: Versteckte bekannte Fälle in einer Flut von Aufgaben.
Zweiter Blick: Eskalationen/Schiedsverfahren an umstrittenen Beispielen.
Regressionstests der Markierung: Re-Validierung nach dem Update der Haids.

8) Aktives, schwaches und semi-kontrolliertes Lernen

Aktives Lernen: Auswahl von „unsicheren“ Beispielen (maximale Entropie/Vielfalt).
Weak Supervision: Heuristik/Fernüberwachung + Geräuschmodell für Labels.
Semi-Supervised: Pseudolables mit Temperaturschwelle und anschließender Prüfung.

Pipeline (Skizze):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-Leukedge und Zeitsteuerung

Point-in-Time-Join für Fich und Labels.
Verbot von Labels/Fich aus der Zukunft (nach 'asof').
Getrennte Pipelines online/offline mit Transformations-Äquivalenztest.
Versionierung von Datasets und Logik ('logic _ version', 'data _ version', 'asof _ date').

10) Qualitätsmetriken der Modelle

Wählen Sie Metriken für die Geschäftskosten von Fehlern aus:

Klassifizierung: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, erwartete Kosten (FP/FN-Gewichte).
Risiko-Scoring: KS/ROC-AUC, Brier, Kalibrierung (ECE), PSI/CSI für Drift.
Empfehlungen: NDCG/MAP @ K, Abdeckung/Vielfalt, Neuheit.
Anomalien: Präzision @ k, AUCPR auf Synthetik/Gold-Set.

Expected-Cost (Pseudocode):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Slice-Analyse und Fairness

Slices: Markt, Anbieter, Gerät/ASN, Alter des Kontos, Größe der Einzahlung, Tageszeit.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Aktionen: Rebuild-Fich, Kalibrierung auf Folien, Überarbeitung der Schwellenwerte, Trainingsgewichte.

12) Überwachung der Produktionsqualität

Daten-/Vorhersagedrift: PSI/KL nach Fich/Score.
Kalibrierung: ECE, Zuverlässigkeitsdiagramme.
Schwellenwertstabilität: Alert, wenn Expected Cost ↑> X% oder PR-AUC ↓.
Schemes/contracts: catch breaking changes (schema registry).
Feedback Loop: Schnelle Handlabels für Incidents (Fallabschlüsse, RG-Ergebnisse).

13) Datenschutz, Sicherheit, Compliance

PII-Minimierung: Pseudonyme, separates geschütztes Mupping.
Wohnsitz: getrennte Pipelines/Schlüssel (EWR/UK/BR); Verbot regionalübergreifender Join's ohne Grundlage.
DSAR/RTBF: Berechenbare Projektionen und selektive Bearbeitungen.
Legal Hold: WORM-Archive für Fälle und Berichtspakete.
Protokolle: Unveränderliche Zugriffs-/Exportprüfung.

14) Organisation des Markierungsprozesses

Tools: Task-Tracker, Beispielwarteschlange, Kontextvorschau, PII-Maskierung, Hotkeys.
Geschwindigkeits- und Qualitätskontrolle: KPI des Annotators (Geschwindigkeit, Genauigkeit auf golden), Training und Zertifizierung.
Versionierung: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', Zeitstempel.
Dokumentation: Set-Karte (Besitzer, Quelle, Fenster, Regeln, Metriken).

15) Musterbeispiele

Dataset-Karte (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Markup-QA-Regeln:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (SQL-Idee):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Fahrplan für die Umsetzung

MVP (2-4 Wochen):

1. Ontologie und Anweisungen v1, Goldsatz (≥1000 Beispiele pro Domäne).

2. Annotationsfluss mit PII-Maskierung, κ-Metrik für jede Woche.

3. Basismodell + Offline-Auswertung (PR-AUC, erwartete Kosten), Point-in-Time-Stichproben.

4. Überwachung der Drift von Fitch/Scors; Register der Datasets und Versionen von Gayds.

Phase 2 (4-8 Wochen):

Active/weak-supervision pipeline, auto-triage' unknown'.
Slice-Analyse und Fairness-Berichte, Kalibrierung von Wahrscheinlichkeiten.
DSAR/RTBF-Verfahren für markierte Sets, Legal Hold für Fälle.

Phase 3 (8-12 Wochen):

Vollständige Automatisierung von QS (golden/honey-pots), Regressionstests von Markup.
Katalog von Datasets und Karten „Modellqualität“; Expected-cost Orchestrierung von Schwellenwerten.
Chargeback nach Markup/Inference-Kosten, SLA nach Label-Updates.

17) RACI

R (Responsible): Data Science (Ontologie, Metriken), Label Ops (Prozess/QA), Data Eng (Samples/PII/Storage).
A (Accountable): Head of Data / CDO.
C (konsultiert): Compliance/DPO (PII/residency/DSAR), Risiko/AML/RG (Regeln), Sicherheit (KMS/Audit).
I (Informed): Produkt/Marketing/Betrieb/Support.

18) Checkliste vor dem Verkauf

Ontologie und Hyden genehmigt, Version fixiert.
Qualitative Stichprobe: Schichtung, Holdout nach Zeit/Märkten.
κ/ α ≥ Zielschwelle; golden-accuracy eingehalten wird.
Point-in-Time-Sammlung von Fich und Labels; Test für das Fehlen von Leukegie bestanden.
Metriken werden nach Expected Cost, Dia-Analyse und Fairness ausgewählt.
Drift-/Kalibrierüberwachung aktiviert; Alerts werden konfiguriert.
Die Richtlinien PII/DSAR/RTBF und Legal Hold wurden eingehalten. Audit ist aktiviert.

19) Anti-Muster und Risiken

Markierungen ohne klare Kriterien → niedrige κ, laute Labels.
Leukej aus der Zukunft (Post-Fact-Zeichen/Etiketten).
Unausgewogene Stichproben, ROC-AUC-Metrik ohne Berücksichtigung der Kosten.
Keine Golden/QA- und Regressionstests der Markierung.
PII in datasets ohne Maskierung und Wohnsitz.
Keine Slice-Analyse → versteckte Degradation auf Regionen/Anbieter.

20) Das Ergebnis

Die Qualität der Modelle beginnt bei der Qualität der Labels. Strenge Ontologie, Anleitungen mit Beispielen, Point-in-Time-Disziplin, QA-Loops und fehlerkostenbasierte Metriken sind die Grundlage für reproduzierbare ML im iGaming. Durch die Integration dieser Praktiken in die Datenpipeline und MLOps erhalten Sie nachhaltige, ethische und Compliance-Modelle, die die Geschäftsergebnisse ohne Überraschungen verbessern.

Datenmarkierung und Modellqualität

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet