Znakowanie danych i jakość modelu
1) Cel i zasady
Cel: uzyskanie powtarzalnych etykiet i wymiernej jakości modeli bez białaczki oraz uwzględnienie zgodności.
Zasady:- Schemat pierwszy: formalizowane ontologie, słowniki klasowe i kryteria.
- Punkt w czasie: Etykiety są zbudowane z informacji dostępnych w momencie podejmowania decyzji.
- Kod jakości: instrukcje, testy, listy kontrolne i selekcje - w repozytorium.
- Privacy-by-design: minimalizacja PII, DSAR/RTBF, rezydencja.
- Świadomość kosztów: rozważyć koszt markupu i przewidywany koszt.
2) System ontologii i etykietowania
Zdefiniuj obiekt znaczników, klasy, wyjątki i źródła prawdy: Przykład (AML/Antifraud):- Obiekt: Transakcja/Sesja.
- Класса: 'legit', 'fraud _ suspected', 'fraud _ confirmed', 'unknown'.
- Wyjątki: obciążenie zwrotne bez dowodów → „nieznane”.
- Źródła: zarządzanie sprawami, rejestry obciążeń zwrotnych, dostawcy/bank.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Wytyczne
Struktura:1. Opis zadania i kontekstu biznesowego.
2. Definicje klas z przykładami pozytywnymi/negatywnymi i przypadkami granicznymi.
3. Zasady pierwszeństwa źródła (true> heuristic> opinion).
4. 'Nieznane' i kryteria eskalacji.
5. Polityka prywatności (maskowanie, żetony zamiast identyfikatora).
6. Najczęściej zadawane pytania i lista kontrolna.
Fragment instrukcji (oszustwo):- „fraud _ confirmed”: udowodnione obciążenie zwrotne/sprawa zamknięta z etykietą FRAUD.
- „fraud _ suspended”: depozyt ≥ 3
- „legit”: W oknie 60 dni nie ma żadnych flag ani potwierdzonych przypadków.
- „nieznane”: sprzeczne cechy lub niewystarczające dane.
4) Źródła etykiet i zasady punktualne
Etykiety automatyczne: zasady/przypadki, obciążenie zwrotne, self-exclusion (RG), zakłady wynikowe.
Podstawa: wynik dochodzenia/wyniki regulacji.
Punkt w czasie Nie używać zdarzeń po decyzji punkt (t0).
Opóźnienia: na przykład, obciążenie zwrotne pojawia się po 45-90 dniach → etykieta „dojrzewa”.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Próbki: stratyfikacja i równowaga
Rzadkie zdarzenia: stosowanie stratyfikowanego pobierania próbek przez rynek/dostawcę/datę; nadmierne sampling rzadkich klas lub utraty ogniskowej.
Warstwa walidacyjna: trzymaj się przez tydzień/rynek/najemca.
Sankcje/PII: Wyłączenie bezpośrednich pól identyfikacyjnych z zestawów szkoleniowych.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Spójność śledzenia (IRR)
Umowa o pomiarze między adnotacjami: Cohen's „s” (2 adnotatory )/Krippendorff's α (notatory N, inny typ skali).
Punkty orientacyjne:- κ < 0. 4 - słaba spójność → przegląd instrukcji/przykładów.
0. 4–0. 6 - dopuszczalne dla złożonych zadań;> 0. 6 - dobra;> 0. 8 jest doskonały.
- Zasięg (ile jest zaznaczonych), α/α według klasy i kawałka, „nieznany” udział, średni czas, górne błędy.
7) normy obwodu QA i złota
Złoty zestaw: 1-5% oznaczony - podwójnie sprawdzony punkt odniesienia.
Zadania pot-honey: ukryte znane przypadki w strumieniu zadań.
Drugi wygląd: eskalacja/arbitraż na kontrowersyjnych przykładach.
Testy regresji znakowania: przedłużenie ważności po aktualizacji przewodników.
8) Aktywne, słabe i częściowo nadzorowane uczenie się
Aktywne uczenie się: Wybór „niepewnych” przykładów (maksymalna entropia/różnorodność).
Słaby nadzór: heurystyka/daleki nadzór + model hałasu dla etykiet.
Semi-Supervised: pseudo-etykiety z progiem temperatury i późniejszą weryfikacją.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anty-Leukage i kontrola czasu
Punkt w czasie dołącz do funkcji i etykiet.
Zakazanie etykiet/funkcji z przyszłości (po 'asof').
Oddzielne rurociągi online/offline z testem równoważności transformacji.
Wersioning danych i logiki ('logic _ version', 'data _ version', 'asof _ date').
10) Mierniki jakości modelu
Wybierz mierniki kosztów biznesowych błędów:- Klasyfikacja: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, oczekiwany koszt (wagi FP/FN).
- Ocena ryzyka: KS/ROC-AUC, Brier, kalibracja (ECE), PSI/CSI dla dryfu.
- Zalecenia: NDCG/MAP @ K, zakres/różnorodność, nowość.
- Anomalie: Precision @ k, AUCPR na syntetyczny/złoty zestaw.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Analiza plasterków i uczciwość
Plasterki: rynek, dostawca, urządzenie/ASN, wiek konta, wielkość depozytu, godzina dnia.
Uczciwość: rozbieżne oddziaływanie (stosunek), równe szanse (равнива FPR/TPR).
Działania: ponowna ocena cech, kalibracja za pomocą plasterków, przegląd progów, wagi treningowe.
12) Monitorowanie jakości produkcji
Dryf danych/prognozy: PSI/KL ponad funkcje/stawki.
Kalibracja: ECE, wykresy niezawodności.
Stabilność progowa: alarm w przypadku oczekiwanego kosztu
Programy/umowy: zmiany w połowach (rejestr schematu).
Pętla zwrotna: szybkie ręczne etykiety incydentów (zamknięcia sprawy, wyniki RG).
13) Prywatność, Bezpieczeństwo, Zgodność
Minimalizacja PII: pseudonimy, oddzielne mapowanie chronione.
Miejsce zamieszkania: oddzielne rurociągi/klucze (EOG/UK/BR); zakazanie przyłączeń międzyregionalnych bez powodu.
DSAR/RTBF: projekcje obliczeniowe i edycje selektywne.
Legal Hold: archiwum WORM do spraw i pakietów sprawozdawczych.
Dzienniki: niezmieniony audyt dostępu/eksportu.
14) Organizacja procesu znakowania
Narzędzia: tracker zadań, kolejka przykładowa, podgląd kontekstu, maskowanie PII, hotkeys.
Kontrola prędkości i jakości: KPI notatnika (prędkość, dokładność w złotym), szkolenie i certyfikacja.
Wersioning: 'guidelines _ version', 'annotator _ id',' reviewer _ id', timestamps.
Dokumentacja: ustaw kartę (właściciel, źródło, okna, zasady, mierniki).
15) Przykładowe szablony
Karta Datacet (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Zasady oznaczania QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Macierz dezorientacji (idea SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Plan działania w zakresie wdrażania
MVP (2-4 tygodnie):1. Ontologia i instrukcje v1, zestaw złota (≥ 1000 przykładów na domenę).
2. Przepływ adnotacji z maskowaniem PII, wg metryki na każdy tydzień.
3. Model wyjściowy + oszacowanie offline (PR-AUC, oczekiwany koszt), pobieranie próbek w czasie.
4. Monitorowanie dryfowania cech/stawek; rejestr zbiorów danych i wersji przewodnika.
Faza 2 (4-8 tygodni):- Rurociąg aktywny/słabo nadzorowany, auto-triage „nieznany”.
- Analiza plasterków i raporty o uczciwości, kalibracja prawdopodobieństwa.
- Procedury DSAR/RTBF dla oznaczonych zestawów, Przechowywanie prawne dla spraw.
- Pełna automatyzacja QA (złote/miodowe garnki), testy regresji znaczników.
- Katalog zbiorów danych i kart „jakości modelu”; progu kosztów oczekiwanych.
- Obciążenie zwrotne przez markup/koszt wnioskowania, SLA przez aktualizacje etykiet.
17) RACI
R (odpowiedzialny): Data Science (ontology, metrics), Label Ops (process/QA), Data Eng (sample/PII/storage).
A (Odpowiedzialność): szef danych/CDO.
C (skonsultowano się): Zgodność/DPO (PII/rezydencja/DSAR), Ryzyko/AML/RG (polityka), Bezpieczeństwo (KMS/audit).
I (Poinformowany): Produkt/Marketing/Operacje/Wsparcie.
18) Lista kontrolna przedsprzedaży
- Ontologia i przewodniki zatwierdzone, wersja stała.
- Próbka jakościowa: stratyfikacja, trzymanie według czasu/rynku.
- α/α ≥ przestrzegana wartość docelowa złotej dokładności.
- Punktowy zbiór cech i etykiet; przeszedł test na brak białaczki.
- Wskaźniki wybrane według oczekiwanych kosztów, analizy plasterków i uczciwości.
- Monitorowanie dryfu/kalibracji; Alerty są ustawione.
- Egzekwowane polityki PII/DSAR/RTBF i Legal Hold; włączony audyt.
19) Przeciwdziałanie modelom i ryzyku
Markup bez jasnych kryteriów → niskie, hałaśliwe etykiety.
Lakage z przyszłości (znaki/etykiety po fakcie).
Niezrównoważone próbki, metryka ROC-AUC z wyłączeniem kosztów.
Brak testów oznaczania złota/QA i regresji.
PII w zdemaskowanych i rezydencyjnych zbiorach danych.
Brak analizy plasterków → ukryta degradacja regionów/dostawców.
20) Sedno sprawy
Jakość modelu zaczyna się od jakości etykiety. Ścisła ontologia, instrukcje z przykładami, dyscyplina w czasie, kontury QA i wskaźniki uwzględniające koszt błędów są podstawą powtarzalnego ML w iGaming. Osadzając te praktyki w gazociągu danych i MLOp, otrzymujesz zrównoważone, etyczne i zgodne modele, które bez niespodzianek poprawiają wyniki biznesowe.