Znakowanie danych i jakość modelu

1) Cel i zasady

Cel: uzyskanie powtarzalnych etykiet i wymiernej jakości modeli bez białaczki oraz uwzględnienie zgodności.

Zasady:

Schemat pierwszy: formalizowane ontologie, słowniki klasowe i kryteria.
Punkt w czasie: Etykiety są zbudowane z informacji dostępnych w momencie podejmowania decyzji.
Kod jakości: instrukcje, testy, listy kontrolne i selekcje - w repozytorium.
Privacy-by-design: minimalizacja PII, DSAR/RTBF, rezydencja.
Świadomość kosztów: rozważyć koszt markupu i przewidywany koszt.

2) System ontologii i etykietowania

Zdefiniuj obiekt znaczników, klasy, wyjątki i źródła prawdy: Przykład (AML/Antifraud):

Obiekt: Transakcja/Sesja.
Класса: 'legit', 'fraud _ suspected', 'fraud _ confirmed', 'unknown'.
Wyjątki: obciążenie zwrotne bez dowodów → „nieznane”.
Źródła: zarządzanie sprawami, rejestry obciążeń zwrotnych, dostawcy/bank.

Schemat YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Wytyczne

Struktura:

1. Opis zadania i kontekstu biznesowego.

2. Definicje klas z przykładami pozytywnymi/negatywnymi i przypadkami granicznymi.

3. Zasady pierwszeństwa źródła (true> heuristic> opinion).

4. 'Nieznane' i kryteria eskalacji.

5. Polityka prywatności (maskowanie, żetony zamiast identyfikatora).

6. Najczęściej zadawane pytania i lista kontrolna.

Fragment instrukcji (oszustwo):

„fraud _ confirmed”: udowodnione obciążenie zwrotne/sprawa zamknięta z etykietą FRAUD.
„fraud _ suspended”: depozyt ≥ 3
„legit”: W oknie 60 dni nie ma żadnych flag ani potwierdzonych przypadków.
„nieznane”: sprzeczne cechy lub niewystarczające dane.

4) Źródła etykiet i zasady punktualne

Etykiety automatyczne: zasady/przypadki, obciążenie zwrotne, self-exclusion (RG), zakłady wynikowe.
Podstawa: wynik dochodzenia/wyniki regulacji.
Punkt w czasie Nie używać zdarzeń po decyzji punkt (t0).
Opóźnienia: na przykład, obciążenie zwrotne pojawia się po 45-90 dniach → etykieta „dojrzewa”.

SQL „no future” szablon:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Próbki: stratyfikacja i równowaga

Rzadkie zdarzenia: stosowanie stratyfikowanego pobierania próbek przez rynek/dostawcę/datę; nadmierne sampling rzadkich klas lub utraty ogniskowej.
Warstwa walidacyjna: trzymaj się przez tydzień/rynek/najemca.
Sankcje/PII: Wyłączenie bezpośrednich pól identyfikacyjnych z zestawów szkoleniowych.

Kontrola stronniczości pobierania próbek:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Spójność śledzenia (IRR)

Umowa o pomiarze między adnotacjami: Cohen's „s” (2 adnotatory )/Krippendorff's α (notatory N, inny typ skali).

Punkty orientacyjne:

κ < 0. 4 - słaba spójność → przegląd instrukcji/przykładów.

0. 4–0. 6 - dopuszczalne dla złożonych zadań;> 0. 6 - dobra;> 0. 8 jest doskonały.

Oznakowanie karty jakości:

Zasięg (ile jest zaznaczonych), α/α według klasy i kawałka, „nieznany” udział, średni czas, górne błędy.

7) normy obwodu QA i złota

Złoty zestaw: 1-5% oznaczony - podwójnie sprawdzony punkt odniesienia.
Zadania pot-honey: ukryte znane przypadki w strumieniu zadań.
Drugi wygląd: eskalacja/arbitraż na kontrowersyjnych przykładach.
Testy regresji znakowania: przedłużenie ważności po aktualizacji przewodników.

8) Aktywne, słabe i częściowo nadzorowane uczenie się

Aktywne uczenie się: Wybór „niepewnych” przykładów (maksymalna entropia/różnorodność).
Słaby nadzór: heurystyka/daleki nadzór + model hałasu dla etykiet.
Semi-Supervised: pseudo-etykiety z progiem temperatury i późniejszą weryfikacją.

Rurociąg:

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anty-Leukage i kontrola czasu

Punkt w czasie dołącz do funkcji i etykiet.
Zakazanie etykiet/funkcji z przyszłości (po 'asof').
Oddzielne rurociągi online/offline z testem równoważności transformacji.
Wersioning danych i logiki ('logic _ version', 'data _ version', 'asof _ date').

10) Mierniki jakości modelu

Wybierz mierniki kosztów biznesowych błędów:

Klasyfikacja: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, oczekiwany koszt (wagi FP/FN).
Ocena ryzyka: KS/ROC-AUC, Brier, kalibracja (ECE), PSI/CSI dla dryfu.
Zalecenia: NDCG/MAP @ K, zakres/różnorodność, nowość.
Anomalie: Precision @ k, AUCPR na syntetyczny/złoty zestaw.

Przewidywany koszt (pseudokoda):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Analiza plasterków i uczciwość

Plasterki: rynek, dostawca, urządzenie/ASN, wiek konta, wielkość depozytu, godzina dnia.
Uczciwość: rozbieżne oddziaływanie (stosunek), równe szanse (равнива FPR/TPR).
Działania: ponowna ocena cech, kalibracja za pomocą plasterków, przegląd progów, wagi treningowe.

12) Monitorowanie jakości produkcji

Dryf danych/prognozy: PSI/KL ponad funkcje/stawki.
Kalibracja: ECE, wykresy niezawodności.

Stabilność progowa: alarm w przypadku oczekiwanego kosztu

Programy/umowy: zmiany w połowach (rejestr schematu).
Pętla zwrotna: szybkie ręczne etykiety incydentów (zamknięcia sprawy, wyniki RG).

13) Prywatność, Bezpieczeństwo, Zgodność

Minimalizacja PII: pseudonimy, oddzielne mapowanie chronione.
Miejsce zamieszkania: oddzielne rurociągi/klucze (EOG/UK/BR); zakazanie przyłączeń międzyregionalnych bez powodu.
DSAR/RTBF: projekcje obliczeniowe i edycje selektywne.
Legal Hold: archiwum WORM do spraw i pakietów sprawozdawczych.
Dzienniki: niezmieniony audyt dostępu/eksportu.

14) Organizacja procesu znakowania

Narzędzia: tracker zadań, kolejka przykładowa, podgląd kontekstu, maskowanie PII, hotkeys.
Kontrola prędkości i jakości: KPI notatnika (prędkość, dokładność w złotym), szkolenie i certyfikacja.
Wersioning: 'guidelines _ version', 'annotator _ id',' reviewer _ id', timestamps.
Dokumentacja: ustaw kartę (właściciel, źródło, okna, zasady, mierniki).

15) Przykładowe szablony

Karta Datacet (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Zasady oznaczania QA:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Macierz dezorientacji (idea SQL):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Plan działania w zakresie wdrażania

MVP (2-4 tygodnie):

1. Ontologia i instrukcje v1, zestaw złota (≥ 1000 przykładów na domenę).

2. Przepływ adnotacji z maskowaniem PII, wg metryki na każdy tydzień.

3. Model wyjściowy + oszacowanie offline (PR-AUC, oczekiwany koszt), pobieranie próbek w czasie.

4. Monitorowanie dryfowania cech/stawek; rejestr zbiorów danych i wersji przewodnika.

Faza 2 (4-8 tygodni):

Rurociąg aktywny/słabo nadzorowany, auto-triage „nieznany”.
Analiza plasterków i raporty o uczciwości, kalibracja prawdopodobieństwa.
Procedury DSAR/RTBF dla oznaczonych zestawów, Przechowywanie prawne dla spraw.

Faza 3 (8-12 tygodni):

Pełna automatyzacja QA (złote/miodowe garnki), testy regresji znaczników.
Katalog zbiorów danych i kart „jakości modelu”; progu kosztów oczekiwanych.
Obciążenie zwrotne przez markup/koszt wnioskowania, SLA przez aktualizacje etykiet.

17) RACI

R (odpowiedzialny): Data Science (ontology, metrics), Label Ops (process/QA), Data Eng (sample/PII/storage).
A (Odpowiedzialność): szef danych/CDO.
C (skonsultowano się): Zgodność/DPO (PII/rezydencja/DSAR), Ryzyko/AML/RG (polityka), Bezpieczeństwo (KMS/audit).
I (Poinformowany): Produkt/Marketing/Operacje/Wsparcie.

18) Lista kontrolna przedsprzedaży

Ontologia i przewodniki zatwierdzone, wersja stała.
Próbka jakościowa: stratyfikacja, trzymanie według czasu/rynku.
α/α ≥ przestrzegana wartość docelowa złotej dokładności.
Punktowy zbiór cech i etykiet; przeszedł test na brak białaczki.
Wskaźniki wybrane według oczekiwanych kosztów, analizy plasterków i uczciwości.
Monitorowanie dryfu/kalibracji; Alerty są ustawione.
Egzekwowane polityki PII/DSAR/RTBF i Legal Hold; włączony audyt.

19) Przeciwdziałanie modelom i ryzyku

Markup bez jasnych kryteriów → niskie, hałaśliwe etykiety.
Lakage z przyszłości (znaki/etykiety po fakcie).
Niezrównoważone próbki, metryka ROC-AUC z wyłączeniem kosztów.
Brak testów oznaczania złota/QA i regresji.
PII w zdemaskowanych i rezydencyjnych zbiorach danych.
Brak analizy plasterków → ukryta degradacja regionów/dostawców.

20) Sedno sprawy

Jakość modelu zaczyna się od jakości etykiety. Ścisła ontologia, instrukcje z przykładami, dyscyplina w czasie, kontury QA i wskaźniki uwzględniające koszt błędów są podstawą powtarzalnego ML w iGaming. Osadzając te praktyki w gazociągu danych i MLOp, otrzymujesz zrównoważone, etyczne i zgodne modele, które bez niespodzianek poprawiają wyniki biznesowe.

Znakowanie danych i jakość modelu

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami