Σήμανση δεδομένων και ποιότητα μοντέλου

1) Σκοπός και αρχές

Στόχος: λήψη αναπαραγώγιμων ετικετών και μετρήσιμης ποιότητας μοντέλων χωρίς λευχαιμία και συνεκτίμηση της συμμόρφωσης.

Αρχές:

Schema-first: τυπικές οντολογίες, κλασσικά λεξικά και κριτήρια.
Χρονική στιγμή: Οι ετικέτες κατασκευάζονται από τις διαθέσιμες πληροφορίες κατά τη στιγμή της απόφασης.
Κωδικός ποιότητας: οδηγίες, δοκιμές, πίνακες ελέγχου και επιλογές - στο αποθετήριο.
Privacy-by-design: ελαχιστοποίηση PII, DSAR/RTBF, κατοικία.
Επίγνωση του κόστους: να ληφθεί υπόψη το κόστος της αύξησης της τιμής και το αναμενόμενο κόστος.

2) Οντολογία και σύστημα επισήμανσης

Ορισμός του αντικειμένου, των κατηγοριών, των εξαιρέσεων και των πηγών αλήθειας: Παράδειγμα (AML/Antifraud):

Αντικείμενο: Συναλλαγή/Συνεδρία.
: 'legit', 'απάτη _ ύποπτη', 'απάτη _ επιβεβαίωση', 'άγνωστη'.
Εξαιρέσεις: η χρέωση χωρίς αποδεικτικά στοιχεία → «άγνωστη».
Πηγές: διαχείριση υποθέσεων, μητρώα χρέωσης, πάροχοι/τράπεζα.

Διάγραμμα YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Κατευθυντήριες γραμμές

Δομή:

1. Περιγραφή του έργου και του επιχειρηματικού πλαισίου.

2. Ορισμοί κλάσης με θετικά/αρνητικά παραδείγματα και οριακές περιπτώσεις.

3. Κανόνες προτεραιότητας πηγής (αληθής> ερειστική> γνώμη).

4. «Άγνωστα» και κριτήρια κλιμάκωσης.

5. Πολιτικές προστασίας της ιδιωτικής ζωής (συγκάλυψη, μάρκες αντί ταυτότητας).

6. Συχνές ερωτήσεις και κατάλογος σημάνσεων.

Τμήμα οδηγιών (απάτη):

'fraud _ επιβεβαιώθηκε': αποδεδειγμένη χρέωση/κλειστή υπόθεση με ετικέτα FRAUD.
«fraud _ sumped»: κατάθεση ≥3
Δεν υπάρχουν σημαίες ούτε επιβεβαιωμένες περιπτώσεις στο παράθυρο των 60 ημερών.
'unknow : αντικρουόμενα χαρακτηριστικά ή ανεπαρκή δεδομένα.

4) Πηγές επισήμανσης και χρονικοί κανόνες

Αυτόματες ετικέτες: κανόνες/περιπτώσεις, χρέωση, αυτοαποκλεισμός (RG), στοιχήματα έκβασης.
Βάση: αποτέλεσμα της έρευνας/των αποτελεσμάτων των κανονιστικών ρυθμίσεων.
Point-in-time-Μην χρησιμοποιήσετε γεγονότα μετά το σημείο απόφασης (t0).
Καθυστερήσεις: για παράδειγμα, η φόρτιση εμφανίζεται μετά από 45-90 ημέρες → την ετικέτα «ωριμάζει».

Υπόδειγμα SQL «καμία μελλοντική»:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Δείγματα: διαστρωμάτωση και ισορροπία

Σπάνια συμβάντα: χρήση στρωματοποιημένης δειγματοληψίας ανά αγορά/πάροχο/ημερομηνία. υπερδειγματοληψία σπάνιων κατηγοριών ή εστιακή απώλεια.
Επίπεδα επικύρωσης: αναμονή ανά εβδομάδα/αγορά/ενοικιαστή.
Κυρώσεις/PII: Εξαιρούνται τα πεδία άμεσης ταυτοποίησης από τα σύνολα κατάρτισης.

Έλεγχος μεροληψίας δειγματοληψίας:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Συνέπεια ιχνηθέτη (IRR)

Measure inter-notation agreement: Cohen 's k (2 σχολιαστές )/Krippendorff 's α (N σχολιαστές, διαφορετικός τύπος κλίμακας).

Ορόσημα:

κ < 0. 4 - ελλιπής συνέπεια → αναθεώρηση των οδηγιών/παραδειγμάτων.

0. 4–0. 6 - αποδεκτές για πολύπλοκες εργασίες,> 0. 6 - καλό,> 0. Το 8 είναι εξαιρετικό.

Κάρτα ποιότητας σήμανσης:

Κάλυψη (πόσοι σημειώνονται), κ/α ανά κλάση και φέτα, 'άγνωστο' μερίδιο, μέσος χρόνος, ανώτατα σφάλματα.

7) QA κυκλώματα και πρότυπα χρυσού

Χρυσό σύνολο: 1-5% - σημείο αναφοράς διπλού ελέγχου.
Εργασίες μελιού-γλάστρας: κρυφές γνωστές περιπτώσεις στη ροή εργασιών.
Δεύτερη ματιά: κλιμακώσεις/αρμπιτράζ σε αμφιλεγόμενα παραδείγματα.
Δοκιμές παλινδρόμησης σήμανσης: επανεπικύρωση μετά την επικαιροποίηση των οδηγών.

8) Ενεργός, ασθενής και ημιεπηρεασμένη μάθηση

Ενεργός μάθηση: Επιλογή «αβέβαιων» παραδειγμάτων (μέγιστη εντροπία/ποικιλομορφία).
Αδύνατη εποπτεία: heuristics/μακρινή εποπτεία + μοντέλο θορύβου για ετικέτες.
Ημιεπιθεωρημένα: ψευδο-σήματα με κατώφλι θερμοκρασίας και μεταγενέστερη επαλήθευση.

Αγωγός:

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Καταπολέμηση της λευχαιμίας και έλεγχος του χρόνου

Σύνδεση point-in-time για χαρακτηριστικά και ετικέτες.
Απαγόρευση ετικετών/χαρακτηριστικών από το μέλλον (μετά το 'asof').
Χωριστοί διαδικτυακοί/μη δικτυακοί αγωγοί με δοκιμή ισοδυναμίας μετασχηματισμού.
Έκδοση δεδομένων και λογικής ('logic _ version', 'data _ version', 'asof _ date').

10) Πρότυπες μετρήσεις ποιότητας

Επιλογή μετρήσεων για το επιχειρηματικό κόστος των σφαλμάτων:

Ταξινόμηση: PR- AUC/ROC- AUC, F1 @ k, Recall @ k, αναμενόμενο κόστος (βάρος FP/FN).
Οι ασθενείς θα πρέπει να παρακολουθούνται στενά για σημεία και συμπτώματα λοίμωξης από τον ιό HIV.
Συστάσεις: NDCG/MAP @ K, κάλυψη/ποικιλομορφία, καινοτομία.
Ανωμαλίες: Precision @ k, AUCPR σε συνθετικό/χρυσό σύνολο.

Αναμενόμενο κόστος (ψευδοκώδικας):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Ανάλυση κομματιών και δικαιοσύνη

Φέτες: αγορά, πάροχος, συσκευή/ASN, ηλικία λογαριασμού, μέγεθος καταθέσεων, ώρα ημέρας.
Δικαιοσύνη: ανόμοιες επιπτώσεις (αναλογία), εξισωμένες αποδόσεις (разница FPR/TPR).
Δράσεις: επανασυναρμολόγηση χαρακτηριστικών, βαθμονόμηση ανά φέτες, αναθεώρηση κατωφλίων, βάρος κατάρτισης.

12) Παρακολούθηση της ποιότητας της παραγωγής

Μετατόπιση δεδομένων/πρόβλεψης: PSI/KL πάνω από χαρακτηριστικά/ρυθμούς.
Βαθμονόμηση: ECE, διαγράμματα αξιοπιστίας.
Σταθερότητα ορίου: ειδοποίηση εάν το αναμενόμενο κόστος ↑> X% ή PR- AUC ↓.
Συστήματα/συμβάσεις: μεταβολές θραύσης αλιευμάτων (μητρώο σχημάτων).
Βρόχος ανάδρασης: ταχείες χειροκίνητες ετικέτες συμβάντων (κλείσιμο υποθέσεων, αποτελέσματα RG).

13) Προστασία της ιδιωτικής ζωής, ασφάλεια, συμμόρφωση

ελαχιστοποίηση PII: ψευδώνυμα, χωριστή προστατευόμενη χαρτογράφηση.
Κατοικία: Ξεχωριστοί αγωγοί/κλειδιά (ΕΟΧ/ΗΒ/BR). η απαγόρευση των διαπεριφερειακών ενώσεων χωρίς λόγο.
DSAR/RTBF: υπολογίσιμες προβολές και επιλεκτικές επεξεργασίες.
Νομικό υπόστεγο: αρχεία WORM για υποθέσεις και πακέτα αναφοράς.
Αρχεία καταγραφής: αμετάβλητη πρόσβαση/έλεγχος εξαγωγών.

14) Οργάνωση της διαδικασίας σήμανσης

Εργαλεία: ανιχνευτής εργασιών, παράδειγμα αναμονής, προεπισκόπηση πλαισίου, κάλυψη PII, hotkeys.
Έλεγχος ταχύτητας και ποιότητας: KPI του σχολιαστή (ταχύτητα, ακρίβεια σε χρυσό), εκπαίδευση και πιστοποίηση.
Έκδοση: 'guidelines _ version', 'notator _ id', 'reviewer _ id', timestamps.
Τεκμηρίωση: καθορισμένη κάρτα (ιδιοκτήτης, πηγή, παράθυρα, κανόνες, μετρήσεις).

15) Υποδείγματα δειγμάτων

Κάρτα δεδομένων (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Κανόνες σήμανσης QA:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Πίνακας σύγχυσης (ιδέα SQL):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Χάρτης πορείας για την εφαρμογή

MVP (2- 4 εβδομάδες):

1. Οδηγίες οντολογίας και v1, χρυσό σύνολο (≥1000 παραδείγματα ανά τομέα).

2. Ροή σχολιασμού με μάσκα PII, κ μετρικό για κάθε εβδομάδα.

3. Το μοντέλο αναφοράς + εκτός γραμμής εκτίμηση (PR- AUC, αναμενόμενο κόστος), δειγματοληψία από σημείο σε χρόνο.

4. παρακολούθηση της μετατόπισης των χαρακτηριστικών/ρυθμών· μητρώο συνόλων δεδομένων και εκδόσεις οδηγών.

Φάση 2 (4- 8 εβδομάδες):

Αγωγός ενεργού/ασθενούς επίβλεψης, «άγνωστος» αυτοτριβής.
Ανάλυση φέτες και αναφορές δίκαιης μεταχείρισης, βαθμονόμηση πιθανότητας.
Διαδικασίες DSAR/RTBF για σφραγισμένα σύνολα, Νόμιμη κράτηση για υποθέσεις.

Φάση 3 (8- 12 εβδομάδες):

Πλήρης αυτοματισμός QA (χρυσό/γλάστρες μελιού), δοκιμές παλινδρόμησης σήμανσης.
Κατάλογος συνόλων δεδομένων και καρτών «ποιότητας μοντέλου». όριο αναμενόμενου κόστους.
Φόρτιση ανά κόστος σήμανσης/συμπεράσματος, SLA ανά επικαιροποίηση ετικέτας.

17) RACI

R (υπεύθυνη): Επιστήμη δεδομένων (οντολογία, μετρήσεις), επιχειρήσεις επισήμανσης (διαδικασία/QA), Eng δεδομένων (δείγματα/PII/αποθήκευση).
A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/κατοικία/DSAR), Κίνδυνος/AML/RG (πολιτική), Ασφάλεια (KMS/έλεγχος).
I (Ενημερωμένο): Προϊόν/Εμπορία/Δραστηριότητες/Υποστήριξη.

18) Κατάλογος ελέγχου πριν από την πώληση

Η οντολογία και οι οδηγοί που εγκρίθηκαν, έκδοση σταθερή.
Ποιοτικό δείγμα: διαστρωμάτωση, καθυστέρηση ανά χρόνο/αγορά.
κ/α ≥ τηρήθηκε η χρυσή ακρίβεια του ορίου στόχου.
Συλλογή στοιχείων και ετικετών point-in-time· δοκιμή για την απουσία λευχαιμίας.
Μετρήσεις που επιλέγονται με βάση το αναμενόμενο κόστος, ανάλυση κομματιών και δικαιοσύνη.
Παρακολούθηση μετατόπισης/βαθμονόμησης επί έχουν συσταθεί καταχωρίσεις.
εφαρμόστηκαν οι πολιτικές PII/DSAR/RTBF και Legal Hold. Ενεργοποιήθηκε ο λογιστικός έλεγχος.

19) Αντισυμβαλλόμενοι και κίνδυνοι

Σήμανση χωρίς σαφή κριτήρια → χαμηλή κ, θορυβώδεις ετικέτες.
Lakage from the future (μετα-πραγματικές ενδείξεις/ετικέτες).
Μη ισορροπημένα δείγματα, μέτρηση ROC- AUC, εξαιρουμένου του κόστους.
Έλλειψη δοκιμών σήμανσης golden/QA και παλινδρόμησης.
PII σε σύνολα δεδομένων που δεν έχουν προσδιοριστεί και κατοικίας.
Καμία ανάλυση φέτες → κρυφή υποβάθμιση σε περιφέρειες/παρόχους.

20) Η τελική γραμμή

Η ποιότητα του μοντέλου αρχίζει με την ποιότητα του σήματος. Αυστηρή οντολογία, οδηγίες με παραδείγματα, point-in-time πειθαρχία, QA περιγράμματα και μετρήσεις που λαμβάνουν υπόψη το κόστος των σφαλμάτων είναι η βάση της αναπαραγώγιμης ML στο iGaming. Ενσωματώνοντας αυτές τις πρακτικές στον αγωγό δεδομένων και στα MLOp, αποκτούμε βιώσιμα, ηθικά και συμμορφούμενα μοντέλα που βελτιώνουν τα αποτελέσματα των επιχειρήσεων χωρίς εκπλήξεις.

Σήμανση δεδομένων και ποιότητα μοντέλου

Επικοινωνήστε μαζί μας

Γρήγορη επικοινωνία

Το βίντεο θα ενημερωθεί σύντομα

Αυτή τη στιγμή είμαστε πολύ απασχολημένοι με έργα