Σήμανση δεδομένων και ποιότητα μοντέλου
1) Σκοπός και αρχές
Στόχος: λήψη αναπαραγώγιμων ετικετών και μετρήσιμης ποιότητας μοντέλων χωρίς λευχαιμία και συνεκτίμηση της συμμόρφωσης.
Αρχές:- Schema-first: τυπικές οντολογίες, κλασσικά λεξικά και κριτήρια.
- Χρονική στιγμή: Οι ετικέτες κατασκευάζονται από τις διαθέσιμες πληροφορίες κατά τη στιγμή της απόφασης.
- Κωδικός ποιότητας: οδηγίες, δοκιμές, πίνακες ελέγχου και επιλογές - στο αποθετήριο.
- Privacy-by-design: ελαχιστοποίηση PII, DSAR/RTBF, κατοικία.
- Επίγνωση του κόστους: να ληφθεί υπόψη το κόστος της αύξησης της τιμής και το αναμενόμενο κόστος.
2) Οντολογία και σύστημα επισήμανσης
Ορισμός του αντικειμένου, των κατηγοριών, των εξαιρέσεων και των πηγών αλήθειας: Παράδειγμα (AML/Antifraud):- Αντικείμενο: Συναλλαγή/Συνεδρία.
- : 'legit', 'απάτη _ ύποπτη', 'απάτη _ επιβεβαίωση', 'άγνωστη'.
- Εξαιρέσεις: η χρέωση χωρίς αποδεικτικά στοιχεία → «άγνωστη».
- Πηγές: διαχείριση υποθέσεων, μητρώα χρέωσης, πάροχοι/τράπεζα.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Κατευθυντήριες γραμμές
Δομή:1. Περιγραφή του έργου και του επιχειρηματικού πλαισίου.
2. Ορισμοί κλάσης με θετικά/αρνητικά παραδείγματα και οριακές περιπτώσεις.
3. Κανόνες προτεραιότητας πηγής (αληθής> ερειστική> γνώμη).
4. «Άγνωστα» και κριτήρια κλιμάκωσης.
5. Πολιτικές προστασίας της ιδιωτικής ζωής (συγκάλυψη, μάρκες αντί ταυτότητας).
6. Συχνές ερωτήσεις και κατάλογος σημάνσεων.
Τμήμα οδηγιών (απάτη):- 'fraud _ επιβεβαιώθηκε': αποδεδειγμένη χρέωση/κλειστή υπόθεση με ετικέτα FRAUD.
- «fraud _ sumped»: κατάθεση ≥3
- Δεν υπάρχουν σημαίες ούτε επιβεβαιωμένες περιπτώσεις στο παράθυρο των 60 ημερών.
- 'unknow : αντικρουόμενα χαρακτηριστικά ή ανεπαρκή δεδομένα.
4) Πηγές επισήμανσης και χρονικοί κανόνες
Αυτόματες ετικέτες: κανόνες/περιπτώσεις, χρέωση, αυτοαποκλεισμός (RG), στοιχήματα έκβασης.
Βάση: αποτέλεσμα της έρευνας/των αποτελεσμάτων των κανονιστικών ρυθμίσεων.
Point-in-time-Μην χρησιμοποιήσετε γεγονότα μετά το σημείο απόφασης (t0).
Καθυστερήσεις: για παράδειγμα, η φόρτιση εμφανίζεται μετά από 45-90 ημέρες → την ετικέτα «ωριμάζει».
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Δείγματα: διαστρωμάτωση και ισορροπία
Σπάνια συμβάντα: χρήση στρωματοποιημένης δειγματοληψίας ανά αγορά/πάροχο/ημερομηνία. υπερδειγματοληψία σπάνιων κατηγοριών ή εστιακή απώλεια.
Επίπεδα επικύρωσης: αναμονή ανά εβδομάδα/αγορά/ενοικιαστή.
Κυρώσεις/PII: Εξαιρούνται τα πεδία άμεσης ταυτοποίησης από τα σύνολα κατάρτισης.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Συνέπεια ιχνηθέτη (IRR)
Measure inter-notation agreement: Cohen 's k (2 σχολιαστές )/Krippendorff 's α (N σχολιαστές, διαφορετικός τύπος κλίμακας).
Ορόσημα:- κ < 0. 4 - ελλιπής συνέπεια → αναθεώρηση των οδηγιών/παραδειγμάτων.
0. 4–0. 6 - αποδεκτές για πολύπλοκες εργασίες,> 0. 6 - καλό,> 0. Το 8 είναι εξαιρετικό.
- Κάλυψη (πόσοι σημειώνονται), κ/α ανά κλάση και φέτα, 'άγνωστο' μερίδιο, μέσος χρόνος, ανώτατα σφάλματα.
7) QA κυκλώματα και πρότυπα χρυσού
Χρυσό σύνολο: 1-5% - σημείο αναφοράς διπλού ελέγχου.
Εργασίες μελιού-γλάστρας: κρυφές γνωστές περιπτώσεις στη ροή εργασιών.
Δεύτερη ματιά: κλιμακώσεις/αρμπιτράζ σε αμφιλεγόμενα παραδείγματα.
Δοκιμές παλινδρόμησης σήμανσης: επανεπικύρωση μετά την επικαιροποίηση των οδηγών.
8) Ενεργός, ασθενής και ημιεπηρεασμένη μάθηση
Ενεργός μάθηση: Επιλογή «αβέβαιων» παραδειγμάτων (μέγιστη εντροπία/ποικιλομορφία).
Αδύνατη εποπτεία: heuristics/μακρινή εποπτεία + μοντέλο θορύβου για ετικέτες.
Ημιεπιθεωρημένα: ψευδο-σήματα με κατώφλι θερμοκρασίας και μεταγενέστερη επαλήθευση.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Καταπολέμηση της λευχαιμίας και έλεγχος του χρόνου
Σύνδεση point-in-time για χαρακτηριστικά και ετικέτες.
Απαγόρευση ετικετών/χαρακτηριστικών από το μέλλον (μετά το 'asof').
Χωριστοί διαδικτυακοί/μη δικτυακοί αγωγοί με δοκιμή ισοδυναμίας μετασχηματισμού.
Έκδοση δεδομένων και λογικής ('logic _ version', 'data _ version', 'asof _ date').
10) Πρότυπες μετρήσεις ποιότητας
Επιλογή μετρήσεων για το επιχειρηματικό κόστος των σφαλμάτων:- Ταξινόμηση: PR- AUC/ROC- AUC, F1 @ k, Recall @ k, αναμενόμενο κόστος (βάρος FP/FN).
- Οι ασθενείς θα πρέπει να παρακολουθούνται στενά για σημεία και συμπτώματα λοίμωξης από τον ιό HIV.
- Συστάσεις: NDCG/MAP @ K, κάλυψη/ποικιλομορφία, καινοτομία.
- Ανωμαλίες: Precision @ k, AUCPR σε συνθετικό/χρυσό σύνολο.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Ανάλυση κομματιών και δικαιοσύνη
Φέτες: αγορά, πάροχος, συσκευή/ASN, ηλικία λογαριασμού, μέγεθος καταθέσεων, ώρα ημέρας.
Δικαιοσύνη: ανόμοιες επιπτώσεις (αναλογία), εξισωμένες αποδόσεις (разница FPR/TPR).
Δράσεις: επανασυναρμολόγηση χαρακτηριστικών, βαθμονόμηση ανά φέτες, αναθεώρηση κατωφλίων, βάρος κατάρτισης.
12) Παρακολούθηση της ποιότητας της παραγωγής
Μετατόπιση δεδομένων/πρόβλεψης: PSI/KL πάνω από χαρακτηριστικά/ρυθμούς.
Βαθμονόμηση: ECE, διαγράμματα αξιοπιστίας.
Σταθερότητα ορίου: ειδοποίηση εάν το αναμενόμενο κόστος ↑> X% ή PR- AUC ↓.
Συστήματα/συμβάσεις: μεταβολές θραύσης αλιευμάτων (μητρώο σχημάτων).
Βρόχος ανάδρασης: ταχείες χειροκίνητες ετικέτες συμβάντων (κλείσιμο υποθέσεων, αποτελέσματα RG).
13) Προστασία της ιδιωτικής ζωής, ασφάλεια, συμμόρφωση
ελαχιστοποίηση PII: ψευδώνυμα, χωριστή προστατευόμενη χαρτογράφηση.
Κατοικία: Ξεχωριστοί αγωγοί/κλειδιά (ΕΟΧ/ΗΒ/BR). η απαγόρευση των διαπεριφερειακών ενώσεων χωρίς λόγο.
DSAR/RTBF: υπολογίσιμες προβολές και επιλεκτικές επεξεργασίες.
Νομικό υπόστεγο: αρχεία WORM για υποθέσεις και πακέτα αναφοράς.
Αρχεία καταγραφής: αμετάβλητη πρόσβαση/έλεγχος εξαγωγών.
14) Οργάνωση της διαδικασίας σήμανσης
Εργαλεία: ανιχνευτής εργασιών, παράδειγμα αναμονής, προεπισκόπηση πλαισίου, κάλυψη PII, hotkeys.
Έλεγχος ταχύτητας και ποιότητας: KPI του σχολιαστή (ταχύτητα, ακρίβεια σε χρυσό), εκπαίδευση και πιστοποίηση.
Έκδοση: 'guidelines _ version', 'notator _ id', 'reviewer _ id', timestamps.
Τεκμηρίωση: καθορισμένη κάρτα (ιδιοκτήτης, πηγή, παράθυρα, κανόνες, μετρήσεις).
15) Υποδείγματα δειγμάτων
Κάρτα δεδομένων (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Κανόνες σήμανσης QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Πίνακας σύγχυσης (ιδέα SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Χάρτης πορείας για την εφαρμογή
MVP (2- 4 εβδομάδες):1. Οδηγίες οντολογίας και v1, χρυσό σύνολο (≥1000 παραδείγματα ανά τομέα).
2. Ροή σχολιασμού με μάσκα PII, κ μετρικό για κάθε εβδομάδα.
3. Το μοντέλο αναφοράς + εκτός γραμμής εκτίμηση (PR- AUC, αναμενόμενο κόστος), δειγματοληψία από σημείο σε χρόνο.
4. παρακολούθηση της μετατόπισης των χαρακτηριστικών/ρυθμών· μητρώο συνόλων δεδομένων και εκδόσεις οδηγών.
Φάση 2 (4- 8 εβδομάδες):- Αγωγός ενεργού/ασθενούς επίβλεψης, «άγνωστος» αυτοτριβής.
- Ανάλυση φέτες και αναφορές δίκαιης μεταχείρισης, βαθμονόμηση πιθανότητας.
- Διαδικασίες DSAR/RTBF για σφραγισμένα σύνολα, Νόμιμη κράτηση για υποθέσεις.
- Πλήρης αυτοματισμός QA (χρυσό/γλάστρες μελιού), δοκιμές παλινδρόμησης σήμανσης.
- Κατάλογος συνόλων δεδομένων και καρτών «ποιότητας μοντέλου». όριο αναμενόμενου κόστους.
- Φόρτιση ανά κόστος σήμανσης/συμπεράσματος, SLA ανά επικαιροποίηση ετικέτας.
17) RACI
R (υπεύθυνη): Επιστήμη δεδομένων (οντολογία, μετρήσεις), επιχειρήσεις επισήμανσης (διαδικασία/QA), Eng δεδομένων (δείγματα/PII/αποθήκευση).
A (υπόλογος): Προϊστάμενος δεδομένων/CDO.
C (Ζητήθηκε η γνώμη): Συμμόρφωση/ΥΠΔ (PII/κατοικία/DSAR), Κίνδυνος/AML/RG (πολιτική), Ασφάλεια (KMS/έλεγχος).
I (Ενημερωμένο): Προϊόν/Εμπορία/Δραστηριότητες/Υποστήριξη.
18) Κατάλογος ελέγχου πριν από την πώληση
- Η οντολογία και οι οδηγοί που εγκρίθηκαν, έκδοση σταθερή.
- Ποιοτικό δείγμα: διαστρωμάτωση, καθυστέρηση ανά χρόνο/αγορά.
- κ/α ≥ τηρήθηκε η χρυσή ακρίβεια του ορίου στόχου.
- Συλλογή στοιχείων και ετικετών point-in-time· δοκιμή για την απουσία λευχαιμίας.
- Μετρήσεις που επιλέγονται με βάση το αναμενόμενο κόστος, ανάλυση κομματιών και δικαιοσύνη.
- Παρακολούθηση μετατόπισης/βαθμονόμησης επί έχουν συσταθεί καταχωρίσεις.
- εφαρμόστηκαν οι πολιτικές PII/DSAR/RTBF και Legal Hold. Ενεργοποιήθηκε ο λογιστικός έλεγχος.
19) Αντισυμβαλλόμενοι και κίνδυνοι
Σήμανση χωρίς σαφή κριτήρια → χαμηλή κ, θορυβώδεις ετικέτες.
Lakage from the future (μετα-πραγματικές ενδείξεις/ετικέτες).
Μη ισορροπημένα δείγματα, μέτρηση ROC- AUC, εξαιρουμένου του κόστους.
Έλλειψη δοκιμών σήμανσης golden/QA και παλινδρόμησης.
PII σε σύνολα δεδομένων που δεν έχουν προσδιοριστεί και κατοικίας.
Καμία ανάλυση φέτες → κρυφή υποβάθμιση σε περιφέρειες/παρόχους.
20) Η τελική γραμμή
Η ποιότητα του μοντέλου αρχίζει με την ποιότητα του σήματος. Αυστηρή οντολογία, οδηγίες με παραδείγματα, point-in-time πειθαρχία, QA περιγράμματα και μετρήσεις που λαμβάνουν υπόψη το κόστος των σφαλμάτων είναι η βάση της αναπαραγώγιμης ML στο iGaming. Ενσωματώνοντας αυτές τις πρακτικές στον αγωγό δεδομένων και στα MLOp, αποκτούμε βιώσιμα, ηθικά και συμμορφούμενα μοντέλα που βελτιώνουν τα αποτελέσματα των επιχειρήσεων χωρίς εκπλήξεις.