მონაცემთა მარკირება და მოდელების ხარისხი
1) დანიშვნა და პრინციპები
მიზანი: რეპროდუქციული ეტიკეტების მიღება და მოდელების გაზომილი ხარისხი ლეიკემიის გარეშე და შესაბამისობის გათვალისწინებით.
პრინციპები:- Schema-first: ოფიციალური ონტოლოგია, კლასის ლექსიკონები და კრიტერიუმები.
- Point in time: ეტიკეტები აგებულია გადაწყვეტილების დროს ხელმისაწვდომი ინფორმაციისგან.
- Quality-as-code: ინსტრუქციები, ტესტები, ჩეკის ფურცლები და ნიმუშები - საცავში.
- პირადი დიზაინი: PII, DSAR/RTBF შემცირება, რეზიდენცია.
- Cost-aware: ჩვენ განვიხილავთ მარკირების ღირებულებას და არასწორ გადაწყვეტილებებს.
2) ონტოლოგია და ეტიკეტის სქემა
დაადგინეთ მარკირების ობიექტი, კლასები, გამონაკლისი და ჭეშმარიტების წყაროები: მაგალითი (AML/ანტიფროდი):- ობიექტი: გარიგება/სესია.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- გამონაკლისები: chargeback 'unknown' მტკიცებულების გარეშე.
- წყაროები: საქმის მენეჯმენტი, chargeback რეესტრები, პროვაიდერები/ბანკი.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) პრეზენტაციის ინსტრუქციები (guidelines)
სტრუქტურა:1. პრობლემის აღწერა და ბიზნეს კონტექსტი.
2. კლასების განმარტებები პოზიტიური/უარყოფითი მაგალითებით და სასაზღვრო შემთხვევებით.
3. წყაროების პრიორიტეტის წესები (ჭეშმარიტება> ევრაზია> მოსაზრება).
4. კრიტერიუმები 'unknown' და ესკალაცია.
5. კონფიდენციალურობის პოლიტიკოსები (შენიღბვა, ნიშნები ID- ის ნაცვლად).
6. FAQ და მარკირების სიის სია.
ინსტრუქციის ფრაგმენტი (ფრაგმენტი):- 'fraud _ confirmed': დადასტურებული chargeback/დახურული შემთხვევა FRAUD ტეგით.
- 'fraud _ suspected': 3 ანაბარი
- 'legit': არ არსებობს დროშები და დადასტურებული შემთხვევები 60 დღის ფანჯარაში.
- 'unknown': კონფლიქტური ნიშნები ან არასაკმარისი მონაცემები.
4) ეტიკეტის წყაროები და დროის წესი
ავტო ეტიკეტები: წესები/შემთხვევები, chargeback, თვითკონტროლი (RG), გარე განაკვეთები.
გრუნტის მშიშარა: გამოძიების/მარეგულირებელი შედეგების შედეგი.
Point-in-time: აკრძალულია მოვლენების გამოყენება გადაწყვეტილების მომენტის შემდეგ (t0).
შეფერხებები: მაგალითად, chargeback ვლინდება 45-90 დღის შემდეგ - ეტიკეტი „მწიფდება“.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) ნიმუშები: სტრატიფიკაცია და ბალანსი
იშვიათი მოვლენები: იშვიათი კამპანია ბაზრებზე/პროვაიდერებზე/თარიღებზე; იშვიათი კლასების oversampling ან focal loss.
ვალიდაციის ფენები: შეინარჩუნეთ ჰოლდოტი კვირის/ბაზრების/ტენანტების მიხედვით.
სანქციები/PII: გამორიცხეთ ველები უშუალო იდენტიფიკატორებით სასწავლო კომპლექტებისგან.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) მრიცხველების კოორდინაცია (IRR)
გაზომეთ interannotator თანხმობა: Cohen's (2 გამომცემელი )/Krippendorff's (N- ის პრეზენტატორები, სხვადასხვა ტიპის მასშტაბები).
სახელმძღვანელო:- κ < 0. 4 - სუსტი კოორდინაცია - ინსტრუქციების/მაგალითების გადახედვა.
0. 4–0. 6 - მისაღებია რთული ამოცანებისთვის;> 0. 6 - კარგი;> 0. 8 - მშვენიერია.
- გაშუქება (რამდენადაც აღინიშნა), clames და slyses, „unknown“ წილი, საშუალო დრო, ტოპ შეცდომები.
7) QA წრე და ოქროს სტანდარტები
ოქროს ნაკრები: 1-5% აღინიშნა - სტანდარტი ორმაგი შემოწმებით.
Honey-pot დავალებები: ფარული ცნობილი შემთხვევები დავალებების ნაკადში.
მეორე შეხედულება: ესკალაცია/საარბიტრაჟო სადავო მაგალითები.
რეგრესიული მარკირების ტესტები: ჰიდების განახლების შემდეგ ხელახალი შემოწმება.
8) აქტიური, სუსტი და ნახევრად კონტროლირებადი სწავლება
აქტიური Learning: „გაურკვეველი“ მაგალითების შერჩევა (მაქსიმალური ენტროპია/მრავალფეროვნება).
Weak Supervision: euristics/distant supervision + ხმაურის მოდელი ეტიკეტებისთვის.
Semi-Supervised: ფსევდო შუქები ტემპერატურის ბარიერი და შემდგომი შემოწმება.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) ანტი-ლეიკეჯი და დროის კონტროლი
Point in time join fick და ეტიკეტებისთვის.
ეტიკეტის/ფიჩის აკრძალვა მომავლიდან („ასოფის“ შემდეგ).
ცალკეული რაციონი ონლაინ/offline, ტრანსფორმაციის ეკვივალენტობის ტესტით.
Datasets და ლოგიკის ვერსია ('logic _ version', 'data _ version', 'asof _ date').
10) მოდელების ხარისხის მეტრიკა
შეარჩიეთ მეტრიკები შეცდომების ბიზნეს ღირებულებისთვის:- კლასიფიკაცია: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, expected cost (წონა FP/FN).
- რისკის სკორინგი: KS/ROC-AUC, Brier, კალიბრაცია (ECE), PSI/CSI დრიფისთვის.
- რეკომენდაციები: NDCG/MAP @ K, coverage/diversity, სიახლე.
- ანომალიები: Precision @ k, AUCPR სინთეზური/ოქროს ნაკრები.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) სლაისის ანალიზი და fairness
სლაიდები: ბაზარი, პროვაიდერი, მოწყობილობა/ASN, ანგარიშის ასაკი, ანაბრის ზომა, დღის დრო.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
მოქმედებები: fick- ის გადანერგვა, კალიბრაცია სლაისებზე, ბარიერების გადახედვა, წონის მომზადება.
12) წარმოების ხარისხის მონიტორინგი
მონაცემთა/პროგნოზების დრიფტი: PSI/KL Fich/Cour.
კალიბრაცია: ECE, reliability დიაგრამები.
ბარიერის სტაბილურობა: alert, თუ გამოიფინა cost> X% ან PR-AUC.
სქემები/კონტრაქტები: დაჭერა breaking changes (schema registry).
Feedback loop: სწრაფი სახელმძღვანელო ინციდენტის ეტიკეტები (case დახურვა, RG შედეგები).
13) კონფიდენციალურობა, უსაფრთხოება, შესაბამისობა
PII მინიმიზაცია: ფსევდონიმები, ცალკეული დაცული მაპინგი.
რეზიდენცია: ცალკეული შეღებვა/გასაღებები (EEA/UK/BR); ჯვრის რეგიონალური join აკრძალვის გარეშე.
DSAR/RTBF: გამოთვლილი პროექციები და შერჩევითი რედაქტორები.
Legal Hold: WORM არქივები საქმეებისა და საანგარიშო პაკეტებისთვის.
ჟურნალები: წვდომის/ექსპორტის უცვლელი აუდიტი.
14) მარკირების პროცესის ორგანიზება
ინსტრუმენტები: task-traker, მაგალითების ჯერი, კონტექსტის წინასწარი შემოწმება, PII შენიღბვა, ცხელი კლავიშები.
სიჩქარისა და ხარისხის კონტროლი: KPI პრეზენტატორი (სიჩქარე, სიზუსტე გოლდენზე), ტრენინგი და სერტიფიკაცია.
ვერსია: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timestamps.
დოკუმენტაცია: კომპლექტის ბარათი (owner, წყარო, ფანჯრები, წესები, მეტრიკა).
15) შაბლონების მაგალითები
Dataset ბარათი (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
QA მარკირების წესები:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL იდეა):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) გზის განხორციელების რუკა
MVP (2-4 კვირა):1. ონტოლოგია და ინსტრუქციები v1, ოქროს ნაკრები (1000-ზე მეტი მაგალითი დომენზე).
2. PII- ნიღბიანი ვიდეოჩანაწერის ნაკადი, k- მეტრი ყოველ კვირას.
3. ძირითადი მოდელი + offline შეფასება (PR-AUC, expected cost), წერტილოვანი დროის ნიმუში.
4. Fick/skor- ის დრიფტის მონიტორინგი; Datasets რეესტრი და ჰაიდების ვერსიები.
ეტაპი 2 (4-8 კვირა):- Active/weak-supervision კონვეიერი, auto-triage 'unknown'.
- Slys ანალიზი და fairness მოხსენებები, ალბათობის კალიბრაცია.
- DSAR/RTBF პროცედურები აღინიშნა კომპლექტებისთვის, იურიდიული ჰოლდი საქმეებისთვის.
- QA (golden/honey-pots) სრული ავტომატიზაცია, მარკირების რეგრესიული ტესტები.
- Datasets და ბარათების კატალოგი „მოდელის ხარისხი“; ბარიერების ექსპექტირებული ორკესტრი.
- Chargeback მარკირების/ინვესტიციის ღირებულებით, SLA ეტიკეტის განახლებით.
17) RACI
R (Responsible): მონაცემთა მეცნიერება (ონტოლოგია, მეტრიკა), Label Ops (პროცესი/QA), Data Eng (ნიმუში/PII/საცავი).
A (Accountable): Head of Data / CDO.
C (Consulted): კომპლექსი/DPO (PII/residence/DSAR), Risk/AML/RG (წესები), უსაფრთხოება (KMS/აუდიტი).
I (ინფორმირებული): პროდუქტი/მარკეტინგი/ოპერაციები/მხარდაჭერა.
18) ჩეკის სია გაყიდვამდე
დამტკიცებულია ონტოლოგია და ჰაიდები, დაფიქსირდა ვერსია.
- მაღალი ხარისხის ნიმუში: სტრატიფიკაცია, დრო/ბაზრები.
- სამიზნე ბარიერი; დაცული გოლდენ-აკურაცია.
- Point-in-time შეგროვება და ეტიკეტები; ლეიკემიის არარსებობის ტესტი დასრულდა.
- მეტრიკა შეირჩა ექსპექტირებული ფოსტით, გაკეთდა სლაისის ანალიზი და fairness.
- დრიფტის/კალიბრაციის მონიტორინგი ჩართულია; ალერტები განწყობილნი არიან.
- პოლიტიკოსები PII/DSAR/RTBF და Legal Hold დაცულია; აუდიტი ჩართულია.
19) ანტი შაბლონები და რისკები
მარკირება მკაფიო კრიტერიუმების გარეშე არის დაბალი, ხმაურიანი ეტიკეტები.
Lakedge მომავლიდან (post factum ნიშნები/ეტიკეტები).
გაუწონასწორებელი ნიმუშები, ROC-AUC მეტრიკა, ღირებულების გამოკლებით.
ოქროს/QA და რეგრესიული მარკირების ტესტების არარსებობა.
PII თარიღებში შენიღბვისა და რეზიდენციის გარეშე.
არ არსებობს სლაისის ანალიზი - ფარული დეგრადაცია რეგიონებში/პროვაიდერებზე.
20) შედეგი
მოდელების ხარისხი იწყება ეტიკეტის ხარისხით. მკაცრი ონტოლოგია, მაგალითების ინსტრუქციები, წერტილის დროის დისციპლინა, QA კონტურები და მეტრიკა, შეცდომების ღირებულების გათვალისწინებით, არის iGaming- ის ML- ის რეპროდუცირების საფუძველი. ამ პრაქტიკის მონაცემთა კონვეიერში და MLOps- ში ჩასმა, თქვენ მიიღებთ სტაბილურ, ეთიკურ და კომპოზიციურ მოდელებს, რომლებიც აუმჯობესებენ ბიზნეს შედეგებს სიურპრიზების გარეშე.