მონაცემთა მარკირება და მოდელების ხარისხი

1) დანიშვნა და პრინციპები

მიზანი: რეპროდუქციული ეტიკეტების მიღება და მოდელების გაზომილი ხარისხი ლეიკემიის გარეშე და შესაბამისობის გათვალისწინებით.

პრინციპები:

Schema-first: ოფიციალური ონტოლოგია, კლასის ლექსიკონები და კრიტერიუმები.
Point in time: ეტიკეტები აგებულია გადაწყვეტილების დროს ხელმისაწვდომი ინფორმაციისგან.
Quality-as-code: ინსტრუქციები, ტესტები, ჩეკის ფურცლები და ნიმუშები - საცავში.
პირადი დიზაინი: PII, DSAR/RTBF შემცირება, რეზიდენცია.
Cost-aware: ჩვენ განვიხილავთ მარკირების ღირებულებას და არასწორ გადაწყვეტილებებს.

2) ონტოლოგია და ეტიკეტის სქემა

დაადგინეთ მარკირების ობიექტი, კლასები, გამონაკლისი და ჭეშმარიტების წყაროები: მაგალითი (AML/ანტიფროდი):

ობიექტი: გარიგება/სესია.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
გამონაკლისები: chargeback 'unknown' მტკიცებულების გარეშე.
წყაროები: საქმის მენეჯმენტი, chargeback რეესტრები, პროვაიდერები/ბანკი.

YAML სქემა:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) პრეზენტაციის ინსტრუქციები (guidelines)

სტრუქტურა:

1. პრობლემის აღწერა და ბიზნეს კონტექსტი.

2. კლასების განმარტებები პოზიტიური/უარყოფითი მაგალითებით და სასაზღვრო შემთხვევებით.

3. წყაროების პრიორიტეტის წესები (ჭეშმარიტება> ევრაზია> მოსაზრება).

4. კრიტერიუმები 'unknown' და ესკალაცია.

5. კონფიდენციალურობის პოლიტიკოსები (შენიღბვა, ნიშნები ID- ის ნაცვლად).

6. FAQ და მარკირების სიის სია.

ინსტრუქციის ფრაგმენტი (ფრაგმენტი):

'fraud _ confirmed': დადასტურებული chargeback/დახურული შემთხვევა FRAUD ტეგით.
'fraud _ suspected': 3 ანაბარი
'legit': არ არსებობს დროშები და დადასტურებული შემთხვევები 60 დღის ფანჯარაში.
'unknown': კონფლიქტური ნიშნები ან არასაკმარისი მონაცემები.

4) ეტიკეტის წყაროები და დროის წესი

ავტო ეტიკეტები: წესები/შემთხვევები, chargeback, თვითკონტროლი (RG), გარე განაკვეთები.
გრუნტის მშიშარა: გამოძიების/მარეგულირებელი შედეგების შედეგი.
Point-in-time: აკრძალულია მოვლენების გამოყენება გადაწყვეტილების მომენტის შემდეგ (t0).
შეფერხებები: მაგალითად, chargeback ვლინდება 45-90 დღის შემდეგ - ეტიკეტი „მწიფდება“.

SQL შაბლონი „მომავლის გარეშე“:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) ნიმუშები: სტრატიფიკაცია და ბალანსი

იშვიათი მოვლენები: იშვიათი კამპანია ბაზრებზე/პროვაიდერებზე/თარიღებზე; იშვიათი კლასების oversampling ან focal loss.
ვალიდაციის ფენები: შეინარჩუნეთ ჰოლდოტი კვირის/ბაზრების/ტენანტების მიხედვით.
სანქციები/PII: გამორიცხეთ ველები უშუალო იდენტიფიკატორებით სასწავლო კომპლექტებისგან.

შერჩევის გადაადგილების კონტროლი:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) მრიცხველების კოორდინაცია (IRR)

გაზომეთ interannotator თანხმობა: Cohen's (2 გამომცემელი )/Krippendorff's (N- ის პრეზენტატორები, სხვადასხვა ტიპის მასშტაბები).

სახელმძღვანელო:

κ < 0. 4 - სუსტი კოორდინაცია - ინსტრუქციების/მაგალითების გადახედვა.

0. 4–0. 6 - მისაღებია რთული ამოცანებისთვის;> 0. 6 - კარგი;> 0. 8 - მშვენიერია.

მარკირების ხარისხის ბარათი:

გაშუქება (რამდენადაც აღინიშნა), clames და slyses, „unknown“ წილი, საშუალო დრო, ტოპ შეცდომები.

7) QA წრე და ოქროს სტანდარტები

ოქროს ნაკრები: 1-5% აღინიშნა - სტანდარტი ორმაგი შემოწმებით.
Honey-pot დავალებები: ფარული ცნობილი შემთხვევები დავალებების ნაკადში.
მეორე შეხედულება: ესკალაცია/საარბიტრაჟო სადავო მაგალითები.
რეგრესიული მარკირების ტესტები: ჰიდების განახლების შემდეგ ხელახალი შემოწმება.

8) აქტიური, სუსტი და ნახევრად კონტროლირებადი სწავლება

აქტიური Learning: „გაურკვეველი“ მაგალითების შერჩევა (მაქსიმალური ენტროპია/მრავალფეროვნება).
Weak Supervision: euristics/distant supervision + ხმაურის მოდელი ეტიკეტებისთვის.
Semi-Supervised: ფსევდო შუქები ტემპერატურის ბარიერი და შემდგომი შემოწმება.

Pipeline (ესკიზი):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) ანტი-ლეიკეჯი და დროის კონტროლი

Point in time join fick და ეტიკეტებისთვის.
ეტიკეტის/ფიჩის აკრძალვა მომავლიდან („ასოფის“ შემდეგ).
ცალკეული რაციონი ონლაინ/offline, ტრანსფორმაციის ეკვივალენტობის ტესტით.
Datasets და ლოგიკის ვერსია ('logic _ version', 'data _ version', 'asof _ date').

10) მოდელების ხარისხის მეტრიკა

შეარჩიეთ მეტრიკები შეცდომების ბიზნეს ღირებულებისთვის:

კლასიფიკაცია: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, expected cost (წონა FP/FN).
რისკის სკორინგი: KS/ROC-AUC, Brier, კალიბრაცია (ECE), PSI/CSI დრიფისთვის.
რეკომენდაციები: NDCG/MAP @ K, coverage/diversity, სიახლე.
ანომალიები: Precision @ k, AUCPR სინთეზური/ოქროს ნაკრები.

Expected-Cost (ფსევდო კოდი):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) სლაისის ანალიზი და fairness

სლაიდები: ბაზარი, პროვაიდერი, მოწყობილობა/ASN, ანგარიშის ასაკი, ანაბრის ზომა, დღის დრო.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
მოქმედებები: fick- ის გადანერგვა, კალიბრაცია სლაისებზე, ბარიერების გადახედვა, წონის მომზადება.

12) წარმოების ხარისხის მონიტორინგი

მონაცემთა/პროგნოზების დრიფტი: PSI/KL Fich/Cour.
კალიბრაცია: ECE, reliability დიაგრამები.
ბარიერის სტაბილურობა: alert, თუ გამოიფინა cost> X% ან PR-AUC.
სქემები/კონტრაქტები: დაჭერა breaking changes (schema registry).
Feedback loop: სწრაფი სახელმძღვანელო ინციდენტის ეტიკეტები (case დახურვა, RG შედეგები).

13) კონფიდენციალურობა, უსაფრთხოება, შესაბამისობა

PII მინიმიზაცია: ფსევდონიმები, ცალკეული დაცული მაპინგი.
რეზიდენცია: ცალკეული შეღებვა/გასაღებები (EEA/UK/BR); ჯვრის რეგიონალური join აკრძალვის გარეშე.
DSAR/RTBF: გამოთვლილი პროექციები და შერჩევითი რედაქტორები.
Legal Hold: WORM არქივები საქმეებისა და საანგარიშო პაკეტებისთვის.
ჟურნალები: წვდომის/ექსპორტის უცვლელი აუდიტი.

14) მარკირების პროცესის ორგანიზება

ინსტრუმენტები: task-traker, მაგალითების ჯერი, კონტექსტის წინასწარი შემოწმება, PII შენიღბვა, ცხელი კლავიშები.
სიჩქარისა და ხარისხის კონტროლი: KPI პრეზენტატორი (სიჩქარე, სიზუსტე გოლდენზე), ტრენინგი და სერტიფიკაცია.
ვერსია: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timestamps.
დოკუმენტაცია: კომპლექტის ბარათი (owner, წყარო, ფანჯრები, წესები, მეტრიკა).

15) შაბლონების მაგალითები

Dataset ბარათი (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

QA მარკირების წესები:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (SQL იდეა):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) გზის განხორციელების რუკა

MVP (2-4 კვირა):

1. ონტოლოგია და ინსტრუქციები v1, ოქროს ნაკრები (1000-ზე მეტი მაგალითი დომენზე).

2. PII- ნიღბიანი ვიდეოჩანაწერის ნაკადი, k- მეტრი ყოველ კვირას.

3. ძირითადი მოდელი + offline შეფასება (PR-AUC, expected cost), წერტილოვანი დროის ნიმუში.

4. Fick/skor- ის დრიფტის მონიტორინგი; Datasets რეესტრი და ჰაიდების ვერსიები.

ეტაპი 2 (4-8 კვირა):

Active/weak-supervision კონვეიერი, auto-triage 'unknown'.
Slys ანალიზი და fairness მოხსენებები, ალბათობის კალიბრაცია.
DSAR/RTBF პროცედურები აღინიშნა კომპლექტებისთვის, იურიდიული ჰოლდი საქმეებისთვის.

ეტაპი 3 (8-12 კვირა):

QA (golden/honey-pots) სრული ავტომატიზაცია, მარკირების რეგრესიული ტესტები.
Datasets და ბარათების კატალოგი „მოდელის ხარისხი“; ბარიერების ექსპექტირებული ორკესტრი.
Chargeback მარკირების/ინვესტიციის ღირებულებით, SLA ეტიკეტის განახლებით.

17) RACI

R (Responsible): მონაცემთა მეცნიერება (ონტოლოგია, მეტრიკა), Label Ops (პროცესი/QA), Data Eng (ნიმუში/PII/საცავი).
A (Accountable): Head of Data / CDO.
C (Consulted): კომპლექსი/DPO (PII/residence/DSAR), Risk/AML/RG (წესები), უსაფრთხოება (KMS/აუდიტი).
I (ინფორმირებული): პროდუქტი/მარკეტინგი/ოპერაციები/მხარდაჭერა.

18) ჩეკის სია გაყიდვამდე

დამტკიცებულია ონტოლოგია და ჰაიდები, დაფიქსირდა ვერსია.

მაღალი ხარისხის ნიმუში: სტრატიფიკაცია, დრო/ბაზრები.
სამიზნე ბარიერი; დაცული გოლდენ-აკურაცია.
Point-in-time შეგროვება და ეტიკეტები; ლეიკემიის არარსებობის ტესტი დასრულდა.
მეტრიკა შეირჩა ექსპექტირებული ფოსტით, გაკეთდა სლაისის ანალიზი და fairness.
დრიფტის/კალიბრაციის მონიტორინგი ჩართულია; ალერტები განწყობილნი არიან.
პოლიტიკოსები PII/DSAR/RTBF და Legal Hold დაცულია; აუდიტი ჩართულია.

19) ანტი შაბლონები და რისკები

მარკირება მკაფიო კრიტერიუმების გარეშე არის დაბალი, ხმაურიანი ეტიკეტები.
Lakedge მომავლიდან (post factum ნიშნები/ეტიკეტები).
გაუწონასწორებელი ნიმუშები, ROC-AUC მეტრიკა, ღირებულების გამოკლებით.
ოქროს/QA და რეგრესიული მარკირების ტესტების არარსებობა.
PII თარიღებში შენიღბვისა და რეზიდენციის გარეშე.
არ არსებობს სლაისის ანალიზი - ფარული დეგრადაცია რეგიონებში/პროვაიდერებზე.

20) შედეგი

მოდელების ხარისხი იწყება ეტიკეტის ხარისხით. მკაცრი ონტოლოგია, მაგალითების ინსტრუქციები, წერტილის დროის დისციპლინა, QA კონტურები და მეტრიკა, შეცდომების ღირებულების გათვალისწინებით, არის iGaming- ის ML- ის რეპროდუცირების საფუძველი. ამ პრაქტიკის მონაცემთა კონვეიერში და MLOps- ში ჩასმა, თქვენ მიიღებთ სტაბილურ, ეთიკურ და კომპოზიციურ მოდელებს, რომლებიც აუმჯობესებენ ბიზნეს შედეგებს სიურპრიზების გარეშე.

მონაცემთა მარკირება და მოდელების ხარისხი

დაგვიკავშირდით

სწრაფი კავშირი

ვიდეო მალე განახლდება

ჩვენ ახლა ძალიან დაკავებული ვართ პროექტებით