סימון נתונים ואיכות מודל
1) מטרה ועקרונות
המטרה: להשיג תוויות רבייה ואיכות מדידה של מודלים ללא סרטן הדם ולקחת בחשבון ציות.
עקרונות:- סכימה-ראשון: אונטולוגיות פורמליות, מילונים כיתתיים, וקריטריונים.
- תוויות נבנות ממידע שהיה זמין בעת ההחלטה.
- הוראות, בדיקות, רשימות ובחירות במאגר.
- פרטיות על ידי עיצוב: PII מזעור, DSAR/RTBF, תושבות.
- עלות מודעת: קחו בחשבון את עלות הסימון והעלות הצפויה.
2) תוכנית אונטולוגיה ותוויות
הגדר את האובייקט, המעמדות, החריגים ומקורות האמת: דוגמה (AML/Antipraud):- אובייקט: Transaction/Session.
- ”לגיטימי”, ”הונאה _ חשודה”, ”הונאה _ אושרה”, ”לא ידוע”.
- יוצאים מן הכלל: צ 'רג' בק ללא ראיות = ”לא ידוע”.
- מקורות: ניהול תיקים, רישומי גב מטען, ספקים/בנק.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) קווים מנחים
מבנה:1. תיאור המשימה וההקשר העסקי.
2. הגדרות מחלקתיות עם דוגמאות חיוביות/שליליות ומקרים גבוליים.
3. כללי עדיפות המקור (נכון> heuristic> דעה).
4. 'לא ידוע' וקריטריונים הסלמה.
5. מדיניות פרטיות (מיסוך, אסימונים במקום תעודת זהות).
6. בדיקת FAQ ורשימת סימון.
קטעי הוראות (הונאה):- 'fraud _ אישר': הוכח chargback/תיק סגור עם תג הונאה.
- 'fraud _ מושעה': הפקדה 3
- אין דגלים ואין מקרים מאושרים בחלון 60 הימים.
- מאפיינים סותרים או נתונים לא מספיקים.
4) מקורות תווית וכללים נקודתיים
תוויות אוטומטיות: כללים/תיקים, גב מטען, הדרה עצמית (ר "ג), הימורי תוצאה.
קרקע: תוצאה של חקירה/תוצאות רגולטוריות.
Point-in-time-Do 't להשתמש באירועים לאחר נקודת ההחלטה (t0).
עיכובים: למשל, צ 'רג' בק מופיע אחרי 45-90 ימים.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) דוגמאות: סטרטיפיקציה ואיזון
אירועים נדירים: השתמש בדגימה מסודרת על ידי שוק/ספק/תאריך; מעמדות נדירים מדי או אובדן מוקד.
שכבות אימות: להחזיק מעמד בשבוע/שוק/דייר.
סנקציות/מח "ש: להוציא שדות זיהוי ישירים ממערך האימונים.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) עקביות מעקב (IRR)
סכימת בין-אנוטציה מדידה: kv של כהן (2 אנוטטורים )/Krippendorff (N annotators, סוג קנה מידה שונה).
ציוני דרך:- κ < 0. 4 -עקביות ירודה כפול תיקון הוראות/דוגמאות.
0. 4–0. 6 - מקובל על משימות מורכבות;> 0. 6 - טוב;> 0. 8 מעולה.
- כיסוי (כמה מסומנים), קיי/i.by class וחתיכה, נתח ”לא ידוע”, זמן ממוצע, שגיאות עליונות.
7) תקני נפה וזהב
סט זהב: 1-5% מסומן - מדד כפול בדוק.
משימות דבש-סיר: חבוי מקרים ידועים בזרם המשימה.
מבט שני: הסלמה/ארביטראז 'על דוגמאות שנויות במחלוקת.
סימון מבחני רגרסיה: ביטול לאחר עדכון מדריכים.
8) למידה פעילה, חלשה ומפוקחת למחצה
למידה פעילה: בחירת דוגמאות ”לא ודאיות” (מקסימום אנטרופיה/גיוון).
פיקוח חלש: היוריסטיקה/פיקוח מרוחק + מודל רעש לתוויות.
חצי מפוקח: תוויות פסאודו עם סף טמפרטורה ואימות לאחר מכן.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) אנטי ־ לוקאז "ו ־ Time Control
הצטרפות נקודתית לתוויות ותוויות.
באנינג תוויות/תכונה מהעתיד (אחרי ”asof”).
הפרדה בין צינורות מקוונים/לא מקוונים עם מבחן השוואת שינוי צורה.
Data and logic versioning (”לוגיקה _ גרסה”, ”data _ version”, ”asof _ date”).
10) מדדי איכות לדוגמה
בחר מדדים עבור העלות העסקית של השגיאות:- סיווג: PR-AUC/ROC-AUC, F1 @ k, recall @ k, עלות צפויה (משקולות FP/FN).
- ניקוד סיכונים: KS/ROC-AUC, Brier, כיול (ECE), PSI/CSI להיסחף.
- המלצות: NDCG/MAP @ K, כיסוי/גיוון, חידוש.
- חריגות: precision @ k, AUTPR על סט סינתטי/זהב.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) ניתוח פרוסות והגינות
פרוסות: שוק, ספק, מכשיר/ASN, גיל חשבון, גודל הפקדה, זמן של יום.
הגינות: השפעה שונה (יחס), סיכויים משווים (= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
פעולות: הרכבה מחדש של תכונות, כיול על ידי פרוסות, תיקון של סף, משקולות אימון.
12) ניטור איכות הייצור
סחף נתונים/חיזוי: PSI/KL חלקי תכונות/תעריפים.
כיול: ECE, תרשימי אמינות.
יציבות סף: התראה אם צפוי עלות> X% או PR-AUC.
מזימות/חוזים: לתפוס שינויים שבירה (סכימה רישום).
לולאת משוב: תוויות תקרית ידניות מהירות (סגירת תיקים, תוצאות RG).
13) פרטיות, ביטחון, ציות
מזעור PII: שמות בדויים, מיפוי מוגן נפרד.
תושבות: צינורות נפרדים/מפתחות (EEA/UK/BR); לאסור מצטרפים צולבים-אזוריים ללא סיבה.
DSAR/RTBF: תחזיות חישוביות ועריכה סלקטיבית.
ארכיון תולעת לתיקים ודיווח חבילות.
יומנים: גישה/ביקורת יצוא בלתי ניתנת לשינוי.
14) ארגון תהליך הסימון
כלים: גשש משימות, תור לדוגמה, תצוגה מקדימה של ההקשר, מיסוך מח "ש, חתיכים.
מהירות ובקרת איכות: KPI של האנוטטור (מהירות, דיוק בזהב), הכשרה ואישור.
Versioning: ”קווים מנחים _ גרסה”, ”annotator _ id',” coviewer _ id', timestamps.
תיעוד: כרטיס סט (בעלים, מקור, חלונות, כללים, מדדים).
15) תבניות לדוגמה
כרטיס נתונים (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
כללי סימון QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
מטריצת בלבול (רעיון SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) מימוש מפת דרכים
MVP (2-4 שבועות):1. אונטולוגיה והוראות v1, סט זהב (1000 דוגמאות לכל תחום).
2. זרימת אנוטציה עם מיסוך מח "ש, בסדר מטרי לכל שבוע.
3. אומדן בסיס + לא מקוון (PR-AUC, עלות צפויה), דגימה נקודתית בזמן.
4. ניטור הסחף של תכונות/תעריפים; רשום של נתונים וגרסאות מנחה.
שלב 2 (שבועות 4-8):- צינור פיקוח פעיל/חלש, מיון אוטומטי ”לא ידוע”.
- ניתוח פרוסות ודוחות הגינות, כיול הסתברות.
- הליכי DSAR/RTBF עבור סטים מסומנים, Hold משפטי עבור מקרים.
- אוטומציה מלאה של QA (סירי זהב/דבש), בדיקת רגרסיה.
- קטלוג של נתונים וכרטיסי ”איכות מודל”; סף עלות צפוי.
- Chargback by markup/inference use, SLA על ידי עדכוני תווית.
17) ראסי
R (אחראי): Data Science (אונטולוגיה, מטריצות), Label Ops (תהליך/QA), Data Eng (דגימות/PII/אחסון).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/תושבות/DSAR), סיכון/AML/RG (מדיניות), אבטחה (KMS/ביקורת).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.
18) רשימת בדיקות לפני המכירה
[ ] אונטולוגיה ומדריכים אושרו, גרסה קבועה.
[ מדגם איכותי ]: סטרטיפיקציה, השהייה לפי זמן/שוק.
[ ]/i.d. סף היעד נענה.
[ ] Point-in-time אוסף של תכונות ותוויות; מבחן להיעדר חלקיקים עבר.
[ ] Metrics שנבחרו על ידי עלות צפויה, ניתוח פרוסות, והגינות.
[ ] סחיפה/מעקב כיול על; התראות מוכנות.
[ ] PII/DSAR/RTBF ומדיניות Ligal Hold נאכפה; ביקורת חשבונות הופעלה.
19) אנטי דפוסים וסיכונים
סימון ללא קריטריונים ברורים = = תוויות נמוכות, רועשות.
לאגם מהעתיד (סימנים/תוויות פוסט עובדתיים).
דגימות לא מאוזנות, עלות השלילה המטרית של ROC-AUC.
חוסר בבדיקות זהב/QA וסימון רגרסיה.
מח "ש במסכות חשופות ונתונים להתמחות.
אין ניתוח פרוסות * השפלה נסתרת על אזורים/ספקים.
20) השורה התחתונה
איכות המודל מתחילה באיכות התווית. אונטולוגיה קפדנית, הוראות עם דוגמאות, דיסציפלינה נקודתית, סיורי QA ומדדים שלוקחים בחשבון את עלות השגיאות הן הבסיס למחזור ML ב-iGaming. ע "י הטמעת שיטות אלה בצינור המידע ובמחשבי ה-MLOPs, מקבלים מודלים ברי קיימא, אתיים וצייתנים שמשפרים תוצאות עסקיות ללא הפתעות.