סימון נתונים ואיכות מודל

1) מטרה ועקרונות

המטרה: להשיג תוויות רבייה ואיכות מדידה של מודלים ללא סרטן הדם ולקחת בחשבון ציות.

עקרונות:

סכימה-ראשון: אונטולוגיות פורמליות, מילונים כיתתיים, וקריטריונים.
תוויות נבנות ממידע שהיה זמין בעת ההחלטה.
הוראות, בדיקות, רשימות ובחירות במאגר.
פרטיות על ידי עיצוב: PII מזעור, DSAR/RTBF, תושבות.
עלות מודעת: קחו בחשבון את עלות הסימון והעלות הצפויה.

2) תוכנית אונטולוגיה ותוויות

הגדר את האובייקט, המעמדות, החריגים ומקורות האמת: דוגמה (AML/Antipraud):

אובייקט: Transaction/Session.
”לגיטימי”, ”הונאה _ חשודה”, ”הונאה _ אושרה”, ”לא ידוע”.
יוצאים מן הכלל: צ 'רג' בק ללא ראיות = ”לא ידוע”.
מקורות: ניהול תיקים, רישומי גב מטען, ספקים/בנק.

תרשים YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) קווים מנחים

מבנה:

1. תיאור המשימה וההקשר העסקי.

2. הגדרות מחלקתיות עם דוגמאות חיוביות/שליליות ומקרים גבוליים.

3. כללי עדיפות המקור (נכון> heuristic> דעה).

4. 'לא ידוע' וקריטריונים הסלמה.

5. מדיניות פרטיות (מיסוך, אסימונים במקום תעודת זהות).

6. בדיקת FAQ ורשימת סימון.

קטעי הוראות (הונאה):

'fraud _ אישר': הוכח chargback/תיק סגור עם תג הונאה.
'fraud _ מושעה': הפקדה 3
אין דגלים ואין מקרים מאושרים בחלון 60 הימים.
מאפיינים סותרים או נתונים לא מספיקים.

4) מקורות תווית וכללים נקודתיים

תוויות אוטומטיות: כללים/תיקים, גב מטען, הדרה עצמית (ר "ג), הימורי תוצאה.
קרקע: תוצאה של חקירה/תוצאות רגולטוריות.
Point-in-time-Do 't להשתמש באירועים לאחר נקודת ההחלטה (t0).
עיכובים: למשל, צ 'רג' בק מופיע אחרי 45-90 ימים.

תבנית של ”אין עתיד”:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) דוגמאות: סטרטיפיקציה ואיזון

אירועים נדירים: השתמש בדגימה מסודרת על ידי שוק/ספק/תאריך; מעמדות נדירים מדי או אובדן מוקד.
שכבות אימות: להחזיק מעמד בשבוע/שוק/דייר.
סנקציות/מח "ש: להוציא שדות זיהוי ישירים ממערך האימונים.

בקרת הטיה דוגמית:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) עקביות מעקב (IRR)

סכימת בין-אנוטציה מדידה: kv של כהן (2 אנוטטורים )/Krippendorff (N annotators, סוג קנה מידה שונה).

ציוני דרך:

κ < 0. 4 -עקביות ירודה כפול תיקון הוראות/דוגמאות.

0. 4–0. 6 - מקובל על משימות מורכבות;> 0. 6 - טוב;> 0. 8 מעולה.

סימון כרטיס איכות:

כיסוי (כמה מסומנים), קיי/i.by class וחתיכה, נתח ”לא ידוע”, זמן ממוצע, שגיאות עליונות.

7) תקני נפה וזהב

סט זהב: 1-5% מסומן - מדד כפול בדוק.
משימות דבש-סיר: חבוי מקרים ידועים בזרם המשימה.
מבט שני: הסלמה/ארביטראז 'על דוגמאות שנויות במחלוקת.
סימון מבחני רגרסיה: ביטול לאחר עדכון מדריכים.

8) למידה פעילה, חלשה ומפוקחת למחצה

למידה פעילה: בחירת דוגמאות ”לא ודאיות” (מקסימום אנטרופיה/גיוון).
פיקוח חלש: היוריסטיקה/פיקוח מרוחק + מודל רעש לתוויות.
חצי מפוקח: תוויות פסאודו עם סף טמפרטורה ואימות לאחר מכן.

צינור:

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) אנטי ־ לוקאז "ו ־ Time Control

הצטרפות נקודתית לתוויות ותוויות.
באנינג תוויות/תכונה מהעתיד (אחרי ”asof”).
הפרדה בין צינורות מקוונים/לא מקוונים עם מבחן השוואת שינוי צורה.
Data and logic versioning (”לוגיקה _ גרסה”, ”data _ version”, ”asof _ date”).

10) מדדי איכות לדוגמה

בחר מדדים עבור העלות העסקית של השגיאות:

סיווג: PR-AUC/ROC-AUC, F1 @ k, recall @ k, עלות צפויה (משקולות FP/FN).
ניקוד סיכונים: KS/ROC-AUC, Brier, כיול (ECE), PSI/CSI להיסחף.
המלצות: NDCG/MAP @ K, כיסוי/גיוון, חידוש.
חריגות: precision @ k, AUTPR על סט סינתטי/זהב.

עלות צפויה (פסאודו-קוד):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) ניתוח פרוסות והגינות

פרוסות: שוק, ספק, מכשיר/ASN, גיל חשבון, גודל הפקדה, זמן של יום.

הגינות: השפעה שונה (יחס), סיכויים משווים (= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =

פעולות: הרכבה מחדש של תכונות, כיול על ידי פרוסות, תיקון של סף, משקולות אימון.

12) ניטור איכות הייצור

סחף נתונים/חיזוי: PSI/KL חלקי תכונות/תעריפים.
כיול: ECE, תרשימי אמינות.
יציבות סף: התראה אם צפוי עלות> X% או PR-AUC.
מזימות/חוזים: לתפוס שינויים שבירה (סכימה רישום).
לולאת משוב: תוויות תקרית ידניות מהירות (סגירת תיקים, תוצאות RG).

13) פרטיות, ביטחון, ציות

מזעור PII: שמות בדויים, מיפוי מוגן נפרד.
תושבות: צינורות נפרדים/מפתחות (EEA/UK/BR); לאסור מצטרפים צולבים-אזוריים ללא סיבה.
DSAR/RTBF: תחזיות חישוביות ועריכה סלקטיבית.
ארכיון תולעת לתיקים ודיווח חבילות.
יומנים: גישה/ביקורת יצוא בלתי ניתנת לשינוי.

14) ארגון תהליך הסימון

כלים: גשש משימות, תור לדוגמה, תצוגה מקדימה של ההקשר, מיסוך מח "ש, חתיכים.
מהירות ובקרת איכות: KPI של האנוטטור (מהירות, דיוק בזהב), הכשרה ואישור.
Versioning: ”קווים מנחים _ גרסה”, ”annotator _ id',” coviewer _ id', timestamps.
תיעוד: כרטיס סט (בעלים, מקור, חלונות, כללים, מדדים).

15) תבניות לדוגמה

כרטיס נתונים (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

כללי סימון QA:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

מטריצת בלבול (רעיון SQL):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) מימוש מפת דרכים

MVP (2-4 שבועות):

1. אונטולוגיה והוראות v1, סט זהב (1000 דוגמאות לכל תחום).

2. זרימת אנוטציה עם מיסוך מח "ש, בסדר מטרי לכל שבוע.

3. אומדן בסיס + לא מקוון (PR-AUC, עלות צפויה), דגימה נקודתית בזמן.

4. ניטור הסחף של תכונות/תעריפים; רשום של נתונים וגרסאות מנחה.

שלב 2 (שבועות 4-8):

צינור פיקוח פעיל/חלש, מיון אוטומטי ”לא ידוע”.
ניתוח פרוסות ודוחות הגינות, כיול הסתברות.
הליכי DSAR/RTBF עבור סטים מסומנים, Hold משפטי עבור מקרים.

שלב 3 (8-12 שבועות):

אוטומציה מלאה של QA (סירי זהב/דבש), בדיקת רגרסיה.
קטלוג של נתונים וכרטיסי ”איכות מודל”; סף עלות צפוי.
Chargback by markup/inference use, SLA על ידי עדכוני תווית.

17) ראסי

R (אחראי): Data Science (אונטולוגיה, מטריצות), Label Ops (תהליך/QA), Data Eng (דגימות/PII/אחסון).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/DPO (PII/תושבות/DSAR), סיכון/AML/RG (מדיניות), אבטחה (KMS/ביקורת).
אני (מושכל): מוצר/שיווק/מבצעים/תמיכה.

18) רשימת בדיקות לפני המכירה

[ ] אונטולוגיה ומדריכים אושרו, גרסה קבועה.

[ מדגם איכותי ]: סטרטיפיקציה, השהייה לפי זמן/שוק.

[ ]/i.d. סף היעד נענה.

[ ] Point-in-time אוסף של תכונות ותוויות; מבחן להיעדר חלקיקים עבר.

[ ] Metrics שנבחרו על ידי עלות צפויה, ניתוח פרוסות, והגינות.

[ ] סחיפה/מעקב כיול על; התראות מוכנות.

[ ] PII/DSAR/RTBF ומדיניות Ligal Hold נאכפה; ביקורת חשבונות הופעלה.

19) אנטי דפוסים וסיכונים

סימון ללא קריטריונים ברורים = = תוויות נמוכות, רועשות.
לאגם מהעתיד (סימנים/תוויות פוסט עובדתיים).
דגימות לא מאוזנות, עלות השלילה המטרית של ROC-AUC.
חוסר בבדיקות זהב/QA וסימון רגרסיה.
מח "ש במסכות חשופות ונתונים להתמחות.
אין ניתוח פרוסות * השפלה נסתרת על אזורים/ספקים.

20) השורה התחתונה

איכות המודל מתחילה באיכות התווית. אונטולוגיה קפדנית, הוראות עם דוגמאות, דיסציפלינה נקודתית, סיורי QA ומדדים שלוקחים בחשבון את עלות השגיאות הן הבסיס למחזור ML ב-iGaming. ע "י הטמעת שיטות אלה בצינור המידע ובמחשבי ה-MLOPs, מקבלים מודלים ברי קיימא, אתיים וצייתנים שמשפרים תוצאות עסקיות ללא הפתעות.

סימון נתונים ואיכות מודל

צרו קשר

חיבור מהיר

הווידאו יעודכן בקרוב

אנחנו עמוסים מאוד בפרויקטים כרגע