ترميز البيانات وجودة النموذج
1) الغرض والمبادئ
الهدف: الحصول على ملصقات قابلة للتكرار ونوعية قابلة للقياس من النماذج دون إبيضاض ومع مراعاة الامتثال.
المبادئ:- المخطط أولاً: الأنطولوجيا الرسمية، والقواميس الطبقية، والمعايير.
- نقطة زمنية: يتم بناء الملصقات من المعلومات المتاحة وقت اتخاذ القرار.
- الجودة كرمز: التعليمات والاختبارات والقوائم المرجعية والاختيارات - في المستودع.
- الخصوصية حسب التصميم: تقليل PII، DSAR/RTBF، الإقامة.
- إدراك التكلفة: النظر في تكلفة الترميز والتكلفة المتوقعة.
2) مخطط الأونتولوجيا والعلامات
حدد كائن الترميز والفئات والاستثناءات ومصادر الحقيقة: مثال (AML/Antifraud):- الموضوع: المعاملة/الجلسة.
- Классы: «شرعي»، «احتيال _ مشتبه به»، «احتيال _ مؤكد»، «غير معروف».
- الاستثناءات: رد المسؤولية بدون دليل → «غير معروف».
- المصادر: إدارة الحالات، وسجلات رد التكاليف، ومقدمو الخدمات/المصارف.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) المبادئ التوجيهية
الهيكل:1. وصف المهمة وسياق العمل.
2. التعاريف الطبقية مع الأمثلة الإيجابية/السلبية والحالات الحدودية.
3. المصدر قواعد الأولوية (صحيح> heuristic> opinion).
4. معايير «غير معروفة» والتصعيد.
5. سياسات الخصوصية (الإخفاء، الرموز المميزة بدلاً من الهوية).
6. الأسئلة الشائعة وقائمة التحقق من العلامات.
جزء من التعليمات (الاحتيال):- «fraud _ مؤكدة»: قضية مثبتة/مغلقة تحمل علامة احتيال.
- «fraud _ suppled»: إيداع ≥3
- «شرعي»: لا توجد أعلام ولا حالات مؤكدة في نافذة الأيام 60.
- «غير معروف»: تضارب الخصائص أو عدم كفاية البيانات.
4) مصادر التسمية وقواعد النقاط الزمنية
ملصقات السيارات: القواعد/الحالات، رد التكاليف، الاستبعاد الذاتي (RG)، رهانات النتيجة.
الأرضية: نتيجة التحقيق/النتائج التنظيمية.
نقطة في الوقت لا تستخدم الأحداث بعد نقطة القرار (t0).
التأخيرات: على سبيل المثال، تظهر إعادة الشحن بعد 45-90 يومًا → «تنضج» التسمية.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) العينات: التقسيم الطبقي والتوازن
الأحداث النادرة: استخدام عينات طبقية حسب السوق/مقدم/التاريخ ؛ الإفراط في تضخيم الفئات النادرة أو الخسارة البؤرية.
طبقات التحقق من الصحة: الانتظار حسب الأسبوع/السوق/المستأجر.
الجزاءات/الرقم القياسي لأسعار الاستهلاك: استبعاد مجالات الهوية المباشرة من مجموعات التدريب.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) اتساق التتبع (IRR)
قياس الاتفاق بين الشروح: κ كوهين (2 شروح )/ α كريبندورف (شروح N، نوع مقياس مختلف).
المعالم:- κ < 0. 4 - ضعف الاتساق → تنقيح التعليمات/الأمثلة.
0. 4–0. 6 - مقبول للمهام المعقدة ؛> 0. 6 - جيد ؛> 0. 8 ممتاز.
- التغطية (عدد المميزات)، κ/ α حسب الفئة والشريحة، حصة «غير معروفة»، متوسط الوقت، أعلى الأخطاء.
7) جولة QA ومعايير الذهب
المجموعة الذهبية: 1-5٪ علامة - معيار فحص مزدوج.
مهام وعاء العسل: حالات مخفية معروفة في تيار المهام.
النظرة الثانية: التصعيد/المراجحة على الأمثلة المثيرة للجدل.
اختبارات تراجع العلامات: إعادة التحقق بعد تحديث الأدلة.
8) التعلم النشط والضعيف وشبه الخاضع للإشراف
التعلم النشط: اختيار الأمثلة «غير المؤكدة» (أقصى قدر من الإنتروبيا/التنوع).
الإشراف الضعيف: الاستدلال/الإشراف البعيد + نموذج الضوضاء للملصقات.
شبه مشرف: ملصقات زائفة ذات عتبة درجة حرارة والتحقق اللاحق.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) مكافحة الإبيضاض والتحكم في الوقت
انضم في الوقت المناسب للميزات والملصقات.
حظر الملصقات/الميزات من المستقبل (بعد 'asof').
خطوط أنابيب منفصلة عبر الإنترنت/غير متصلة بالإنترنت مع اختبار معادلة التحويل.
إصدار البيانات والمنطق («logic _ version», «data _ version», «asof _ date»).
10) مقاييس الجودة النموذجية
اختر مقاييس لتكلفة العمل للأخطاء:- التصنيف: PR-AUC/ROC-AUC، F1 @ k، Recall @ k، التكلفة المتوقعة (أوزان FP/FN).
- تقييم المخاطر: KS/ROC-AUC, Brier, calibration (ECE), PSI/CSI for drift.
- التوصيات: NDCG/MAP @ K، التغطية/التنوع، الجدة.
- الشذوذ: Precision @ k، AUCPR على المجموعة الاصطناعية/الذهبية.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) تحليل الشرائح والإنصاف
الشرائح: السوق، المزود، الجهاز/ASN، عمر الحساب، حجم الودائع، وقت اليوم.
الإنصاف: أثر متباين (نسبة)، احتمالات متساوية (разница FPR/TPR).
الإجراءات: إعادة تجميع الميزات، والمعايرة حسب الشرائح، ومراجعة العتبات، وأوزان التدريب.
12) مراقبة جودة الإنتاج
انجراف البيانات/التنبؤ: PSI/KL على الميزات/الأسعار.
المعايرة: اللجنة الاقتصادية لأوروبا، مخططات الموثوقية.
استقرار العتبة: تنبيه إذا كانت التكلفة المتوقعة ↑> X٪ أو PR-AUC ↓.
المخططات/العقود: تغييرات كسر المصيد (سجل المخطط).
حلقة التغذية المرتدة: ملصقات الحوادث اليدوية السريعة (إغلاق الحالات، نتائج النمو الحقيقي).
13) الخصوصية والأمن والامتثال
تقليل PII: أسماء مستعارة، رسم خرائط محمية منفصلة.
الإقامة: خطوط أنابيب/مفاتيح منفصلة (EEA/UK/BR) ؛ حظر الانضمام عبر الأقاليم دون سبب.
DSAR/RTBF: الإسقاطات القابلة للحساب والتعديلات الانتقائية.
عقد قانوني: أرشيف WORM للقضايا وحزم الإبلاغ.
السجلات: مراجعة غير قابلة للتغيير للوصول/التصدير.
14) تنظيم عملية الوسم
الأدوات: متتبع المهام، قائمة انتظار الأمثلة، معاينة السياق، إخفاء PII، المفاتيح الساخنة.
مراقبة السرعة والجودة: مؤشر الأداء الكوري للمشرح (السرعة والدقة في اللون الذهبي) والتدريب والشهادة.
Versioning: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timestamps.
الوثائق: بطاقة المجموعة (المالك، المصدر، النوافذ، القواعد، المقاييس).
15) نماذج العينة
بطاقة البيانات (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
قواعد مراقبة الجودة:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
مصفوفة الارتباك (فكرة SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) خارطة طريق التنفيذ
أفضل لاعب (2-4 أسابيع):1. Ontology and v1 indicators, gold set (≥1000 examples per domain).
2. تدفق شروح مع قناع PII، κ مقياس لكل أسبوع.
3. نموذج خط الأساس + تقدير غير متصل بالإنترنت (PR-AUC، التكلفة المتوقعة)، أخذ العينات في الوقت المحدد.
4. رصد انحراف السمات/المعدلات ؛ سجل مجموعات البيانات والنسخ الإرشادية.
المرحلة 2 (4-8 أسابيع):- خط أنابيب نشط/ضعيف الإشراف، الفرز التلقائي «غير معروف».
- تحليل الشرائح وتقارير الإنصاف، معايرة الاحتمالات.
- إجراءات DSAR/RTBF للمجموعات المعلمة، Legal Hold for cases.
- أتمتة QA الكاملة (أواني ذهبية/عسل)، اختبارات تراجع الترميز.
- فهرس لمجموعات البيانات وبطاقات «نوعية النماذج» ؛ عتبة التكلفة المتوقعة.
- تحميل تكلفة الترميز/الاستدلال، SLA عن طريق تحديثات الملصق.
17) RACI
R (مسؤول): علم البيانات (علم الأنطولوجيا والمقاييس)، عمليات التسمية (العملية/QA)، Data Eng (العينات/PII/التخزين).
ألف (مسؤول): رئيس قسم البيانات/المدير التنفيذي.
جيم (استشاري): الامتثال/DPO (PII/الإقامة/DSAR)، المخاطر/AML/RG (السياسة)، الأمن (KMS/التدقيق).
I (معلومات): المنتج/التسويق/العمليات/الدعم.
18) قائمة مرجعية قبل البيع
- الأونتولوجيا والأدلة المعتمدة، النسخة ثابتة.
- عينة نوعية: التقسيم الطبقي، حسب الوقت/السوق.
- κ/ α ≥ امتثلت العتبة المستهدفة للدقة الذهبية.
- مجموعة من الملامح والعلامات في الوقت المناسب ؛ اختبار عدم اجتياز الإبيضاض.
- المقاييس المختارة حسب التكلفة المتوقعة وتحليل الشرائح والإنصاف.
- رصد الانجراف/المعايرة ؛ تم إعداد تنبيهات.
- PII/DSAR/RTBF وسياسات الحجز القانوني المنفذة ؛ تمكين مراجعة الحسابات.
19) الأنماط والمخاطر المضادة
ترميز بدون معايير واضحة → κ منخفض، ملصقات صاخبة.
Lakage from the future (علامات/تسميات ما بعد الوقائع).
عينات غير متوازنة، مقياس ROC-AUC باستثناء التكلفة.
عدم وجود اختبارات الترميز الذهبية/QA والانحدار.
PII في مجموعات بيانات الإقامة غير المقنعة.
لا يوجد تحليل للشرائح → التدهور الخفي في المناطق/مقدمي الخدمات.
20) خلاصة القول
تبدأ جودة النموذج بجودة الملصق. علم الوجود الصارم، والتعليمات مع الأمثلة، والانضباط في الوقت المناسب، وخطوط QA والمقاييس التي تأخذ في الاعتبار تكلفة الأخطاء هي أساس ML القابل للتكرار في iGaming. من خلال تضمين هذه الممارسات في خط أنابيب البيانات و MLOps، تحصل على نماذج مستدامة وأخلاقية ومتوافقة تعمل على تحسين نتائج الأعمال دون مفاجآت.