نشانه گذاری داده ها و کیفیت مدل
1) اهداف و اصول
هدف: برای به دست آوردن برچسب های تجدید پذیر و کیفیت قابل اندازه گیری از مدل بدون leukage و با توجه به انطباق.
اصول:- Schema-first: هستیشناسیهای رسمی، لغتنامههای کلاس و معیارها.
- نقطه در زمان: برچسب ها از اطلاعات موجود در زمان تصمیم گیری ساخته شده است.
- کیفیت به عنوان کد: دستورالعمل ها، تست ها، چک لیست ها و انتخاب ها - در مخزن.
- حریم خصوصی توسط طراحی: به حداقل رساندن PII، DSAR/RTBF، اقامت.
- هزینه آگاه: هزینه نشانه گذاری و هزینه مورد انتظار را در نظر بگیرید.
2) هستی شناسی و طرح برچسب
شیء نشانهگذاری، کلاسها، استثناها و منابع حقیقت را تعریف کنید: مثال (AML/Antifraud):- شیء: معامله/جلسه.
- Классы: «قانونی»، «تقلب مشکوک»، «تقلب تایید شده»، «ناشناخته».
- استثنا: بازپرداخت بدون شواهد → «ناشناخته».
- منابع: مدیریت پرونده، ثبت هزینه، ارائه دهندگان/بانک.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) دستورالعمل ها
ساختار:1. شرح کار و زمینه کسب و کار.
2. تعاریف کلاس با نمونه های مثبت/منفی و موارد مرزی.
3. قوانین اولویت منبع (true> heuristic> opinion).
4. «ناشناخته» و معیارهای تشدید.
5. سیاست های حفظ حریم خصوصی (ماسک کردن، نشانه ها به جای شناسه).
6. FAQ و چک لیست نشانه گذاری
بخشی از دستورالعمل (تقلب):- 'fraud _ verified': اثبات بازپرداخت/پرونده بسته شده با برچسب FRAUD.
- 'fraud _ suspended': سپرده ≥3
- «قانونی»: هیچ پرچم و هیچ مورد تایید شده در پنجره 60 روز وجود ندارد.
- «ناشناخته»: ویژگی های متناقض یا داده های ناکافی.
4) منابع برچسب و قوانین نقطه در زمان
برچسب های خودکار: قوانین/موارد، بازپرداخت، خود حذفی (RG)، شرط نتیجه.
زمینه: نتیجه نتایج تحقیق/نظارتی.
نقطه در زمان از رویدادهای بعد از نقطه تصمیم (t0) استفاده نکنید.
تاخیر: به عنوان مثال، پس از 45-90 روز → برچسب «بالغ» ظاهر می شود.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) نمونه ها: طبقه بندی و تعادل
حوادث نادر: استفاده از نمونه گیری طبقه بندی شده توسط بازار/ارائه دهنده/تاریخ ؛ oversampling کلاس های نادر و یا از دست دادن کانونی.
لایه های اعتبار سنجی: نگه داشتن هفته/بازار/مستاجر.
تحریم ها/PII: زمینه های شناسایی مستقیم را از مجموعه های آموزشی حذف کنید.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) سازگاری ردیاب (IRR)
اندازه گیری توافقنامه بین حاشیه نویسی: κ کوهن (2 حاشیه نویس )/ α Krippendorff (N حاشیه نویس، نوع مقیاس های مختلف).
نشانه ها:- κ < 0. 4 - سازگاری ضعیف → دستورالعمل تجدید نظر/نمونه.
0. 4–0. 6 - قابل قبول برای کارهای پیچیده ؛> 0. 6 - خوب ؛> 0. 8 عالی است.
- پوشش (چه تعداد مشخص شده اند)، κ/ α توسط کلاس و تکه، سهم «ناشناخته»، زمان متوسط، خطاهای بالا.
7) مدار QA و استانداردهای طلا
مجموعه طلایی: 1-5٪ مشخص شده - معیار دوبار بررسی شده است.
وظایف عسل گلدان: موارد شناخته شده پنهان در جریان کار.
نگاه دوم: تشدید/آربیتراژ در نمونه های بحث برانگیز.
علامت گذاری تست های رگرسیون: تأیید مجدد پس از به روز رسانی راهنمایی.
8) یادگیری فعال، ضعیف و نیمه نظارتی
یادگیری فعال: انتخاب نمونه های «نامشخص» (حداکثر آنتروپی/تنوع).
نظارت ضعیف: اکتشافی/نظارت از راه دور + مدل سر و صدا برای برچسب.
نیمه نظارت: شبه برچسب ها با آستانه دما و تأیید بعدی.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) ضد سرطان خون و کنترل زمان
نقطه در زمان پیوستن به ویژگی ها و برچسب ها.
ممنوعیت برچسب/ویژگی از آینده (پس از «asof»).
جدا کردن خطوط لوله آنلاین/آفلاین با آزمون هم ارزی تبدیل.
نسخه بندی داده ها و منطق ('logic _ version'، 'data _ version'، 'asof _ date').
10) معیارهای کیفیت مدل
برگزیدن معیارهایی برای هزینۀ تجاری خطاها:- طبقه بندی: PR-AUC/ROC-AUC، F1 @ k، Recall @ k، هزینه مورد انتظار (وزن FP/FN).
- امتیاز دهی ریسک: KS/ROC-AUC، Brier، کالیبراسیون (ECE)، PSI/CSI برای رانش.
- توصیه ها: NDCG/MAP @ K، پوشش/تنوع، تازگی.
- ناهنجاری ها: Precision @ k، AUCPR در مجموعه مصنوعی/طلا.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) تجزیه و تحلیل برش و عدالت
برش ها: بازار، ارائه دهنده، دستگاه/ASN، سن حساب، اندازه سپرده، زمان روز.
عدالت: تاثیر متفاوت (نسبت)، شانس برابر (разница FPR/TPR).
اقدامات: جمع آوری مجدد ویژگی ها، کالیبراسیون با برش، تجدید نظر در آستانه، وزن آموزش.
12) نظارت بر کیفیت تولید
رانش داده/پیش بینی: PSI/KL بیش از ویژگی ها/نرخ.
کالیبراسیون: ECE، قابلیت اطمینان نمودار.
ثبات آستانه: هشدار اگر هزینه مورد انتظار ↑> X٪ یا PR-AUC ↓ باشد.
طرح/قرارداد: گرفتن تغییرات شکستن (رجیستری طرح).
حلقه بازخورد: برچسب های حادثه سریع دستی (بسته شدن موارد، نتایج RG).
13) حریم خصوصی، امنیت، انطباق
کمینه سازی PII: pseudonyms، نقشه برداری محافظت شده جداگانه.
اقامت: خطوط لوله/کلید جداگانه (EEA/UK/BR) ؛ ممنوعیت عضویت بین المللی بدون دلیل.
DSAR/RTBF: پروجکشنهای قابل محاسبه و ویرایشهای انتخابی.
Legal Hold: بایگانی WORM برای موارد و بسته های گزارش.
سیاهههای مربوط: حسابرسی دسترسی/صادرات غیر قابل تغییر.
14) سازمان فرآیند مارک
ابزار: ردیاب کار، به عنوان مثال صف، پیش نمایش زمینه، ماسک PII، کلید های میانبر.
کنترل سرعت و کیفیت: KPI حاشیه نویس (سرعت، دقت در طلایی)، آموزش و صدور گواهینامه.
نسخه بندی: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timestamps.
مستندات: تنظیم کارت (مالک، منبع، پنجره ها، قوانین، معیارها).
15) قالب نمونه
کارت داده (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
قوانین علامت گذاری QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
ماتریس سردرگمی (ایده SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) نقشه راه پیاده سازی
MVP (2-4 هفته):1. هستی شناسی و دستورالعمل v1، مجموعه طلا (≥1000 مثال در هر دامنه).
2. جریان حاشیه نویسی با ماسک PII، κ متریک برای هر هفته.
3. مدل پایه + برآورد آفلاین (PR-AUC، هزینه مورد انتظار)، نمونه برداری در زمان.
4. نظارت بر رانش از ویژگی های/نرخ ؛ ثبت نام از مجموعه داده ها و نسخه های راهنمای.
مرحله 2 (4-8 هفته):- خط لوله فعال/ضعیف نظارت، خودکار تریاژ «ناشناخته».
- تجزیه و تحلیل برش و گزارش انصاف، کالیبراسیون احتمال.
- روش DSAR/RTBF برای مجموعه های مشخص شده، حقوقی برای موارد.
- اتوماسیون QA کامل (طلایی/عسل گلدان)، آزمون رگرسیون نشانه گذاری.
- کاتالوگ مجموعه داده ها و کارت های «کیفیت مدل» ؛ آستانه انتظار هزینه.
- بازپرداخت با هزینه نشانه گذاری/استنتاج، SLA با به روز رسانی برچسب.
17) RACI
R (مسئول): Data Science (هستی شناسی، معیارها)، Label Ops (فرآیند/QA)، Data Eng (نمونه/PII/ذخیره سازی).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (PII/اقامت/DSAR)، خطر/AML/RG (سیاست)، امنیت (KMS/حسابرسی).
I (مطلع): محصول/بازاریابی/عملیات/پشتیبانی.
18) چک لیست پیش فروش
- هستی شناسی و راهنماهای تایید شده، نسخه ثابت شده است.
- نمونه کیفی: طبقه بندی، نگهداری توسط زمان/بازار.
- κ/ α ≥ آستانه هدف دقت طلایی مطابق با.
- مجموعه ای از ویژگی ها و برچسب ها در زمان ؛ تست عدم وجود لکوژ گذشت.
- معیارهای انتخاب شده توسط هزینه مورد انتظار، تجزیه و تحلیل برش و عدالت.
- نظارت بر رانش/کالیبراسیون در ؛ هشدارها ایجاد شده است.
- PII/DSAR/RTBF و سیاست های حقوقی اجرا شده ؛ حسابرسی فعال شد
19) ضد الگوهای و خطرات
نشانه گذاری بدون معیارهای روشن → κ کم، برچسب های پر سر و صدا.
Lakage از آینده (علائم/برچسب های پس از واقعیت).
نمونه های نامتعادل، ROC-AUC متریک به استثنای هزینه.
عدم وجود تست های نشانه گذاری طلایی/QA و رگرسیون.
PII در مجموعه داده های بدون پوشش و اقامت.
بدون تجزیه و تحلیل برش → تخریب پنهان در مناطق/ارائه دهندگان.
20) خط پایین
کیفیت مدل با کیفیت برچسب شروع می شود. هستی شناسی دقیق، دستورالعمل با نمونه، نقطه در زمان نظم و انضباط، خطوط QA و معیارهای که به حساب هزینه اشتباهات اساس ML تجدید در iGaming هستند. با تعبیه این شیوه ها در خط لوله داده ها و MLOps، شما مدل های پایدار، اخلاقی و سازگار را دریافت می کنید که نتایج کسب و کار را بدون شگفتی بهبود می بخشد.