آموزش مدل

1) اهداف و اصول

هدف از آموزش این است که برای به دست آوردن یک مدل پایدار، تجدید پذیر و مقرون به صرفه است که بهبود معیارهای کسب و کار (درآمد خالص، churn↓، fraud↓) در حالی که مطابق با RG/AML/حقوقی.

اصول:

مشکل → متریک → داده ها: اولین کار و متریک عملیاتی/هزینه خطا، و سپس مجموعه داده.
نقطه در زمان: هیچ ویژگی/برچسب از آینده استفاده نمی کند.
قابلیت تکثیر: دانه ها/نسخه های ثابت، کنترل مصنوعات.
سادگی اول: شروع با مدل های اساسی/ویژگی ؛ فقط با مزایای اثبات شده پیچیده می شود.
حریم خصوصی با طراحی: PII-به حداقل رساندن، اقامت، ممیزی.

2) رسمی کردن وظیفه و معیارها

طبقه بندی: ریزش/سپرده/تقلب/RG → PR-AUC، F1 @ اپرا. آستانه، KS، هزینه مورد انتظار.
رگرسیون/پیش بینی: LTV/GGR → WAPE/SMAPE، خطای P50/P90، پوشش PI.
رتبه بندی/توصیه ها: NDCG @ K، MAP @ K، پوشش/تنوع.
معیارهای آنلاین: بالا بردن درآمد خالص، CTR/CVR، زمان مصاحبه (RG)، نرخ سوء استفاده.

آستانه هزینه (شبه کد):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) مجموعه داده ها و پارتیشن ها

نقطه در زمان پیوستن و اندازه گیری های سازگار با SCD.
عدم تعادل کلاس: نمونه برداری طبقه بندی شده، class_weight، از دست دادن کانونی، بیش از حد موارد نادر.
زمان/بازار/مستاجر پارتیشن: شکاف train↔val↔test برای نشت.

تقسیم زمانی (ایده SQL):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) آماده سازی ویژگی

ویندوز و واحد: 10m/1h/1d/7d/30d، R/F/M، سرعت/کسری.
دسته بندی ها: هش کردن/یک گرم ؛ رمزگذاری هدف (آگاه از زمان).
عادی سازی/مقیاس بندی: پارامترهای قطار، صرفه جویی در مصنوعات.
Graph/NLP/geo: ساخت یک دسته، انتشار در فروشگاه ویژگی (آنلاین/آفلاین).

5) الگوریتم های پایه

GBDT: XGBoost/LightGBM/CatBoost یک پایگاه داده قوی برای داده های جدولی است.
رگرسیون لجستیک/ElasticNet: قابل تفسیر/ارزان است.
مشاوره: LambdaMART، فاکتور، seq2rec.
ناهنجاری ها: جنگل جداسازی، AutoEncoder.
سری زمانی: ویژگی های تقویم پیامبر/ETS/GBDT.

6) تنظیم و جلوگیری از بازآموزی

GBDT: 'max _ depth', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: ترک تحصیل/پوسیدگی وزن/توقف زود هنگام.
توقف اولیه: توسط متریک در وال با صبر و حداقل بهبود.

7) انتخاب hyperparameters

شبکه/تصادفی برای پیش نویس جستجو ؛ Bayesian/Hyperband برای تنظیم خوب.
محدودیت ها: تکرار/زمان/هزینه بودجه، «بدون overfit» در وال (چک کردن متقابل در تقسیم زمان های متعدد).

طرح:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) کالیبراسیون احتمال

پلات/نگهدارنده на ایزوتونیک ؛ ذخیره تابع کالیبراسیون به عنوان یک مصنوع.
بررسی ECE/Relayability ؛ آستانه ها را با هزینه مورد انتظار دوباره مذاکره کنید.

9) تفسیر و توضیحات

جهانی: اهمیت ویژگی/SHAP، سهم جایگشت.
محلی: SHAP برای راه حل های واحد (موارد RG/AML).
خطرات و پذیرش استفاده از توضیحات آنلاین را مستند کنید.

10) تکرارپذیری و مصنوعات

بذر در همه جا: داده/مدل/مناسب/تقسیم.
مصنوعات: نسخه داده، خط لوله ویژگی، وزن، کالیبراسیون، آستانه، پیکربندی.
ساخت قطعی: ظروف ثابت/وابستگی.

11) آزمایش های ردیابی

ما ثبت نام می کنیم: git-commit، نسخه های مجموعه داده/ویژگی، پیکربندی مدل، معیارها (خاموش/آنلاین)، مصنوعات و نظرات.
قوانین برای آزمایش نامگذاری, برچسب ها (دامنه/بازار/مدل).

12) آفلاین → انتقال آنلاین

کد تبدیل یکپارچه (فروشگاه ویژگی) ؛ آزمون معادل آنلاین/آفلاین.
خدمت: REST/gRPC، زمان بندی/بازپرداخت/کش ؛ canary/برداشت مرحله به مرحله.
آستانه/سیاست: قابل تنظیم (پرچم های ویژگی)، ممیزی و برگشت.

13) نظارت و رانش

داده ها/نرخ: PSI/KL ؛ هشدارها زمانی که آستانه ها بیش از حد است.
کالیبراسیون و معیارها: ECE، PR-AUC/KS در برچسب های جریان.
معیارهای کسب و کار: افزایش درآمد خالص، تقلب ذخیره شده، مداخلات RG، SLA.
راه اندازی مجدد: توسط رانش/فصلی/انتشار/تاریخ انقضا.

14) حریم خصوصی، اقامت، انصاف

به حداقل رساندن PII: نام مستعار، CLS/RLS، نگاشتهای فردی.
اقامت: دایرکتوری ها/کلید های فردی (EEA/UK/BR) ؛ ممنوعیت عضویت بین المللی بدون دلیل.
عدالت: تجزیه و تحلیل برش (سن بازار/دستگاه/حساب)، تاثیر متفاوت، شانس برابر ؛ اصلاح ویژگی ها/آستانه/وزن.

15) هزینه مهندسی

هزینه آموزش: CPU/GPU ساعت، I/O، تعداد اجرا می شود.
هزینه استنتاج: تاخیر/هزینه در هر درخواست ؛ محدودیت در ویژگی های آنلاین و اندازه مدل.
مواد: ویژگی های سنگین - آفلاین ؛ آنلاین - سریع، ذخیره سازی.
بازپرداخت: بودجه آزمایشی/پخش.

16) نمونه ها (قطعات)

LightGBM (طبقه بندی، طرح پایتون):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

نمونه گیری نقطه در زمان (ایده SQL):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

برآورد هزینه مورد انتظار و انتخاب آستانه:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) فرآیندها و RACI

R (مسئول): علوم داده (مدل/آزمایش)، مهندسی داده (مجموعه داده/ویژگی/فروشگاه ویژگی)، MLOps (خدمت/نظارت/CI-CD-CT).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (PII/RG/AML/DSAR)، امنیت (KMS/اسرار/حسابرسی)، SRE (SLO/ارزش)، امور مالی (ROI).
I (مطلع): محصول/بازاریابی/عملیات/پشتیبانی.

18) پیاده سازی نقشه راه

MVP (3-6 هفته):

1. فهرست وظایف و معیارها (هزینه مورد انتظار)، مجموعه داده های نقطه در زمان.

2. مدل های پایه (LogReg/GBDT) + کالیبراسیون + کارت های مدل.

3. آزمایش های ردیابی، دانه های ثابت/مصنوعات، ساخت مجدد.

4. قناری گشت و گذار آنلاین، آستانه مانند پیکربندی، معیارهای هشدار/رانش.

مرحله 2 (6-12 هفته):

Bayesian/Hyperband selection، تجزیه و تحلیل تکه/عدالت، راه اندازی مجدد.
ویژگی اقتصادی/استنتاج، کش/TTL، بازپرداخت.
مستندات متریک/آستانه فرمول، چه اگر شبیه سازی.

مرحله 3 (12-20 هفته):

خطوط لوله چند منطقه ای، DR/تمرینات، آرشیو WORM از انتشار.
تولید خودکار گزارش های کیفیت/کالیبراسیون، آموزش خودکار توسط رویدادها.
آزمایش A/B/n با آزمایش متوالی و خاموش شدن خودکار.

19) چک لیست پیش فروش

کار و متریک کسب و کار تراز وسط قرار دارد; محاسبه هزینه اشتباهات
داده های نقطه در زمان ؛ زمان/بازار تقسیم بدون leukage.
انتخاب/تنظیم، توقف زود هنگام، کالیبراسیون احتمال.
کارت مدل: داده ها، ویژگی ها، معیارها، خطرات، انصاف، مالک.
مصنوعات ذخیره شده (وزن، خط لوله ویژگی، کالیبراسیون، آستانه).
آزمون معادل آنلاین/آفلاین گذشت ؛ موج سواری با یک پرچم.
نظارت بر رانش/کالیبراسیون/معیارهای کسب و کار ؛ برنامه های Retrain/Rollback
سیاست های PII/DSAR/RTBF، اقامت و حسابرسی دسترسی دنبال می شود.
هزینه آموزش/استنتاج در بودجه گنجانده شده است ؛ هشدار SLA

20) ضد الگوهای و خطرات

Lakage: ویژگی ها/برچسب ها از آینده، SCD هماهنگ نشده است.
تنظیم «به آبی» در یک نمونه شفت: بدون تقسیم موقت/چک کردن متقابل.
بدون کالیبراسیون و آستانه هزینه.
عدم تطابق ویژگی آنلاین/آفلاین: نتایج مختلف بر روی prod.
نادیده گرفتن انصاف/برشها: شکستهای پنهان در بازارها/دستگاهها.
تکرار نامحدود و ویژگی های گران قیمت: افزایش ارزش بدون سود.

21) خط پایین

آموزش مدل یک فرایند قابل کنترل است: کار روشن و متریک، نظم و انضباط نقطه در زمان، تنظیم هوشمند با تنظیم، کالیبراسیون و تکرارپذیری، انتقال شفاف به آنلاین و نظارت مستمر بر کیفیت، هزینه و ریسک. با پیروی از این playbook، شما مدل هایی را دریافت می کنید که به طور قابل پیش بینی محصول، حفظ و انطباق را بهبود می بخشد - به سرعت، اخلاقی و قابل اعتماد.

آموزش مدل

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم