Таълими намунавӣ
1) Мақсад ва принсипҳо
Ҳадафи омӯзиш ба даст овардани модели устувор, такроршаванда ва камхарҷ мебошад, ки нишондиҳандаҳои тиҷоратро беҳтар мекунад (Даромади холис, churn↓, fraud↓) ҳангоми риояи RG/AML/Legal.
Принсипҳо:- Проблема → Metric → Маълумот: вазифаи аввал ва арзиши амалиётӣ/хатогӣ, баъд маҷмӯа.
- Нуқтаи вақт: Ягон хусусият/нишона ояндаро истифода намекунад.
- Репродуктивӣ: тухмиҳо/версияҳои собит, назорати артефакт.
- Аввалан содда: аз моделҳои/хусусиятҳои асосӣ оғоз кунед; мураккаб танҳо бо манфиати исботшуда.
- Махфият аз рӯи тарҳ: PII-ҳадди аққал, истиқомат, аудит.
2) Ба расмият даровардани вазифа ва ченакҳо
Таснифот: churn/deposit/қаллобӣ/RG → PR-AUC, F1 @ opera. ҳадди ниҳоӣ, KS, арзиши пешбинишуда.
Регрессия/пешгӯӣ: LTV/GGR → WAPE/SMAPE, P50/P90 хатогӣ, фарогирии PI.
Рейтинг/тавсияҳо: NDCG @ K, MAP @ K, фарогирӣ/гуногунрангӣ.
Нишондиҳандаҳои онлайн: баланд бардоштани даромади холис, CTR/CVR, вақти мусоҳиба (RG), сатҳи сӯиистифода.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Маълумотҳо ва бахшҳо
Якҷоя кардани вақт ва ченакҳои мувофиқ ба SCD.
Номутавозунии синф: интихоби гурӯҳбандишуда, class_weight, талафоти фокусӣ, пур кардани рӯйдодҳои нодир.
Вақт/Қисмҳои бозор/иҷорагир: Фосилаи train↔val↔test барои ихроҷ.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Омодасозии хусусиятҳо
Тирезаҳо ва воҳидҳо: 10m/1h/1d/7d/30d, R/F/M, суръат/касрҳо.
Категорияҳо: hashing/як-гарм; рамзгузории мақсаднок (вақт огоҳ).
Нормализатсия/миқёс: параметрҳо аз қатора, дар артефактҳо.
Графика/NLP/geo: як партия созед, дар мағозаи хусусият нашр кунед (онлайн/офлайн).
5) Алгоритмҳои асосӣ
GBDT: XGB boost/Light
Регрессияи логистикӣ/Elastic .Net: тафсир/арзон.
Машварат: Lambda-MART, омилсозӣ, seq2rec.
Аномалияҳо: Ҷангали изолятсия, Auto-Encoder.
Силсилаи вақт: Хусусиятҳои тақвимии Паёмбар/ETS/GBDT.
6) Мунтазам ва пешгирии бозомӯзӣ
GBDT: 'max _ depth', 'num _ laves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: тарки мактаб/таназзули вазн/таваққуфи барвақт.
Истгоҳи барвақт: бо метрика дар вал бо сабр ва такмили ҳадди аққал.
7) Интихоби гиперпараметрҳо
Grid/Тасодуфӣ барои ҷустуҷӯи лоиҳаҳо; Байесян/Гипербанд барои танзими хуб.
Маҳдудиятҳо: итератсия/вақт/буҷаи хароҷот, "барзиёд" дар вал (санҷиши салиб дар тақсимоти чандинкарата).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Калибрченкунии эҳтимолият
Платт/Изотоник на нигоҳ доштан; функсияи калибрченкуниро ҳамчун артефакт нигоҳ доред.
ECE/Relayability -ро санҷед; ҳадди ниҳоиро аз рӯи арзиши пешбинишуда аз нав баррасӣ кунед.
9) Тафсир ва тавзеҳот
Глобалӣ: аҳамияти хусусият/SHAP, саҳми тағирёбанда.
Маҳаллӣ: SHAP барои ҳалли воҳидҳо (ҳолатҳои RG/AML).
Хатарҳо ва қобили қабул будани истифодаи тавзеҳотро дар интернет ҳуҷҷатгузорӣ кунед.
10) Репродуктивӣ ва артефактҳо
Тухм дар ҳама ҷо: маълумот/модел/fit/тақсим.
Артефактҳо: версияи маълумот, лӯлаи хусусият, вазн, калибрченкунӣ, ҳудудҳо, конфигуратсияҳо.
Сохтани детерминистӣ: контейнерҳо/вобастагиҳои собит.
11) Пайгирии таҷрибаҳо
Мо сабти ном мекунем: git-commit, dataset/версияҳои хусусӣ, конфигуратсияи модел, ченакҳо (хомӯш/онлайн), артефактҳо ва шарҳҳо.
Қоидаҳои номгузорӣ кардани таҷрибаҳо, барчаспҳо (домен/бозор/модел).
12) Интиқоли офлайнӣ → онлайн
Рамзи ягонаи табдилдиҳӣ (Store Store); санҷиши эквиваленти онлайн/офлайнӣ.
Хизматрасонӣ: REST/GRPC, танаффус/бозсозӣ/кэш; хуруҷи канарӣ/марҳилавӣ.
Ҳадди/сиёсат: танзимшаванда (парчамҳои хусусият), аудит ва бозгашт.
13) Мониторинг ва кашолакунӣ
Маълумот/сатҳи: PSI/KL; ҳушдорҳо ҳангоми зиёд шудани ҳудудҳо.
Калибрченкунӣ ва ченакҳо: ECE, PR-AUC/KS дар тамғакоғазҳо.
Нишондиҳандаҳои тиҷорат: боло бурдани даромади холис, қаллобӣ сарфа карда шуд, мудохилаҳои RG, SLA.
Триггерҳои бозомӯзӣ: Бо Drift/Seasonality/Releases/Мӯҳлати кор.
14) Махфият, иқомат, адолат
Кам кардани PII: тахаллусҳо, CLS/RLS, харитасозии инфиродӣ.
Резидентура: феҳристҳо/калидҳои инфиродӣ (EEA/UK/BR); манъ кардани пайвастшавии байниминтақавӣ бе сабаб.
Адолат: таҳлили бурида (синну соли бозор/дастгоҳ/ҳисоб), таъсири нобаробар, эҳтимолияти баробар; ислоҳи хусусиятҳо/ҳудудҳо/вазнҳо.
15) Арзиши муҳандисӣ
Арзиши омӯзиш: Соатҳои CPU/GPU, I/O, шумораи давишҳо.
Арзиши хулоса: ниҳонӣ/арзиши як дархост; маҳдудиятҳои хусусиятҳои онлайн ва андозаи модел.
Материализатсия: хусусиятҳои вазнин - офлайн; онлайн - зуд, кэш.
Пардохт: Буҷаҳои таҷрибавӣ/такрорӣ.
16) Намунаҳо (пораҳо)
Light-GBM (тасниф, эскизи Python):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Интихоби вақт дар вақт (идеяи SQL):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Сметаи пешбинишудаи хароҷот ва интихоби ҳадди ниҳоӣ:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Равандҳо ва RACI
R (Масъул): Илми маълумот (моделҳо/таҷрибаҳо), Data Eng (маҷмӯаҳо/хусусиятҳо/Дӯкони хусусиятҳо), MLOps (хидматрасонӣ/мониторинг/CI-CD-CT).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (PII/RG/AML/DSAR), Амният (KMS/асрори/аудит), SRE (SLO/value), Молия (ROI).
I (Маълумот): Маҳсулот/Маркетинг/Амалиёт/Дастгирӣ.
18) Харитаи роҳсозӣ
MVP (3-6 ҳафта):1. Феҳристи вазифаҳо ва ченакҳо (арзиши пешбинишуда), маҷмӯаи вақт.
2. Моделҳои асосӣ (Log-Reg/GBDT) + калибрченкунӣ + кортҳои моделӣ.
3. Пайгирии таҷрибаҳо, тухмиҳои собит/артефактҳо, иншооти такроршаванда.
4. Серфинги онлайни канарӣ, ҳудудҳо ба монанди конфиг, ченакҳои ҳушёр/дрифт.
Марҳилаи 2 (6-12 ҳафта):- Интихоби Байесян/Гипербанд, таҳлили бурида/адолат, триггерҳои бозомӯзӣ.
- Хусусияти иқтисодӣ/хулоса, кэш/TTL, пардохт.
- Ҳуҷҷатгузории формулаҳои метрикӣ/остона, чӣ гуна моделсозӣ.
- Қубурҳои бисёрҷониба, DR/машқҳо, бойгонии WORM-релизҳо.
- Тавлиди худкори гузоришҳои сифат/калибрченкунӣ, омӯзиши худкор аз ҷониби чорабиниҳо.
- Таҷрибаҳои A/B/n бо санҷиши пайдарпай ва қатъкунии автоматӣ.
19) Рӯйхати санҷиши пеш аз фурӯш
- Ҳамоҳангсозии вазифа ва тиҷорати метрикӣ; арзиши хатогиҳоро ҳисоб кард.
- Нуқтаи додаҳо дар вақти; Тақсимоти вақт/бозор лейкоз нест.
- Интихоб/танзим, таваққуфи барвақт, калибрченкунии эҳтимолият.
- Корти намунавӣ: маълумот, хусусиятҳо, ченакҳо, хатарҳо, адолат, соҳиб.
- Артефактҳои захирашуда (вазнҳо, лӯлаи хос, калибрченкунӣ, ҳудудҳо).
- Санҷиши эквиваленти онлайн/офлайнӣ гузашт; серфинг бо парчами хусусият.
- Мониторинги ченакҳо/калибрченкунӣ/бизнес; нақшаҳои бозомӯзӣ/бозгашт.
- Сиёсати PII/DSAR/RTBF, истиқомат ва аудити дастрасӣ риоя карда мешаванд.
- Арзиши омӯзиш/хулоса ба буҷет дохил карда мешавад; Огоҳии SLA.
20) Анти-намунаҳо ва хатарҳо
Лейк: хусусиятҳо/тамғакоғазҳо аз оянда, SCD ҳамоҳангнашуда.
Танзими "ба кабуд" дар як намуна: тақсимоти муваққатӣ/санҷиши салиб нест.
Не калибрченкунӣ ва ҳадди хароҷот.
Хусусияти номувофиқатии онлайн/офлайн: натиҷаҳои гуногун дар prod.
Адолатро рад мекунад/иловаро: нобарориҳои пинҳонӣ дар бозорҳо/дастгоҳҳо.
Такрори номаҳдуд ва хусусиятҳои гарон: болоравии арзиши бе фоида.
21) Сатри поён
Омӯзиши моделӣ як раванди идорашаванда аст: вазифаи дақиқ ва метрикӣ, интизоми вақт, танзими оқилона бо регуляризатсия, калибрченкунӣ ва такрористеҳсолкунӣ, интиқоли шаффоф ба онлайн ва назорати доимии сифат, арзиш ва хатар. Бо пайравӣ аз ин китоби бозӣ, шумо моделҳоеро пайдо мекунед, ки ба таври пешгӯишаванда маҳсулот, нигоҳдорӣ ва мутобиқатро беҳтар мекунанд - зуд, ахлоқӣ ва боэътимод.