Մոդելների ուսուցում
1) Նշանակումներ և սկզբունքներ
Ուսուցման նպատակն է ստանալ կայուն, վերարտադրված և տնտեսական մոդել, որը բարելավում է բիզնես մետրերը (Net Revenue, churn, fraud 2019) RG/AML/Legal։
Սկզբունքները
Problem www.Metric Windows: Առաջին առաջադրանքը և վիրահատական մետրը/սխալների արժեքը, հետո ամսաթիվը։
Point-in-time: ոչ մի ֆիչ/պիտակը չի օգտագործում ապագան։
Reproducibility: ֆիքսված seeds/տարբերակները, արտեֆակտների վերահսկումը։
Simplicity first: Մենք սկսում ենք հիմնական մոդելներից/fich; բարդացնում ենք միայն ապացուցված օգուտը։
Privacy by design: PII-նվազեցումը, բնակությունը, աուդիտը։
2) Խնդրի և մետրի ձևավորումը
Դասակարգումը ՝ churn/դեպոզիտ/frod/RG 24PR-AUC, F1 @ օպերա։ շեմն, KS, expected cost.
Ռեգրեսիա/կանխատեսում: LTV/GGR 35WAPE/SMAPE, P50/P90 սխալ, PI ծածկույթ։
Ռանգինգ/առաջարկություններ ՝ NDCG @ K, MAP @ K, coverage/diversity։
Առցանց մետրերը ՝ uplift Net Revenue, CTR/CVR, Time-to-intervene (RG), abuse-rate։
Արժեքի շեմն (կեղծ)
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Դանասետներ և ապամոնտաժումներ
Point-in-time join և SCD-համատեղելի չափումներ։
Դասերի անհավասարակշռությունը 'stratifed sampling, class _ weight, focal loss, oversampling հազվագյուտ իրադարձություններ։
Ժամանակի/շուկաների/տենանտների տարբերությունները 'train medval productest հետ արտահոսքի համար։
Temronal split (SQL գաղափարը)
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Նշանների պատրաստումը
Պատուհաններ և ագրեգատներ ՝ 10m/1h/1d/7d/30d, R/F/M, արագություն/բաժին։
Կատեգորիաներ ՝ hashing/one-hot; target encoding (time-aware).
Նորմալացում/սկեյլինգ 'train պարամետրեր, պահպանում ենք արտեֆակտներում։
Գրաֆիկ/NLP/geo: Մենք կառուցում ենք բեռ, հրապարակում ենք Feature Store-ում (on.ru/24.ru)։
5) Հիմնական ալգորիթմները
GBDT: XGBoost/Last GBM/CatBoost-ը ուժեղ տվյալների հիմքն է։
Լոգիստիկ ռեգրեսիա/ElasticNet: Մեկնաբանված/էժան։
Առաջարկներ ՝ Lambox MART, ֆակտորիզացիա, seq2rec։
Անոմալիա ՝ Isolation Forest, Direct Encoder։
Ժամանակավոր շարքերը 'Prophet/EFC/GBDT-ը օրացույցի ավարտով։
6) Կարգավորումը և փոխակերպման կանխումը
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Վաղ կանգառը 'վալ մետրով patience-ով և նվազագույն բարելավմամբ։
7) Հիպերպարամետրների ընտրությունը
Grid/Random սևամորթ որոնման համար; Bayesian/Hyperband-ը բարակ մրցույթի համար։
Սահմանափակումներ 'իտերացիաների/ժամանակի/արժեքի բյուջե, «112-overfit» val-ի վրա (խաչմերուկ ստուգում մի քանի ռուսական պտուտակների վրա)։
Ուրվագիծ
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Հավանականության տրամաբանությունը
Platt/Isotonic на holdout; պահել տրամաչափման ֆունկցիան որպես արտեֆակտը։
Ստուգել ESE/relibotiti; համաձայնել շեմերը ըստ expected cost-ի։
9) Մեկնաբանությունը և բացատրությունները
Global: feature import.ru/SHAP, պերմութային ներդրումը։
SHAP-ը մեկ լուծումների համար (RG/AML քեյսներ)։
Փաստաթղթավորել ռիսկերը և բացատրությունների օգտագործման ընդունակությունը առցանց։
10) Վերարտադրողականությունը և արտեֆակտները
Seed-ը ամենուր 'տվյալներ/մոդել/ընտրություն/վերլուծություն։
Artefakts: Տվյալների տարբերակը, fich-medpline, քաշը, տրամաչափը, շեմերը, եզրերը։
Deterministic builds: Գրանցված բեռնարկղեր/կախվածություն։
11) Փորձարկումների թրքինգը
Գրանցենք 'git-կոմունիտ, դենսասետի/ֆիչի տարբերակները, մոդելի դելեգը, մետրիկները (off/onts), արտեֆակտները և մեկնաբանությունները։
Փորձերի անվանման կանոնները, թեգերը (տիրոն/շուկա/մոդել)։
12) Օֆլայնը փոխանցվում է առցանց
Փոխակերպման միասնական կոդը (Feature Store); անտարբերության թեստը on.ru/24.ru։
Serving: REST/gRPC, թայմաուտներ/retrai/kash; Կանարյան/ստացիոնար ցողուններ։
Շեմն/քաղաքականությունը 'հայտարարված (ֆիչի դրոշներ), audit և roll-back։
13) Մոսկվան և Դրեյֆը
Տվյալները/սկորը ՝ PSI/KL; ալտերտերը, երբ ավելանում են շեմերը։
Կալիբրալիկան և մետրիկները ՝ RF, PR-AUC/KS հոսքային պիտակների վրա։
Բիզնես մետրիկները ՝ uplift Net Revenue, fraud saved, RG միջամտություններ, SLA։
Տրեգերներ retrain: Dreaff/սեզոնային/թողարկման/ժամկետի։
14) Սեփականատիրությունը, բնակությունը, fairness
PII-նվազեցումը 'կեղծանուններ, CLS/RSA, առանձին մապինգներ։
Residency: անհատական և/բանալիներ (EFC/UK/III); խաչաձև-ռեգիոնային ջոների արգելքը առանց հիմքերի։
Fairness: սլայզ վերլուծություն (շուկա/սարք/հաշիվ/տարիքը), wwww.parate impact, equalized oddds; գլանաձև ֆիչ/շեմն/քաշը։
15) Cost-inginiring
Ուսուցման արժեքը 'CPU/GPU ժամացույց, I/O, գռեհիկների քանակը։
Ինֆիսի արժեքը ՝ latency/cost per request; սահմանափակումներ առցանց ֆիչիի և մոդելի չափի վրա։
Նյութականացում 'ծանր ֆիչին' օֆլինը; առցանց նորերը արագ են, քշված։
Chargeback: բյուջեներ փորձերի/կրճատումների համար։
16) Օրինակներ (բեկորներ)
Last GBM (դասակարգում, Python-ուրվագիծ)
python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Point-in-time նմուշը (SQL-գաղափար)
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Expected cost-ի գնահատումը և շեմի ընտրությունը
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Գործընթացներ և RACI
R (Responsible): Windows Science (մոդելներ/փորձարկումներ), Windows Eng (Datasets/Feature Store), MLOps (սերվինգ/CI-CD-CT)։
A (Accountable): Head of Data / CDO.
C (Consulted): Compli.ru/DPO (PII/RG/AML/DSAR), Lenta.ru (KMS/գաղտնիքներ/աուդիտ), SNE (SLO/արժեքը), Finance (ROI)։
I (Informed) 'ապրանք/Մարքեթինգ/Վիրահատություն/Աջակցություն։
18) Իրականացման ճանապարհային քարտեզը
MVP (3-6 շաբաթ)
1. Առաջադրանքների և մետրի կատալոգը (expected cost), point-in-time թվասետները։
2. Հիմնական մոդելները (LogReg/GBDT) + տրամաչափը + մոդելների քարտերը։
3. Փորձարկումների թրքինգը, ֆիքսված seeds/արտեֆակտները, reproducible builds-ը։
4. Կանարեկյան առցանց սերվինգ, շեմեր, ինչպիսիք են www.g, metric/dreefa ալտերտերը։
Aleksanda 2 (6-12 շաբաթ)
Բայեսովական/Hyperband ընտրությունը, սլայս-վերլուծությունը/fairness, retrain-stugers։
Fich/infess, kash/TTL, chargeback։
Ռուսական մեթրիկ/շեմեր, what-if սիմուլյացիա։
Բրազիլիա 3 (12-20 շաբաթ)
Մուլտֆիլմի-տարածաշրջանային ֆորումները, DR/ուսուցումները, WORM-արխիվը։
Ռուսական որակի/տրամաչափման ավտոմատ արտադրությունը, auto-pertrenirovka իրադարձությունների վրա։
A/B/n փորձարկումները sequential testing-ով և ավտոմատ կանգառով։
19) Չեկ թուղթ մինչև վաճառելը
- Բիզնեսի խնդիրը և մետրը համաձայնեցված են. սխալների արժեքը հաշվարկված է։
- Dataset point-in-time; ժամանակի/շուկայի տարբերությունները; բացակայում է լեյկեդը։
- Ընտրությունը/կարգավորումը, վաղ կանգառը, հավանականության տրամաբանությունը։
- Մոդելի քարտը 'տվյալներ, ֆիչիներ, չափումներ, ռիսկեր, fairness, սեփականատեր։
- Artefakts պահպանվում են (քաշը, fich-pline, տրամաչափը, շեմը)։
- Հավասարության թեստը on.ru/24.ru է։ serving fich դրոշով։
- Deldreifa/տրամաչափություն/բիզնես մետրիկ; retrain/rollback պլանները։
- PII/DSAR/RTBF, նստավայրը և մուտքի աուդիտը պահպանված են։
- Ուսուցման/ինֆիսի արժեքը նշված է բյուջեում։ SLA ալտերտերը։
20) Anti-patterns և ռիսկեր
Լեյքեջը 'ապագայի ֆիչին/պիտակները, որոնք համաձայն չեն SCD-ի հետ։
Թյունինգը «մինչև կապույտները» մեկ վալ-նմուշում, չկա ոչ մի ոչ պաշտոնական համախմբում/խաչմերուկ ստուգում։
Տրամաբանության և ծախսերի շեմերի բացակայությունը։
Առցանց/օֆլայնային ֆիչի անհամապատասխանությունը 'տարբեր արդյունքներ երկարության վրա։
Fairness/սլայզեր 'թաքնված ձախողումներ շուկաներում/սարքերում։
Անխոհեմ ուրվագծեր և թանկարժեք ֆիգուրներ 'արժեքի բարձրացում առանց օգուտների։
21) Արդյունքը
Մոդելների ուսուցումը կառավարվող գործընթաց է 'հստակ առաջադրանք և չափում, տվյալների կարգապահություն (point-in-time), խելացի թյունինգ կարգավորմամբ, տրամաչափմամբ և վերարտադրմամբ, թափանցիկ փոխանցումը առցանց և որակի, արժեքի և ռիսկերի անընդհատ։ Հետևելով այս պլեյբուսին, դուք ստանում եք մոդելներ, որոնք կանխատեսելիորեն բարելավում են ապրանքը, պահպանումը և համադրումը 'արագ, էթիկական և հուսալի։