GH GambleHub

Մոդելների ուսուցում

1) Նշանակումներ և սկզբունքներ

Ուսուցման նպատակն է ստանալ կայուն, վերարտադրված և տնտեսական մոդել, որը բարելավում է բիզնես մետրերը (Net Revenue, churn, fraud 2019) RG/AML/Legal։

Սկզբունքները

Problem www.Metric Windows: Առաջին առաջադրանքը և վիրահատական մետրը/սխալների արժեքը, հետո ամսաթիվը։

Point-in-time: ոչ մի ֆիչ/պիտակը չի օգտագործում ապագան։

Reproducibility: ֆիքսված seeds/տարբերակները, արտեֆակտների վերահսկումը։

Simplicity first: Մենք սկսում ենք հիմնական մոդելներից/fich; բարդացնում ենք միայն ապացուցված օգուտը։

Privacy by design: PII-նվազեցումը, բնակությունը, աուդիտը։

2) Խնդրի և մետրի ձևավորումը

Դասակարգումը ՝ churn/դեպոզիտ/frod/RG 24PR-AUC, F1 @ օպերա։ շեմն, KS, expected cost.

Ռեգրեսիա/կանխատեսում: LTV/GGR 35WAPE/SMAPE, P50/P90 սխալ, PI ծածկույթ։

Ռանգինգ/առաջարկություններ ՝ NDCG @ K, MAP @ K, coverage/diversity։

Առցանց մետրերը ՝ uplift Net Revenue, CTR/CVR, Time-to-intervene (RG), abuse-rate։

Արժեքի շեմն (կեղծ)

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Դանասետներ և ապամոնտաժումներ

Point-in-time join և SCD-համատեղելի չափումներ։

Դասերի անհավասարակշռությունը 'stratifed sampling, class _ weight, focal loss, oversampling հազվագյուտ իրադարձություններ։

Ժամանակի/շուկաների/տենանտների տարբերությունները 'train medval productest հետ արտահոսքի համար։

Temronal split (SQL գաղափարը)

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Նշանների պատրաստումը

Պատուհաններ և ագրեգատներ ՝ 10m/1h/1d/7d/30d, R/F/M, արագություն/բաժին։

Կատեգորիաներ ՝ hashing/one-hot; target encoding (time-aware).

Նորմալացում/սկեյլինգ 'train պարամետրեր, պահպանում ենք արտեֆակտներում։

Գրաֆիկ/NLP/geo: Մենք կառուցում ենք բեռ, հրապարակում ենք Feature Store-ում (on.ru/24.ru)։

5) Հիմնական ալգորիթմները

GBDT: XGBoost/Last GBM/CatBoost-ը ուժեղ տվյալների հիմքն է։

Լոգիստիկ ռեգրեսիա/ElasticNet: Մեկնաբանված/էժան։

Առաջարկներ ՝ Lambox MART, ֆակտորիզացիա, seq2rec։

Անոմալիա ՝ Isolation Forest, Direct Encoder։

Ժամանակավոր շարքերը 'Prophet/EFC/GBDT-ը օրացույցի ավարտով։

6) Կարգավորումը և փոխակերպման կանխումը

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.

Վաղ կանգառը 'վալ մետրով patience-ով և նվազագույն բարելավմամբ։

7) Հիպերպարամետրների ընտրությունը

Grid/Random սևամորթ որոնման համար; Bayesian/Hyperband-ը բարակ մրցույթի համար։

Սահմանափակումներ 'իտերացիաների/ժամանակի/արժեքի բյուջե, «112-overfit» val-ի վրա (խաչմերուկ ստուգում մի քանի ռուսական պտուտակների վրա)։

Ուրվագիծ

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Հավանականության տրամաբանությունը

Platt/Isotonic на holdout; պահել տրամաչափման ֆունկցիան որպես արտեֆակտը։

Ստուգել ESE/relibotiti; համաձայնել շեմերը ըստ expected cost-ի։

9) Մեկնաբանությունը և բացատրությունները

Global: feature import.ru/SHAP, պերմութային ներդրումը։

SHAP-ը մեկ լուծումների համար (RG/AML քեյսներ)։

Փաստաթղթավորել ռիսկերը և բացատրությունների օգտագործման ընդունակությունը առցանց։

10) Վերարտադրողականությունը և արտեֆակտները

Seed-ը ամենուր 'տվյալներ/մոդել/ընտրություն/վերլուծություն։

Artefakts: Տվյալների տարբերակը, fich-medpline, քաշը, տրամաչափը, շեմերը, եզրերը։

Deterministic builds: Գրանցված բեռնարկղեր/կախվածություն։

11) Փորձարկումների թրքինգը

Գրանցենք 'git-կոմունիտ, դենսասետի/ֆիչի տարբերակները, մոդելի դելեգը, մետրիկները (off/onts), արտեֆակտները և մեկնաբանությունները։

Փորձերի անվանման կանոնները, թեգերը (տիրոն/շուկա/մոդել)։

12) Օֆլայնը փոխանցվում է առցանց

Փոխակերպման միասնական կոդը (Feature Store); անտարբերության թեստը on.ru/24.ru։

Serving: REST/gRPC, թայմաուտներ/retrai/kash; Կանարյան/ստացիոնար ցողուններ։

Շեմն/քաղաքականությունը 'հայտարարված (ֆիչի դրոշներ), audit և roll-back։

13) Մոսկվան և Դրեյֆը

Տվյալները/սկորը ՝ PSI/KL; ալտերտերը, երբ ավելանում են շեմերը։

Կալիբրալիկան և մետրիկները ՝ RF, PR-AUC/KS հոսքային պիտակների վրա։

Բիզնես մետրիկները ՝ uplift Net Revenue, fraud saved, RG միջամտություններ, SLA։

Տրեգերներ retrain: Dreaff/սեզոնային/թողարկման/ժամկետի։

14) Սեփականատիրությունը, բնակությունը, fairness

PII-նվազեցումը 'կեղծանուններ, CLS/RSA, առանձին մապինգներ։

Residency: անհատական և/բանալիներ (EFC/UK/III); խաչաձև-ռեգիոնային ջոների արգելքը առանց հիմքերի։

Fairness: սլայզ վերլուծություն (շուկա/սարք/հաշիվ/տարիքը), wwww.parate impact, equalized oddds; գլանաձև ֆիչ/շեմն/քաշը։

15) Cost-inginiring

Ուսուցման արժեքը 'CPU/GPU ժամացույց, I/O, գռեհիկների քանակը։

Ինֆիսի արժեքը ՝ latency/cost per request; սահմանափակումներ առցանց ֆիչիի և մոդելի չափի վրա։

Նյութականացում 'ծանր ֆիչին' օֆլինը; առցանց նորերը արագ են, քշված։

Chargeback: բյուջեներ փորձերի/կրճատումների համար։

16) Օրինակներ (բեկորներ)

Last GBM (դասակարգում, Python-ուրվագիծ)

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time նմուշը (SQL-գաղափար)

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

Expected cost-ի գնահատումը և շեմի ընտրությունը

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Գործընթացներ և RACI

R (Responsible): Windows Science (մոդելներ/փորձարկումներ), Windows Eng (Datasets/Feature Store), MLOps (սերվինգ/CI-CD-CT)։

A (Accountable): Head of Data / CDO.

C (Consulted): Compli.ru/DPO (PII/RG/AML/DSAR), Lenta.ru (KMS/գաղտնիքներ/աուդիտ), SNE (SLO/արժեքը), Finance (ROI)։

I (Informed) 'ապրանք/Մարքեթինգ/Վիրահատություն/Աջակցություն։

18) Իրականացման ճանապարհային քարտեզը

MVP (3-6 շաբաթ)

1. Առաջադրանքների և մետրի կատալոգը (expected cost), point-in-time թվասետները։

2. Հիմնական մոդելները (LogReg/GBDT) + տրամաչափը + մոդելների քարտերը։

3. Փորձարկումների թրքինգը, ֆիքսված seeds/արտեֆակտները, reproducible builds-ը։

4. Կանարեկյան առցանց սերվինգ, շեմեր, ինչպիսիք են www.g, metric/dreefa ալտերտերը։

Aleksanda 2 (6-12 շաբաթ)

Բայեսովական/Hyperband ընտրությունը, սլայս-վերլուծությունը/fairness, retrain-stugers։

Fich/infess, kash/TTL, chargeback։

Ռուսական մեթրիկ/շեմեր, what-if սիմուլյացիա։

Բրազիլիա 3 (12-20 շաբաթ)

Մուլտֆիլմի-տարածաշրջանային ֆորումները, DR/ուսուցումները, WORM-արխիվը։

Ռուսական որակի/տրամաչափման ավտոմատ արտադրությունը, auto-pertrenirovka իրադարձությունների վրա։

A/B/n փորձարկումները sequential testing-ով և ավտոմատ կանգառով։

19) Չեկ թուղթ մինչև վաճառելը

  • Բիզնեսի խնդիրը և մետրը համաձայնեցված են. սխալների արժեքը հաշվարկված է։
  • Dataset point-in-time; ժամանակի/շուկայի տարբերությունները; բացակայում է լեյկեդը։
  • Ընտրությունը/կարգավորումը, վաղ կանգառը, հավանականության տրամաբանությունը։
  • Մոդելի քարտը 'տվյալներ, ֆիչիներ, չափումներ, ռիսկեր, fairness, սեփականատեր։
  • Artefakts պահպանվում են (քաշը, fich-pline, տրամաչափը, շեմը)։
  • Հավասարության թեստը on.ru/24.ru է։ serving fich դրոշով։
  • Deldreifa/տրամաչափություն/բիզնես մետրիկ; retrain/rollback պլանները։
  • PII/DSAR/RTBF, նստավայրը և մուտքի աուդիտը պահպանված են։
  • Ուսուցման/ինֆիսի արժեքը նշված է բյուջեում։ SLA ալտերտերը։

20) Anti-patterns և ռիսկեր

Լեյքեջը 'ապագայի ֆիչին/պիտակները, որոնք համաձայն չեն SCD-ի հետ։

Թյունինգը «մինչև կապույտները» մեկ վալ-նմուշում, չկա ոչ մի ոչ պաշտոնական համախմբում/խաչմերուկ ստուգում։

Տրամաբանության և ծախսերի շեմերի բացակայությունը։

Առցանց/օֆլայնային ֆիչի անհամապատասխանությունը 'տարբեր արդյունքներ երկարության վրա։

Fairness/սլայզեր 'թաքնված ձախողումներ շուկաներում/սարքերում։

Անխոհեմ ուրվագծեր և թանկարժեք ֆիգուրներ 'արժեքի բարձրացում առանց օգուտների։

21) Արդյունքը

Մոդելների ուսուցումը կառավարվող գործընթաց է 'հստակ առաջադրանք և չափում, տվյալների կարգապահություն (point-in-time), խելացի թյունինգ կարգավորմամբ, տրամաչափմամբ և վերարտադրմամբ, թափանցիկ փոխանցումը առցանց և որակի, արժեքի և ռիսկերի անընդհատ։ Հետևելով այս պլեյբուսին, դուք ստանում եք մոդելներ, որոնք կանխատեսելիորեն բարելավում են ապրանքը, պահպանումը և համադրումը 'արագ, էթիկական և հուսալի։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։