Үлгілерді оқыту

1) Мақсаты және қағидаттары

Оқытудың мақсаты - RG/AML/Legal талаптарын сақтай отырып, бизнес-метриканы (Net Revenue, churn ↓, fraud ↓) жақсартатын тұрақты, жаңғыртылатын және үнемді модельді алу.

Принциптері:

Problem → Metric → Data: алдымен тапсырма және операциялық метрика/қате құны, содан кейін күні.
Point-in-time: ешбір фича/лейбл болашақты пайдаланбайды.
Reproducibility: бекітілген seeds/нұсқалары, артефактілерді бақылау.
Simplicity first: негізгі үлгілерден бастаймыз; дәлелденген пайда кезінде ғана қиындатамыз.
Privacy by design: PII-минимизация, резиденттік, аудит.

2) Міндет пен метриканы формализациялау

Жіктелуі: churn/депозит/фрод/RG → PR-AUC, F1 @опер. KS, expected cost.
Регрессия/болжам: LTV/GGR → WAPE/SMAPE, P50/P90 қате, PI жабу.
Ранжирлеу/ұсынымдар: NDCG @K, MAP @K, coverage/diversity.
Онлайн-метриктер: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Құны бойынша шек (жалған құжат):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Датасеттер және бөлшектеу

Point-in-time join және SCD үйлесімді өлшемдер.
Сыныптардың теңгерімсіздігі: stratifed sampling, class_weight, focal loss, oversampling сирек оқиғалар.
Уақыт/нарықтар/тенанттар бойынша бөлу: train, val, test «саңылауымен» (gap) ағып кетулерге арналған.

Temporal split (SQL идеясы):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Белгілерді дайындау

Терезелер мен агрегаттар: 10м/1ч/1д/7д/30д, R/F/M, жылдамдық/үлес.
Санаттар: hashing/one-hot; target encoding (time-aware).
Қалыпқа келтіру/скейлинг: train параметрлері, артефактілерде сақталады.
Графикалық/NLP/гео: біз батчем жасаймыз, оны Feature Store (online/offline) сайтында жариялаймыз.

5) Базалық алгоритмдер

GBDT: XGBoost/LightGBM/CatBoost - кестелік деректер үшін күшті база.
Логистикалық регрессия/ElasticNet: түсінікті/арзан.
Ұсынымдар: LambdaMART, факторизация, seq2rec.
Ауытқулар: Isolation Forest, AutoEncoder.
Уақытша қатарлар: Prophet/ETS/GBDT-күнтізбе бойынша.

6) Қайта оқытуды жүйелеу және болдырмау

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Ерте тоқтау: patience және ең аз жақсартумен val метрикасы бойынша.

7) Гиперпараметрлерді таңдау

Бастапқы іздеу үшін Grid/Random; Bayesian/Hyperband.
Шектеулер: итерация/уақыт/құн бюджеті, val-ға «no-overfit» (бірнеше уақытша сплиттерде айқаспалы тексеру).

Нобай:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Ықтималдықтарды калибрлеу

Platt/Isotonic на holdout; калибрлеу функциясын артефакт ретінде сақтауға міндетті.
Е Е/релайабилитін тексеру; expected cost бойынша табалдырықтарды қайта келісу.

9) Түсіндірілуі және түсіндірілуі

Global: feature importance/SHAP, мерзімдік салым.
Local: жеке шешімдер үшін SHAP (RG/AML кейстері).
Тәуекелдерді және түсініктемелерді онлайн пайдалану мүмкіндігін құжаттау.

10) Жаңғыртылуы және артефактілер

Seed барлық жерде: деректер/модель/іріктеу/бөлшектеу.
Артефактілер: деректер нұсқасы, фич-пайплайн, салмақ, калибрлеу, табалдырықтар, конфигалар.
Deterministic builds: бекітілген контейнерлер/тәуелділіктер.

11) Эксперименттер трекингі

Тіркейміз: git-коммит, датасет/фич нұсқалары, модельдер, метрика (off/online), артефакттар мен түсініктемелер.
Эксперименттерді атау қағидалары, тегтер (домен/нарық/модель).

12) Офлайн көшіру → онлайн

Бірыңғай трансформация коды (Feature Store); online/offline баламалық тест.
Сервинг: REST/gRPC, таймауттар/ретрайлер/кэш; канареялық/кезең-кезеңмен шығару.
Табалдырық/саясат: конфигурацияланатын (фича-жалаулар), audit және roll-back.

13) Мониторинг және дрейф

Деректер/есептері: PSI/KL; шектен асқан кездегі аллергия.
Калибрлеу және метрика: ағынды лейблдарда ECE, PR-AUC/KS.
Бизнес-метриктер: uplift Net Revenue, fraud saved, RG-интервенциялар, SLA.
retrain триггерлері: дрейф/маусымдық/релиздер/жарамдылық мерзімі бойынша.

14) Жекешелiк, резиденттiк, fairness

PII-минимизация: псевдонимдер, CLS/RLS, жеке маппингтер.
Residency: жеке каталогтар/кілттер (EEA/UK/BR); негізсіз кросс-өңірлік join 'oларға тыйым салу.
Fairness: слайс-талдау (нарық/құрылғы/есеп жасын), disparate impact, equalized odds; фич/табалдырықтарды/таразыларды түзету.

15) Cost-инжиниринг

Оқыту құны: CPU/GPU-сағат, I/O, прогондар саны.
Инференстің құны: latency/cost per request; онлайн-фичтерге лимиттер және модельдің мөлшері.
Материалдандыру: ауыр фичтер - офлайн; онлайн - жылдам, кэшталатын.
Chargeback: эксперименттерге/реплеяларға арналған бюджеттер.

16) Мысалдар (фрагменттер)

LightGBM (жіктеу, Python нобайы):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Point-in-time іріктемесі (SQL идеясы):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

expected cost бағалау және шекті таңдау:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Процестер және RACI

R (Responsible): Data Science (модельдер/эксперименттер), Data Eng (датасеттер/фичи/Feature Store), MLOps (сервинг/мониторинг/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/құпиялар/аудит), SRE (SLO/құны), Finance (ROI).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.

18) Енгізу жол картасы

MVP (3-6 апта):

1. Тапсырмалар және метриктер каталогы (expected cost), point-in-time датасеттер.

2. Базалық модельдер (LogReg/GBDT) + калибрлеу + модельдер карточкалары.

3. Эксперименттер трекингі, бекітілген seeds/артефакттар, reproducible builds.

4. Канареялық онлайндық сервинг, , метрик/дрейф алерті сияқты табалдырықтар.

2-фаза (6-12 апта):

Байесовский/Hyperband іріктеу, слайс-талдау/fairness, retrain-триггерлер.
Фич/инференс экономикасы, кэш/TTL, chargeback.
Формулалар/шектер құжаттамасы, what-if симуляциясы.

3-фаза (12-20 апта):

Көп аймақтық пайплайндар, DR/жаттығулар, WORM-релиздер мұрағаты.
Сапа/калибрлеу есептерін автогенерациялау, оқиғалар бойынша авто-қайта жаттықтыру.
A/B/n sequential testing және автоматты тоқтатумен эксперименттер.

19) Азық-түлік алдындағы чек-парағы

Міндет пен метрика бизнес-келісілген; қателердің құны есептелген.
point-in-time күні; уақыт/нарықтар бойынша бөлу; лейкедж жоқ.
Таңдау/тұрақтандыру, ерте тоқтау, ықтималдықтарды калибрлеу.
Модель карточкасы: деректер, фич, метрика, тәуекелдер, fairness, иесі.
Артефактілер сақталған (салмақтар, фич-пайплайн, калибрлеу, табалдырықтар).
Online/offline баламалық тесті өтті; фича-туы бар сервинг.
Дрейф/калибрлеу/бизнес-метрика мониторингі; retrain/rollback жоспарлары.
PII/DSAR/RTBF саясаты, резиденттік және қолжетімділік аудиті сақталған.
Оқу/инференс құны бюджетке жазылған; SLA.

20) Анти-паттерндер және тәуекелдер

Лейкедж: SCD-мен келісілмеген болашақтағы фичтер/лейблдер.
Бір білік-іріктемеде «көгілдірге дейін» тюнингі: уақытша сплиттер/айқаспалы тексеру жоқ.
Құны бойынша калибрлеу мен шектердің болмауы.
Сәйкессіздік онлайн/офлайн: өнімдегі әртүрлі нәтижелер.
fairness/слайстардың игноры: базарлардағы/құрылғылардағы жасырын істен шығулар.
Лимитсіз репликалар мен қымбат фичтер: пайдасыз құнның өсуі.

21) Қорытынды

Модельдерді оқыту - бұл басқарылатын процесс: нақты міндет және метрика, деректер тәртібі (point-in-time), жүйелендірумен ақылға қонымды тюнинг, калибрлеу және жаңғыртылу, онлайн және тұрақты сапа, құн және тәуекел мониторингіне ашық көшіру. Осы плейбукке сүйене отырып, сіз өнімді болжамды түрде жақсартатын модельдер аласыз, ұстап тұру және комплаенс - жылдам, этикалық және сенімді.

Үлгілерді оқыту

Бізбен байланысыңыз

Жылдам байланыс

Бейне жақында жаңартылады

Қазір біз жобалармен өте қатты айналысып жатырмыз