Моделдерди окутуу
1) Максаты жана принциптери
Тренингдин максаты - RG/AML/Legal ылайык бизнес метрикасын (Net Revenue, churn ↓, fraud ↓) жакшыртуучу туруктуу, кайталанма жана үнөмдүү моделди алуу.
Принциптери:- Problem → Metric → Data: адегенде тапшырма жана операциялык метрика/ката наркы, андан кийин dataset.
- Point-in-time: Эч бир пункт/лейбл келечекти колдонот.
- Reproducibility: белгиленген seeds/версиялары, артефакттарды көзөмөлдөө.
- Simplicity first: негизги моделдер/fich менен башталат; пайдасы далилденген учурда гана кыйындатабыз.
- Privacy by design: PII-минималдаштыруу, резиденттүүлүк, аудит.
2) Тапшырманы формалдаштыруу жана метрика
Классификация: churn/deposit/frod/RG → PR-AUC, F1 @опер. босого, KS, expected cost.
Регрессия/болжолдоо: LTV/GGR → WAPE/SMAPE, P50/P90 ката, PI каптоо.
Рейтинг/сунуштар: NDCG @K, MAP @K, coverage/diversity.
Онлайн метриктер: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datasets жана бөлүү
Point-in-time join жана SCD-шайкеш өлчөө.
Класстардын дисбалансы: stratifed sampling, class_weight, focal loss, сейрек окуялар oversampling.
убакыт/базарлар/тенантам боюнча бөлүү: train, val, сыноо "боштук" менен (gap) агып.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) белгилерин даярдоо
Терезелер жана агрегаттар: 10m/1h/1d/7d/30d, R/F/M, ылдамдыгы/үлүшү.
Categories: hashing/one-hot; target encoding (time-aware).
Нормалдашуу/скейлинг: train параметрлери, артефакттарда сакталат.
Graphics/NLP/Гео: Feature Store (онлайн/оффлайн) жарыялайт.
5) Негизги алгоритмдер
GBDT: XGBoost/LightGBM/CatBoost - таблицалык маалыматтар үчүн күчтүү база.
Логистикалык регрессия/ElasticNet: чечмеленүүчү/арзан.
Сунуш: LambdaMART, factorization, seq2rec.
Аномалиялар: Isolation Forest, AutoEncoder.
Убакыт катар: Prophet/ETS/GBDT-Календардын phiches.
6) Кайра даярдоону жөнгө салуу жана алдын алуу
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Эрте токтотуу: patience жана минималдуу жакшыртуу менен val боюнча метрика.
7) Гиперпараметрлерди тандоо
Grid/Random долбоору издөө үчүн; Bayesian/Hyperband кылдат орнотуу үчүн.
Чектөөлөр: итерациянын/убакыттын/нарктын бюджети, val боюнча "no-overfit" (бир нече убактылуу сплиттерде кайчылаш текшерүү).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) ыктымалдыгын калибрлөө
Platt/Isotonic на holdout; калибрлөө милдетин артефакт катары сактоо.
ES/relayability текшерүү; expected cost боюнча босоголорду кайра.
9) Чечмелөө жана түшүндүрмөлөр
Global: feature importance/SHAP, permutation салымы.
Local: жалгыз чечимдер үчүн SHAP (RG/AML учурларда).
Тобокелдиктерди жана түшүндүрмөлөрдү онлайн колдонууга жол берилгендигин документтештирүү.
10) Воспроизводимость жана артефакттар
Seed бардык жерде: маалыматтар/модель/тандоо/бөлүү.
Артефакттар: берилиштердин версиясы, фич-пайплайн, салмак, калибрлөө, босоголор, конфиги.
Deterministic builds: белгиленген контейнерлер/көз карандылык.
11) трекинг эксперименттер
Биз каттайбыз: git-коммит, dataset/fich версиялары, моделдер, метрика (off/online), экспонаттар жана комментарийлер.
Эксперименттерди, тегтерди атоо эрежелери (домен/базар/модель).
12) Offline которуу → онлайн
Бирдиктүү трансформация коду (Feature Store); онлайн/оффлайн эквиваленттик тест.
Тейлөө: REST/gRPC, убакыт/retrailer/кэш; Канар/этап-этабы.
Босого/саясат: конфигурациялануучу (фича-желектер), аудит жана roll-back.
13) Мониторинг жана дрейф
Маалыматтар/ылдамдыгы: PSI/KL; чектен ашканда аллергия.
Калибрлөө жана өлчөө: ECE, PR-AUC/KS агымы этикеткалар боюнча.
Бизнес-метрика: uplift Net Revenue, fraud saved, RG-кийлигишүү, SLA.
Триггерлер retrain: дрейф/сезондук/релиздер/жарактуулук мөөнөтү.
14) Купуялык, резиденттик, fairness
PII-минималдаштыруу: псевдонимдер, CLS/RLS, өзүнчө mappings.
Residency: жеке каталогдор/ачкычтар (EEA/UK/BR); негизсиз кросс-аймактык join's тыюу салуу.
Fairness: слайс-талдоо (базар/түзмөк/эсеп курагы), disparate impact, equalized odds; fich/босого/тараза тууралоо.
15) Cost-Engineering
Окутуу баасы: CPU/GPU-саат, I/O, прогондордун саны.
Infenerce наркы: latency/cost per request; онлайн чүчүкулак лимиттери жана моделдин өлчөмү.
Материалдаштыруу: оор чүчүкулак - оффлайн; онлайн - тез, кэш.
Chargeback: эксперименттер/репликалар үчүн бюджеттер.
16) Мисалдар (фрагменттер)
LightGBM (классификация, Python эскиз):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Point-in-time үлгү (SQL-идея):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
expected баалоо жана босого тандоо:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Процесстер жана RACI
R (Responsible): Data Science (моделдер/эксперименттер), Data Eng (Data/Fich/Feature Store), MLOps (сервинг/мониторинг/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/сырлар/аудит), SRE (SLO/наркы), Finance (ROI).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.
18) Ишке ашыруунун жол картасы
MVP (3-6 жума):1. Тапшырмалардын жана метриктердин каталогу (expected cost), datasets-in-time.
2. Негизги моделдер (LogReg/GBDT) + калибрлөө + карталар моделдер.
3. Tracking эксперименттер, белгиленген seeds/artefacts, reproducible builds.
4. Канар онлайн тейлөө, босоголор сыяктуу, метрика/дрейф алерты.
2-этап (6-12 жума):- Bayesovsky/Hyperband тандоо, слайс-талдоо/fairness, retrain-триггерлер.
- Экономика fich/infenersa, кэш/TTL, chargeback.
- Документтештирүү формулалары метрика/босоголор, what-if simulation.
- Көп региондук пайплайндар, DR/машыгуулар, WORM-релиздер архиви.
- Сапат/калибрлөө отчетторун автогенерациялоо, окуялар боюнча авто-кайра даярдоо.
- A/B/n sequential тестирлөө жана автоматтык токтотуу менен эксперименттер.
19) Азык-түлүктүн алдындагы чек-тизме
- Бизнес-макулдашуу милдети жана метрика; каталардын наркы эсептелген.
- Dataset point-in-time; убакыт/базарлар боюнча бөлүү; лейкедж жок.
- Тандоо/жөнгө салуу, эрте токтотуу, ыктымалдыгын калибрлөө.
- Карта модели: маалыматтар, Fich, метрика, тобокелдиктер, fairness, ээси.
- Артефакттар сакталган (салмагы, fich-paypline, калибрлөө, босоголор).
- онлайн/оффлайн эквиваленттик тест өттү; Ficha желеги менен тейлөө.
- Мониторинг дрейф/калибрлөө/бизнес-метрика; retrain/rollback пландары.
- PII/DSAR/RTBF саясаты, резиденттүүлүк жана кирүү аудити сакталат.
- Окуу/Infenerce наркы бюджетке жазылган; SLA аллергиясы.
20) Анти-үлгүлөрү жана тобокелдиктер
Лейкедж: SCD тарабынан макулдашылбаган келечектеги Fich/лейблдер.
Тюнинг "көк" бир вал үлгү боюнча: эч кандай убактылуу split/кайчылаш текшерүү.
наркы боюнча калибрлөө жана босого жоктугу.
Дал келбестик онлайн/оффлайн: прод боюнча ар кандай жыйынтыктар.
Ignor fairness/slays: базарларда/түзмөктөрдө жашыруун кемчиликтер.
Чексиз репликалар жана кымбат чыпкалар: пайдасыз нарктын өсүшү.
21) Жыйынтык
Моделдерди окутуу башкарылуучу процесс болуп саналат: так тапшырма жана метрика, маалыматтардын дисциплинасы (пункттук-убакытта), жөнгө салуу менен акылга сыярлык тюнинг, калибрлөө жана ойноо жөндөмдүүлүгү, онлайн жана сапат, нарк жана тобокелдиктердин туруктуу мониторингине ачык-айкын өтүү. Бул ойнотмо ээрчип, сиз алдын ала продукт, сактоо жана комплаенс жакшыртуу моделдерин алуу - тез, этикалык жана ишенимдүү.