Szkolenie modelowe
1) Cel i zasady
Celem szkolenia jest uzyskanie trwałego, powtarzalnego i opłacalnego modelu, który poprawia wskaźniki biznesowe (Dochody netto, kościół, oszustwa) przy jednoczesnym przestrzeganiu RG/AML/Legal.
Zasady:- Problem → Metric → Dane: najpierw zadanie i operacyjny koszt metryki/błędu, a następnie zestaw danych.
- Punkt w czasie: Żadna funkcja/etykieta nie wykorzystuje przyszłości.
- Odtwarzalność: stałe nasiona/wersje, kontrola artefaktu.
- Prostota pierwsza: zacznij od podstawowych modeli/funkcji; komplikują się tylko z udowodnioną korzyścią.
- Prywatność według projektu: PII-minimalizacja, rezydencja, audyt.
2) Formalizacja zadań i mierników
Klasyfikacja: churn/deposit/fraud/RG → PR-AUC, F1 @ operas. próg, KS, przewidywany koszt.
Regresja/prognoza: LTV/GGR → WAPE/SMAPE, błąd P50/P90, zasięg PI.
Ranking/zalecenia: NDCG @ K, MAP @ K, zakres/różnorodność.
Metryki online: podwyższenie przychodów netto, CTR/CVR, czas do wywiadu (RG), wskaźnik nadużyć.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Zbiory danych i przegrody
Przyłączanie w czasie i pomiary zgodne z SCD.
Nierównowaga klasowa: próbkowanie stratyfikowane, class_weight, utrata ogniskowej, nadmierne występowanie rzadkich zdarzeń.
Czas/Rynek/Najemca Przegrody: Pociąg szczelinowy na wycieki.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Przygotowanie funkcji
Okna i jednostki: 10m/1h/1d/7d/30d, R/F/M, prędkości/frakcje.
Kategorie: hashing/one-hot; kodowanie docelowe (świadomość czasu).
Normalizacja/skalowanie: parametry z pociągu, zapisać w artefaktach.
Wykres/NLP/geo: zbudować partię, opublikować w sklepie funkcyjnym (online/offline).
5) Podstawowe algorytmy
GBDT: XGBoost/اGBM/CatBoost jest silną bazą danych tabelarnych.
Regresja logistyczna/ElasticNet: interpretowalna/tania.
Doradztwo: LambdaMART, faktoryzacja, seq2rec.
Anomalie: Las Izolacji, AutoEncoder.
Seria czasu: Prorok/ETS/GBDT-według funkcji kalendarza.
6) Regularyzacja i zapobieganie przekwalifikowaniu
GBDT: 'max _ depth', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: kropla/próchnica masy ciała/wczesne zatrzymanie.
Wczesny przystanek: metrycznie na val z cierpliwością i minimalną poprawą.
7) Wybór hiperparametrów
Grid/Random do wyszukiwania projektów; Bayesian/Hyperband do drobnego dostrajania.
Ograniczenia: iteracja/czas/koszt budżetu, „nie-overfit” na val (kontrola krzyżowa na wielokrotnych podziałach czasowych).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Kalibracja prawdopodobieństwa
Platt/Isotonic на holdout; przechowywać funkcję kalibracji jako artefakt.
Sprawdź EKG/możliwość ponownego uruchomienia; renegocjować progi według oczekiwanych kosztów.
9) Wykładnia i wyjaśnienia
Globalny: znaczenie funkcji/SHAP, wkład permutacyjny.
Lokalne: SHAP dla rozwiązań jednostkowych (RG/AML cases).
Dokumentacja ryzyka i dopuszczalności korzystania z wyjaśnień w Internecie.
10) Odtwarzalność i artefakty
Nasiona wszędzie: dane/model/fit/split.
Artefakty: wersja danych, rurociąg funkcji, wagi, kalibracja, progi, konfiguracje.
Konstrukcje deterministyczne: stałe pojemniki/zależności.
11) Eksperymenty śledzenia
Rejestrujemy: git-commit, dataset/funkcja wersje, model config, metryki (off/online), artefakty i komentarze.
Zasady nazywania eksperymentów, tagi (domena/rynek/model).
12) Offline → transfer online
Ujednolicony kod transformacji (Funkcja Store); test równoważności online/offline.
Obsługa: REST/gRPC, timeouts/retrays/cache; wycofania kanaryjskie/etapowe.
Próg/polityka: konfigurowalne (flagi funkcji), audyt i odwrót.
13) Monitorowanie i dryfowanie
Dane/szybkość: PSI/KL; wpisy w przypadku przekroczenia progów.
Kalibracja i wskaźniki: ECE, PR-AUC/KS na etykietach strumieniowych.
Wskaźniki biznesowe: podwyższenie przychodów netto, oszustwa zaoszczędzone, interwencje RG, SLA.
Wyzwalacze przekwalifikowania: Przez Drift/Sezonowość/Wydania/Data wygaśnięcia.
14) Prywatność, rezydencja, sprawiedliwość
Minimalizacja PII: pseudonimy, CLS/RLS, mapy indywidualne.
Miejsce zamieszkania: poszczególne katalogi/klucze (EEA/UK/BR); zakazanie przyłączeń międzyregionalnych bez powodu.
Uczciwość: analiza kawałków (wiek rynku/urządzenia/konta), rozbieżny wpływ, wyrównane szanse; korekta cech/progów/wag.
15) Inżynieria kosztowa
Koszt szkolenia: CPU/GPU godziny, I/O, liczba biegów.
Koszt wniosku: opóźnienie/koszt na żądanie; ograniczenia dotyczące funkcji online i rozmiaru modelu.
Materializacja: ciężkie funkcje - offline; online - szybki, buforowany.
Obciążenie zwrotne: Eksperymentalne/powtórne budżety.
16) Przykłady (fragmenty)
• GBM (klasyfikacja, szkic Pythona):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Pobieranie próbek w czasie (idea SQL):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Przewidywane kosztorysy i wybór progów:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Procesy i RACI
R (odpowiedzialny): Data Science (modele/eksperymenty), Data Eng (zbiory danych/funkcje/Feature Store), MLOp (obsługa/monitorowanie/CI-CD-CT).
A (Odpowiedzialność): szef danych/CDO.
C (Konsultowane): Zgodność/DPO (PII/RG/AML/DSAR), Bezpieczeństwo (KMS/secrets/audit), SRE (SLO/value), Finance (ROI).
I (Poinformowany): Produkt/Marketing/Operacje/Wsparcie.
18) Plan działania na rzecz realizacji
MVP (3-6 tygodni):1. Katalog zadań i mierników (przewidywany koszt), zbiory danych w czasie.
2. Podstawowe modele (LogReg/GBDT) + kalibracja + karty modelowe.
3. Eksperymenty śledzenia, stałe nasiona/artefakty, odtwarzalne budowle.
4. Kanaryjski surfing online, progi takie jak config, alert metrics/drift.
Faza 2 (6-12 tygodni):- Wybór Bayesian/Hyperband, analiza plasterków/uczciwość, wyzwalacze przekwalifikowania.
- Funkcja ekonomii/wniosek, pamięć podręczna/TTL, obciążenie zwrotne.
- Dokumentacja wzorów metrycznych/progowych, symulacje co-jeśli.
- Wieloregionalne rurociągi, DR/ćwiczenia, WORM-archiwum wydań.
- Automatyczna generacja raportów o jakości/kalibracji, auto-over-trening przez wydarzenia.
- Eksperymenty A/B/n z sekwencyjnymi testami i automatycznym wyłączeniem.
19) Lista kontrolna przedsprzedaży
- Zadania i metryczne przedsiębiorstwa dostosowane; obliczał koszt błędów.
- Punkt w czasie zbioru danych; Czas/podział rynku bez białaczki.
- Dobór/regularyzacja, wczesne zatrzymanie, kalibracja prawdopodobieństwa.
- Karta modelowa: dane, funkcje, wskaźniki, ryzyko, uczciwość, właściciel.
- Zapisane artefakty (wagi, rurociąg cechowy, kalibracja, progi).
- Przeszedł test równoważności online/offline; surfowanie z flagą funkcji.
- Monitorowanie dryfu/kalibracji/wskaźników biznesowych; plany retrain/rollback.
- Przestrzegane są zasady PII/DSAR/RTBF, rezydencja i audyt dostępu.
- Koszty szkolenia/wnioski są uwzględnione w budżecie; Alerty SLA.
20) Przeciwdziałanie modelom i ryzyku
Lakage: funkcje/etykiety z przyszłości, nieskoordynowany SCD.
Dostrajanie „do niebieskiego” na jednej próbce wału: brak tymczasowych podziałów/kontroli krzyżowej.
Brak kalibracji i progów kosztów.
Niedopasowanie funkcji online/offline: różne wyniki na prod.
Ignoruje uczciwość/plasterki: ukryte awarie na rynkach/urządzeniach.
Nieograniczone powtórki i drogie funkcje: rosnąca wartość bez korzyści.
21) Najważniejsze
Szkolenie modelowe jest możliwym do opanowania procesem: jasne zadanie i metryczne, dyscyplina punktowa, inteligentne dostrajanie z regularyzacją, kalibracją i odtwarzalnością, przejrzysty transfer do Internetu oraz ciągłe monitorowanie jakości, kosztów i ryzyka. Śledząc ten playbook, otrzymasz modele, które przewidywalnie poprawiają produkt, retencję i zgodność - szybko, etycznie i niezawodnie.