GH GambleHub

Szkolenie modelowe

1) Cel i zasady

Celem szkolenia jest uzyskanie trwałego, powtarzalnego i opłacalnego modelu, który poprawia wskaźniki biznesowe (Dochody netto, kościół, oszustwa) przy jednoczesnym przestrzeganiu RG/AML/Legal.

Zasady:
  • Problem → Metric → Dane: najpierw zadanie i operacyjny koszt metryki/błędu, a następnie zestaw danych.
  • Punkt w czasie: Żadna funkcja/etykieta nie wykorzystuje przyszłości.
  • Odtwarzalność: stałe nasiona/wersje, kontrola artefaktu.
  • Prostota pierwsza: zacznij od podstawowych modeli/funkcji; komplikują się tylko z udowodnioną korzyścią.
  • Prywatność według projektu: PII-minimalizacja, rezydencja, audyt.

2) Formalizacja zadań i mierników

Klasyfikacja: churn/deposit/fraud/RG → PR-AUC, F1 @ operas. próg, KS, przewidywany koszt.
Regresja/prognoza: LTV/GGR → WAPE/SMAPE, błąd P50/P90, zasięg PI.
Ranking/zalecenia: NDCG @ K, MAP @ K, zakres/różnorodność.
Metryki online: podwyższenie przychodów netto, CTR/CVR, czas do wywiadu (RG), wskaźnik nadużyć.

Próg kosztów (kod pseudo):
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Zbiory danych i przegrody

Przyłączanie w czasie i pomiary zgodne z SCD.
Nierównowaga klasowa: próbkowanie stratyfikowane, class_weight, utrata ogniskowej, nadmierne występowanie rzadkich zdarzeń.
Czas/Rynek/Najemca Przegrody: Pociąg szczelinowy na wycieki.

Podział czasowy (idea SQL):
sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Przygotowanie funkcji

Okna i jednostki: 10m/1h/1d/7d/30d, R/F/M, prędkości/frakcje.
Kategorie: hashing/one-hot; kodowanie docelowe (świadomość czasu).
Normalizacja/skalowanie: parametry z pociągu, zapisać w artefaktach.
Wykres/NLP/geo: zbudować partię, opublikować w sklepie funkcyjnym (online/offline).

5) Podstawowe algorytmy

GBDT: XGBoost/اGBM/CatBoost jest silną bazą danych tabelarnych.
Regresja logistyczna/ElasticNet: interpretowalna/tania.
Doradztwo: LambdaMART, faktoryzacja, seq2rec.
Anomalie: Las Izolacji, AutoEncoder.
Seria czasu: Prorok/ETS/GBDT-według funkcji kalendarza.

6) Regularyzacja i zapobieganie przekwalifikowaniu

GBDT: 'max _ depth', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: kropla/próchnica masy ciała/wczesne zatrzymanie.
Wczesny przystanek: metrycznie na val z cierpliwością i minimalną poprawą.

7) Wybór hiperparametrów

Grid/Random do wyszukiwania projektów; Bayesian/Hyperband do drobnego dostrajania.
Ograniczenia: iteracja/czas/koszt budżetu, „nie-overfit” na val (kontrola krzyżowa na wielokrotnych podziałach czasowych).

Szkic:
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Kalibracja prawdopodobieństwa

Platt/Isotonic на holdout; przechowywać funkcję kalibracji jako artefakt.
Sprawdź EKG/możliwość ponownego uruchomienia; renegocjować progi według oczekiwanych kosztów.

9) Wykładnia i wyjaśnienia

Globalny: znaczenie funkcji/SHAP, wkład permutacyjny.
Lokalne: SHAP dla rozwiązań jednostkowych (RG/AML cases).
Dokumentacja ryzyka i dopuszczalności korzystania z wyjaśnień w Internecie.

10) Odtwarzalność i artefakty

Nasiona wszędzie: dane/model/fit/split.
Artefakty: wersja danych, rurociąg funkcji, wagi, kalibracja, progi, konfiguracje.
Konstrukcje deterministyczne: stałe pojemniki/zależności.

11) Eksperymenty śledzenia

Rejestrujemy: git-commit, dataset/funkcja wersje, model config, metryki (off/online), artefakty i komentarze.
Zasady nazywania eksperymentów, tagi (domena/rynek/model).

12) Offline → transfer online

Ujednolicony kod transformacji (Funkcja Store); test równoważności online/offline.
Obsługa: REST/gRPC, timeouts/retrays/cache; wycofania kanaryjskie/etapowe.
Próg/polityka: konfigurowalne (flagi funkcji), audyt i odwrót.

13) Monitorowanie i dryfowanie

Dane/szybkość: PSI/KL; wpisy w przypadku przekroczenia progów.
Kalibracja i wskaźniki: ECE, PR-AUC/KS na etykietach strumieniowych.
Wskaźniki biznesowe: podwyższenie przychodów netto, oszustwa zaoszczędzone, interwencje RG, SLA.
Wyzwalacze przekwalifikowania: Przez Drift/Sezonowość/Wydania/Data wygaśnięcia.

14) Prywatność, rezydencja, sprawiedliwość

Minimalizacja PII: pseudonimy, CLS/RLS, mapy indywidualne.
Miejsce zamieszkania: poszczególne katalogi/klucze (EEA/UK/BR); zakazanie przyłączeń międzyregionalnych bez powodu.
Uczciwość: analiza kawałków (wiek rynku/urządzenia/konta), rozbieżny wpływ, wyrównane szanse; korekta cech/progów/wag.

15) Inżynieria kosztowa

Koszt szkolenia: CPU/GPU godziny, I/O, liczba biegów.
Koszt wniosku: opóźnienie/koszt na żądanie; ograniczenia dotyczące funkcji online i rozmiaru modelu.
Materializacja: ciężkie funkcje - offline; online - szybki, buforowany.
Obciążenie zwrotne: Eksperymentalne/powtórne budżety.

16) Przykłady (fragmenty)

• GBM (klasyfikacja, szkic Pythona):
python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Pobieranie próbek w czasie (idea SQL):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Przewidywane kosztorysy i wybór progów:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Procesy i RACI

R (odpowiedzialny): Data Science (modele/eksperymenty), Data Eng (zbiory danych/funkcje/Feature Store), MLOp (obsługa/monitorowanie/CI-CD-CT).
A (Odpowiedzialność): szef danych/CDO.
C (Konsultowane): Zgodność/DPO (PII/RG/AML/DSAR), Bezpieczeństwo (KMS/secrets/audit), SRE (SLO/value), Finance (ROI).
I (Poinformowany): Produkt/Marketing/Operacje/Wsparcie.

18) Plan działania na rzecz realizacji

MVP (3-6 tygodni):

1. Katalog zadań i mierników (przewidywany koszt), zbiory danych w czasie.

2. Podstawowe modele (LogReg/GBDT) + kalibracja + karty modelowe.

3. Eksperymenty śledzenia, stałe nasiona/artefakty, odtwarzalne budowle.

4. Kanaryjski surfing online, progi takie jak config, alert metrics/drift.

Faza 2 (6-12 tygodni):
  • Wybór Bayesian/Hyperband, analiza plasterków/uczciwość, wyzwalacze przekwalifikowania.
  • Funkcja ekonomii/wniosek, pamięć podręczna/TTL, obciążenie zwrotne.
  • Dokumentacja wzorów metrycznych/progowych, symulacje co-jeśli.
Faza 3 (12-20 tygodni):
  • Wieloregionalne rurociągi, DR/ćwiczenia, WORM-archiwum wydań.
  • Automatyczna generacja raportów o jakości/kalibracji, auto-over-trening przez wydarzenia.
  • Eksperymenty A/B/n z sekwencyjnymi testami i automatycznym wyłączeniem.

19) Lista kontrolna przedsprzedaży

  • Zadania i metryczne przedsiębiorstwa dostosowane; obliczał koszt błędów.
  • Punkt w czasie zbioru danych; Czas/podział rynku bez białaczki.
  • Dobór/regularyzacja, wczesne zatrzymanie, kalibracja prawdopodobieństwa.
  • Karta modelowa: dane, funkcje, wskaźniki, ryzyko, uczciwość, właściciel.
  • Zapisane artefakty (wagi, rurociąg cechowy, kalibracja, progi).
  • Przeszedł test równoważności online/offline; surfowanie z flagą funkcji.
  • Monitorowanie dryfu/kalibracji/wskaźników biznesowych; plany retrain/rollback.
  • Przestrzegane są zasady PII/DSAR/RTBF, rezydencja i audyt dostępu.
  • Koszty szkolenia/wnioski są uwzględnione w budżecie; Alerty SLA.

20) Przeciwdziałanie modelom i ryzyku

Lakage: funkcje/etykiety z przyszłości, nieskoordynowany SCD.
Dostrajanie „do niebieskiego” na jednej próbce wału: brak tymczasowych podziałów/kontroli krzyżowej.
Brak kalibracji i progów kosztów.
Niedopasowanie funkcji online/offline: różne wyniki na prod.
Ignoruje uczciwość/plasterki: ukryte awarie na rynkach/urządzeniach.
Nieograniczone powtórki i drogie funkcje: rosnąca wartość bez korzyści.

21) Najważniejsze

Szkolenie modelowe jest możliwym do opanowania procesem: jasne zadanie i metryczne, dyscyplina punktowa, inteligentne dostrajanie z regularyzacją, kalibracją i odtwarzalnością, przejrzysty transfer do Internetu oraz ciągłe monitorowanie jakości, kosztów i ryzyka. Śledząc ten playbook, otrzymasz modele, które przewidywalnie poprawiają produkt, retencję i zgodność - szybko, etycznie i niezawodnie.

Contact

Skontaktuj się z nami

Napisz do nas w każdej sprawie — pytania, wsparcie, konsultacje.Zawsze jesteśmy gotowi pomóc!

Telegram
@Gamble_GC
Rozpocznij integrację

Email jest wymagany. Telegram lub WhatsApp są opcjonalne.

Twoje imię opcjonalne
Email opcjonalne
Temat opcjonalne
Wiadomość opcjonalne
Telegram opcjonalne
@
Jeśli podasz Telegram — odpowiemy także tam, oprócz emaila.
WhatsApp opcjonalne
Format: kod kraju i numer (np. +48XXXXXXXXX).

Klikając przycisk, wyrażasz zgodę na przetwarzanie swoich danych.