Predarea cu și fără profesor

1) De ce și când

Supravegheat: există o etichetă → prezicem probabilitatea/clasa/valoarea. Îl folosim atunci când „răspunsul corect” este clar și există o poveste: Churn, depozit de 7 zile, risc RG/AML, probabilitatea de răspuns la o ofertă, prognoza LTV.
Nesupravegheat: nu există semne → găsim structuri/clustere/anomalii/factori latenți: segmentarea jucătorilor, inele de fraudă, profiluri tematice de jocuri, detectarea eșecurilor furnizorului, comprimarea semnelor.

Regula de selecție: dacă decizia de afaceri depinde de o previziune probabilistică specifică → supravegheată; dacă scopul este de a deschide modele/semnale necunoscute sau de a reduce dimensiunea datelor → nesupravegheată. În practică, ele sunt combinate.

2) cazuri tipice iGaming

Supravegheat

Churn/reactivare: clasificare binară (go/not go), ridicare modele pentru impact.
Tendința de a depune/cumpăra: probabilitatea evenimentului în orizont T.
RG/AML: rata de risc, structurarea probabilității, sesiune suspectă.
Bonus anti-abuz: probabilitatea utilizării frauduloase a promo.
Recomandări (clasament): probabilitatea de clic/pariu pe joc (listwise/pointwise).

Nesupravegheat

Segmentarea jucătorilor: k-means, GMM, HDBSCAN by RFM/behavior/genre.
Anomalii: Izolation Forest, LOF, AutoEncoder pe modelele de plăți/joc.
Analiza graficului: gruparea în coloana „player-device-card-IP”.
Downsize: PCA/UMAP pentru vizualizare și inginerie caracteristică.
Modele tematice: NMF/LDL pentru descrieri de joc/chat-uri de suport.

3) Date și caracteristici

Conexiuni punctuale pentru a exclude scurgerile de date.
Ferestre caracteristice: 10 min/1 h/1 zi/7 zile/30 zile (recență, frecvență, monetar).
Context: piață/jurisdicție/DST/sărbători, furnizor/gen, dispozitiv/ASN.
Caracteristici grafic: numărul de carduri unice/IP/dispozitive, centralitate.
Normalizare valută/fus orar, SCD II pentru utilizatori/jocuri/furnizori.

4) Algoritmi și valori

Cu profesorul

Algoritmi: LogReg, XGBoost/LightGBM/CatBoost, TabNet; pentru clasament - LambdaMART/GBDT; seria de timp - Profet/ETS/Gradient Boosted TS.
Valori: ROC-ASC/PR-ASC, F1 @ prag operațional, KS (risc), NDCG/MAP @ K (recomandări), MAPE/WAPE (proiecții), costul așteptat cu greutăți FP/FN.

Fără un profesor

Clustering: k-mijloace/GMM (număr de clustere - cot/siluetă), HDBSCAN (densitate).
Anomalii: Izolarea pădurii/LOF/AutoEncoder; metrica - precizie @ k pe marcaj expert, AUCPR pe anomalii sintetice.
Dimensiune: PCA/UMAP pentru design de caracteristici și vizualizări.

5) Abordări combinate

Semi-supravegheat: pseudo-bule pentru partea de date nealocate (auto-formare), reglarea coerenței.
Auto-supravegheat: sarcini contrastante/mascate (încorporări sesiune/joc) → utilizați în aval în supravegheat.
Învățarea activă: sistemul oferă candidaților marcatori (incertitudine/diversitate maximă) → salvează activitatea experților AML/RG.
Supravegherea slabă: euristica/regulile/marcajul îndepărtat formează etichete „slabe”, apoi calibrează.

6) Proces: de la offline la navigarea online

1. Offline: colectarea/pregătirea → împărțirea în funcție de timp/piețe → instruire/validare → backtest.
2. Semantica metrică: formule uniforme (de exemplu, churn_30d) și ferestre cu timp fix.
3. Feature Store: formule uniforme de caracteristici online/offline; teste de conformitate.
4. Navigare online: gRPC/REST endpoints, SLA by latency, AB routing/canary releases.
5. Monitorizare: derivă de date/predicție (PSI/KL), latență p95, eroare de măsurare a activității, alerte.

7) Confidențialitate și conformitate

Minimizarea PII: pseudonimizare, izolarea cartografică, CLS/RLS.
Rezidență: conducte individuale/chei de criptare pe regiuni (SEE/UK/BR).
DSAR/RTBF: ștergeți/editați caracteristici și jurnale; să păstreze temeiurile legale pentru excepții.
Legal Hold: Înghețarea artefactelor de investigație/raportare.
Corectitudine: Caracteristică proxy de audit, rapoarte de impact (SHAP), politica de intervenție RG.

8) Economie și productivitate

Costul calculării caracteristicii (cost/caracteristică) și deducție (cost/cerere).
Materializarea agregatelor offline; online - numai ferestre critice.
Cache de permisiuni/rezultate de notare pentru TTL scurt, căutări asincrone cu timeout.
Cote și bugete pentru reluări/backtests; chargeback după comandă/model.

9) Exemple (fragmente)

9. 1 Selecție punctuală pentru churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Anomalii de plată (pseudocod, Izolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Segmentarea k-mijloacelor (genuri RFM +)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Prag de cost pentru modelul binar

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Evaluare, validare și experimente

Offline: split temporal (tren/val/test de timp/piețe), backtesting, bootstrap trust.
Online: A/B/n, teste secvențiale, CUPED/diff-in-diff.
Off-policy: IPS/DR pentru politici de personalizare.
Calibrare: Platt/Isotonic pentru probabilități corecte.
Controlul degradării: alerte după valorile de afaceri și PR-ASC/KS.

11) RACI

R (Responsabil): Data Science (modele/experimente), MLOps (platformă/servire), Data Eng (caracteristici/conducte).
A (Responsabil): șef de date/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/secrets), SRE (SLO/value), Finance (ROI).
I (Informat): Produs/Marketing/Operațiuni/Suport.

12) Foaia de parcurs privind implementarea

MVP (4-6 săptămâni):

1. Catalog de obiective/etichete și semnale (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (5-10 caracteristici), modele de bază XGBoost, tablouri de bord metrice offline.

3. Segmentarea k-mijloacelor (8 clustere) + descrierea segmentelor; Pădurea Izolării pentru plăţi.

4. Navigare online cu memorie cache, p95 <150 ms; A/B pentru 10-20% din trafic.

Faza 2 (6-12 săptămâni):

Active/semi-supravegheate pentru deficit de etichete (AML/RG), încorporări de joc/sesiune auto-supravegheate.
Eliberări canare, monitorizare în derivă, recalificare automată.
Un singur strat semantic de valori și caracteristică de potrivire online/offline.

Faza 3 (12-20 săptămâni):

Indicatoare grafice și inele de fraudă; modelele bonus de ridicare.
Servire multiregională, cote/chargeback; Arhiva WORM a versiunilor.
Audit de corectitudine, teste de stres, incidente runbooks.

13) Lista de verificare pre-vânzare

Eșantionare punctuală și teste anti-scurgere.
Probabilitatea de calibrare; Selectați pragul de cost așteptat.
Carduri model (proprietar, date, valori, riscuri, corectitudine).
Feature Store Online/Offline Test de conformitate.
Drift/latență/eroare de monitorizare, alerte și auto-rollback.
Politici PII/DSAR/RTBF/Legal Hold; exploatarea forestieră este impersonală.
Planul A/B și puterea statistică calculată; Runbook rollback este gata.

14) Anti-modele

Amestecarea evenimentelor noi în etichete (scurgeri) și absența punctului în timp.
„Un model pentru toți” în loc de descompunerea domeniului.
Unele probabilități bibliotecate → praguri de afaceri incorecte.
Zbor orb: fără monitorizare online a derivei/calității.
Supracomplicații online (îmbinări externe grele fără cache și timeout).
Segmente fără interpretare de afaceri și proprietar.

15) Linia de jos

Învățarea supravegheată oferă prognostic măsurabil și gestionarea riscurilor/veniturilor; fără un profesor - structură și semnale în cazul în care nu există semne. Combinația lor (învățare semi/auto-supravegheată, activă) în disciplina datelor (punct-in-time, Feature Store), conformitate și MLOps oferă platformei iGaming o creștere constantă a veniturilor nete, o scădere a fraudei și intervenții RG în timp util - cu reproductibilitate, control al costurilor și disponibilitate pentru audit.

Predarea cu și fără profesor

Nesupravegheat

Fără un profesor

Contactați-ne

Contact rapid

Videoclipul va fi actualizat în curând

Suntem în prezent foarte ocupați cu proiectele