Formação com e sem professor
1) Porquê e quando
Com o professor (Supervised): há um rótulo (editora) → prevemos probabilidade/classe/valor. Usamos quando a «resposta correta» é compreensível e há um histórico: churn, depósito de 7 dias, risco RG/AML, probabilidade de resposta off, previsão LTV.
Sem professor (Unsupervised): sem marcas → encontramos estruturas/cluster/anomalias/fatores latentes: segmentação de jogadores, rótulos de frode, perfis de jogos temáticos, detecção de falhas de provedor, compressão de sinais.
Regra de escolha: se a solução de negócios depende de uma previsão de probabilidade específica → supervised; se o objetivo for abrir patters/sinais desconhecidos ou reduzir a dimensão dos dados → unsupervised. Na prática, combinam-se.
2) Malas típicas iGaming
Supervised
Churn/reativação: classificação binário (fora/fora), modelos uplift para exposição.
Propensity para depósito/compra: probabilidade de evento no horizonte T.
RG/AML: risco, probabilidade de estruturação, sessão suspeita.
Bónus antiabws, possibilidade de uso fraudulento de promo.
Recomendações (classificação): probabilidade de clique/aposta no jogo (listwise/pontwise).
Unsupervised
Segmentação de jogadores: k-means, GMM, HDBSCAN RFM/comportamento/gêneros.
Anomalias: Isolation Forest, LOF, AutoEncoder em pagamentos/pattern de jogos.
Análise gráfica: Clusterização em jogador-cartão-IP.
Redução de dimensão: PCA/UMAP para visualização e engenharia de fich.
Modelos temáticos: NMF/LDL para descrições de jogos/bate-papos de suporte.
3) Dados e fichas
Ponto-in-time conexões para excluir o data leakage.
Janelas de sinais: 10 min/1 h/1 dia/7 dias/30 dias (recency, frequency, monetary).
Contexto: mercado/jurisdição/DST/feriados, provedor/gênero, dispositivo/ASN.
Sinais gráficos: número de mapas/IP/devis exclusivos, central.
Normalização das moedas/fusos horários, SCD II para users/games/providers.
4) Algoritmos e métricas
Com o professor
Algoritmos: LogReg, XGBoost/LightGBM/CatBoost, TabNet; para classificação - LambdaMART/GBDT; Filas de tempo - Prophet/ETS/Gradiente Boosted TS.
Métricas: ROC-AUC/PR-AUC, F1 @ limiar operacional, KS (risco), NDCG/MAP @ K (recomendações), MAPE/WAPE (previsões), expected cost com balança FP/FN.
Sem professor
Clusterização: k-means/GMM (número de clusters - elbow/silhouette), HDBSCAN (densidade).
Anomalias: Isolation Forest/LOF/AutoEncoder; métricas - precisão @ k na marcação de especialistas, AUCPR em anomalias sintéticas.
Dimensão: PCA/UMAP para design e visualização fic.
5) Abordagens combinadas
Semi-Supervised: pseudolabiles para parte de dados não especificados (self-training), consultency regularization.
Self-Supervised: tarefas contrastadas/mascaradas (embeddings de sessões/jogos) → utilizam downstream em supervised.
Ative Learning: O sistema oferece candidatos para marcação (máxima incerteza/diversidade) → economiza o trabalho dos especialistas em AML/RG.
Weak Supervision: evristicos/regras/marcação distante formam editoras «fracas», depois calibramos.
6) Processo: de offline a siringa online
1. Offline: coleta/preparação de → split em tempo/mercado → treinamento/validação de → backtest.
2. Semântica de métricas: fórmulas unificadas (por exemplo, churn _ 30d) e janelas de tempo fixas.
3. Função Store: fórmulas unificadas fic online/offline; Testes de conformidade.
4. Serving online: endpoints gRPC/REST, SLA latência, routing AB/canários.
5. Monitoramento: à deriva de dados/previsões (PSI/KL), latency p95, erro de métricas de negócios, alertas.
7) Privacidade e complacência
Minimização PII: pseudônimo, isolamento de muppings, CLS/RLS.
Residency: linhas de montagem individuais/chaves de encriptação por região (EEA/UK/BR).
DSAR/PTBF: removendo/editando fitas e logs; guardamos os fundamentos legais das exceções.
Legal Hold, congelamento de artefatos de investigação/relatórios.
Fairness: auditoria de proxy, relatórios de influência (SHAP), políticas de intervenção RG.
8) Economia e produtividade
Custo de Cálculo de Fic (A/LA) e de Inferência (A/request).
Materialização de unidades offline; online - apenas janelas críticas.
A caixa de permissões/resultados para TTL curtos, lookups asinhrônicos com temporizadores.
Quotas e orçamentos para réplicas/battes; chargeback por comandos/modelos.
9) Exemplos (fatias)
9. 1 Ponto-in-time amostra para churn _ 30d
sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);
9. 2 Anomalias de pagamento (pseudocode, Isolation Forest)
python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates
9. 3 Segmentação k-means (RFM + gêneros)
python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_
9. 4 Limite de valor para o modelo binário
python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)
10) Avaliação, validação e experiências
Offline: temporal split (trem/val/teste de tempo/mercado), backtesting, bootstrap confiança.
Online: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-policy: IPS/DR. para políticas de personalização.
Calibragem: Platt/Isotonic para hipóteses corretas.
Controle de degradação: alerts de métricas de negócios e PR-AUC/KS.
11) RACI
R (Resolvível): Data Science (modelos/experimentos), MLOs (plataforma/serving), Data Eng (fichas/piplines).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/segredos), SRE (SLO/valor), Finance (ROY).
I (Informed): Produto/Marketing/Operações/Suporte.
12) Mapa de trânsito de implementação
MVP (4-6 semanas):1. Catálogo de alvos/editoras e sinais (churn _ 30d, propensity _ 7d, risk _ rg).
2. Função Store v1 (5-10 fic), modelos de base XGBoost, dashboards off-line.
3. Segmentação k-means (8 clusters) + descrição de segmentos; Isolation Forest para pagamentos.
4. Servingo online com armazenamento, p95 <150 ms; A/B para 10% a 20% do tráfego.
Fase 2 (6-12 semanas):- Ativo/Semi-Supervised para deficiência de editoras (AML/RG), self-supervised embeddings de jogos/sessões.
- Lançamentos canários, monitorização à deriva, condução automática.
- Camada semântica unificada de métricas e alinhamento online/offline fic.
- Sinais gráficos e anéis de frode; modelos uplift de bónus.
- Cervingo multi-regional, quotas/chargeback; Arquivo de lançamento WORM.
- Auditoria Fairness, testes de stress, incidentes de runbooks.
13) Folha de cheque antes de vender
- Ponto-in-time de amostra e testes contra leakage.
- Calibragem das hipóteses; selecione a liminar de expected cost.
- Cartões de modelo (owner, dados, métricas, riscos, fairness).
- Função Store: teste de conformidade online/offline.
- Monitoramento da deriva/latência/erros, alertas e rollback automático.
- Políticas PII/DSAR/PTBF/Legal Hold; A lógica é impessoal.
- O plano A/B e a capacidade estatística estão contados; runbook revezamento pronto.
14) Anti-pattern
Mistura novos eventos em editoras (leakage) e falta de point-in-time.
«Um modelo para tudo» em vez de descomposição de domínio.
Uma espécie de probabilidade livre → liminares de negócios errados.
Voo às cegas, sem monitoramento à deriva/qualidade online.
Reaproveitamento on-line (pesados external-join's sem cachê ou temporizadores).
Segmentos sem interpretação de negócios ou proprietário.
15) Resultado
A formação com o professor oferece uma previsão mensurável e gerenciamento de risco/rendimento; sem professor - estrutura e sinais onde não há marcas. A sua combinação (semi/self-supervised, ativo learning) com a disciplina de dados (point-in-time, feições Store), compliance e MLOs dá à plataforma iGaming um crescimento sustentável da Net Revenue, redução de frod e intervenções pontuais RG - com reprodução, controle de custo e disponibilidade de auditoria.