Formação com e sem professor

1) Porquê e quando

Com o professor (Supervised): há um rótulo (editora) → prevemos probabilidade/classe/valor. Usamos quando a «resposta correta» é compreensível e há um histórico: churn, depósito de 7 dias, risco RG/AML, probabilidade de resposta off, previsão LTV.
Sem professor (Unsupervised): sem marcas → encontramos estruturas/cluster/anomalias/fatores latentes: segmentação de jogadores, rótulos de frode, perfis de jogos temáticos, detecção de falhas de provedor, compressão de sinais.

Regra de escolha: se a solução de negócios depende de uma previsão de probabilidade específica → supervised; se o objetivo for abrir patters/sinais desconhecidos ou reduzir a dimensão dos dados → unsupervised. Na prática, combinam-se.

2) Malas típicas iGaming

Supervised

Churn/reativação: classificação binário (fora/fora), modelos uplift para exposição.
Propensity para depósito/compra: probabilidade de evento no horizonte T.
RG/AML: risco, probabilidade de estruturação, sessão suspeita.
Bónus antiabws, possibilidade de uso fraudulento de promo.
Recomendações (classificação): probabilidade de clique/aposta no jogo (listwise/pontwise).

Unsupervised

Segmentação de jogadores: k-means, GMM, HDBSCAN RFM/comportamento/gêneros.
Anomalias: Isolation Forest, LOF, AutoEncoder em pagamentos/pattern de jogos.
Análise gráfica: Clusterização em jogador-cartão-IP.
Redução de dimensão: PCA/UMAP para visualização e engenharia de fich.
Modelos temáticos: NMF/LDL para descrições de jogos/bate-papos de suporte.

3) Dados e fichas

Ponto-in-time conexões para excluir o data leakage.
Janelas de sinais: 10 min/1 h/1 dia/7 dias/30 dias (recency, frequency, monetary).
Contexto: mercado/jurisdição/DST/feriados, provedor/gênero, dispositivo/ASN.
Sinais gráficos: número de mapas/IP/devis exclusivos, central.
Normalização das moedas/fusos horários, SCD II para users/games/providers.

4) Algoritmos e métricas

Com o professor

Algoritmos: LogReg, XGBoost/LightGBM/CatBoost, TabNet; para classificação - LambdaMART/GBDT; Filas de tempo - Prophet/ETS/Gradiente Boosted TS.
Métricas: ROC-AUC/PR-AUC, F1 @ limiar operacional, KS (risco), NDCG/MAP @ K (recomendações), MAPE/WAPE (previsões), expected cost com balança FP/FN.

Sem professor

Clusterização: k-means/GMM (número de clusters - elbow/silhouette), HDBSCAN (densidade).
Anomalias: Isolation Forest/LOF/AutoEncoder; métricas - precisão @ k na marcação de especialistas, AUCPR em anomalias sintéticas.
Dimensão: PCA/UMAP para design e visualização fic.

5) Abordagens combinadas

Semi-Supervised: pseudolabiles para parte de dados não especificados (self-training), consultency regularization.
Self-Supervised: tarefas contrastadas/mascaradas (embeddings de sessões/jogos) → utilizam downstream em supervised.
Ative Learning: O sistema oferece candidatos para marcação (máxima incerteza/diversidade) → economiza o trabalho dos especialistas em AML/RG.
Weak Supervision: evristicos/regras/marcação distante formam editoras «fracas», depois calibramos.

6) Processo: de offline a siringa online

1. Offline: coleta/preparação de → split em tempo/mercado → treinamento/validação de → backtest.
2. Semântica de métricas: fórmulas unificadas (por exemplo, churn _ 30d) e janelas de tempo fixas.
3. Função Store: fórmulas unificadas fic online/offline; Testes de conformidade.
4. Serving online: endpoints gRPC/REST, SLA latência, routing AB/canários.
5. Monitoramento: à deriva de dados/previsões (PSI/KL), latency p95, erro de métricas de negócios, alertas.

7) Privacidade e complacência

Minimização PII: pseudônimo, isolamento de muppings, CLS/RLS.
Residency: linhas de montagem individuais/chaves de encriptação por região (EEA/UK/BR).
DSAR/PTBF: removendo/editando fitas e logs; guardamos os fundamentos legais das exceções.
Legal Hold, congelamento de artefatos de investigação/relatórios.
Fairness: auditoria de proxy, relatórios de influência (SHAP), políticas de intervenção RG.

8) Economia e produtividade

Custo de Cálculo de Fic (A/LA) e de Inferência (A/request).
Materialização de unidades offline; online - apenas janelas críticas.
A caixa de permissões/resultados para TTL curtos, lookups asinhrônicos com temporizadores.
Quotas e orçamentos para réplicas/battes; chargeback por comandos/modelos.

9) Exemplos (fatias)

9. 1 Ponto-in-time amostra para churn _ 30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Anomalias de pagamento (pseudocode, Isolation Forest)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Segmentação k-means (RFM + gêneros)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Limite de valor para o modelo binário

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Avaliação, validação e experiências

Offline: temporal split (trem/val/teste de tempo/mercado), backtesting, bootstrap confiança.
Online: A/B/n, sequential tests, CUPED/diff-in-diff.
Off-policy: IPS/DR. para políticas de personalização.
Calibragem: Platt/Isotonic para hipóteses corretas.
Controle de degradação: alerts de métricas de negócios e PR-AUC/KS.

11) RACI

R (Resolvível): Data Science (modelos/experimentos), MLOs (plataforma/serving), Data Eng (fichas/piplines).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/DPO (PII/RG/AML), Security (KMS/segredos), SRE (SLO/valor), Finance (ROY).
I (Informed): Produto/Marketing/Operações/Suporte.

12) Mapa de trânsito de implementação

MVP (4-6 semanas):

1. Catálogo de alvos/editoras e sinais (churn _ 30d, propensity _ 7d, risk _ rg).

2. Função Store v1 (5-10 fic), modelos de base XGBoost, dashboards off-line.

3. Segmentação k-means (8 clusters) + descrição de segmentos; Isolation Forest para pagamentos.

4. Servingo online com armazenamento, p95 <150 ms; A/B para 10% a 20% do tráfego.

Fase 2 (6-12 semanas):

Ativo/Semi-Supervised para deficiência de editoras (AML/RG), self-supervised embeddings de jogos/sessões.
Lançamentos canários, monitorização à deriva, condução automática.
Camada semântica unificada de métricas e alinhamento online/offline fic.

Fase 3 (12-20 semanas):

Sinais gráficos e anéis de frode; modelos uplift de bónus.
Cervingo multi-regional, quotas/chargeback; Arquivo de lançamento WORM.
Auditoria Fairness, testes de stress, incidentes de runbooks.

13) Folha de cheque antes de vender

Ponto-in-time de amostra e testes contra leakage.
Calibragem das hipóteses; selecione a liminar de expected cost.
Cartões de modelo (owner, dados, métricas, riscos, fairness).
Função Store: teste de conformidade online/offline.
Monitoramento da deriva/latência/erros, alertas e rollback automático.
Políticas PII/DSAR/PTBF/Legal Hold; A lógica é impessoal.
O plano A/B e a capacidade estatística estão contados; runbook revezamento pronto.

14) Anti-pattern

Mistura novos eventos em editoras (leakage) e falta de point-in-time.
«Um modelo para tudo» em vez de descomposição de domínio.
Uma espécie de probabilidade livre → liminares de negócios errados.
Voo às cegas, sem monitoramento à deriva/qualidade online.
Reaproveitamento on-line (pesados external-join's sem cachê ou temporizadores).
Segmentos sem interpretação de negócios ou proprietário.

15) Resultado

A formação com o professor oferece uma previsão mensurável e gerenciamento de risco/rendimento; sem professor - estrutura e sinais onde não há marcas. A sua combinação (semi/self-supervised, ativo learning) com a disciplina de dados (point-in-time, feições Store), compliance e MLOs dá à plataforma iGaming um crescimento sustentável da Net Revenue, redução de frod e intervenções pontuais RG - com reprodução, controle de custo e disponibilidade de auditoria.

Formação com e sem professor

Unsupervised

Sem professor

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos