Treinamento de modelos

1) Atribuição e princípios

O objetivo é obter um modelo sustentável, reprodutivo e econômico que melhore as métricas de negócios (Net Revenue, churn↓, fraud↓), respeitando o RG/AML/Legal.

Princípios:

Problem→Metric→Data: primeiro a tarefa e a métrica operacional/custo de erro, depois o dataset.
Point-in-time: Nenhuma fic/editora usa o futuro.
Reprodúcibilidade: seeds/versões fixas, controle de artefatos.
Simplicidade first: Começamos com modelos básicos/fich; Só nos complicamos com os benefícios provados.
Private by design: PII Minimização, Residência, Auditoria.

2) Formalizar tarefas e métricas

Classificação: churn/depósito/frod/RG → PR-AUC, Fórmula @ ópera. limiar, KS, expected cost.
Regressão/previsão: LTV/GGR → WAPE/SMAPE, P50/P90 erro, cobertura PI.
Classificação/recomendação: NDCG @ K, MAP @ K, coverage/diversity.
Métricas online: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Limite de custo (pseudocode):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datasets e partilhas

Ponto-in-time join e medidas compatíveis SCD.
Desequilíbrio de classes: stratifed sampling, class _ weight, focal loss, oversampling eventos raros.
Partilhas de tempo/mercado/tenentes: train↔val↔test com «espaço» (gap) para vazamentos.

Temporal split (SQL-ideia):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Preparação de sinais

Janelas e unidades: 10m/1h/1d/7d/30d, R/F/M, velocidade/fração.
Categorias: hasing/one-hot; target encoding (time-aware).
Normalização/skeiling: parâmetros do trem, armazenados nos artefatos.
Gráficos/NLP/geo: Construímos um batch, publicamos na Função Store (online/offline).

5) Algoritmos básicos

GBDT: XGBoost/LightGBM/CatBoost é uma base de dados de tabela forte.
Regressão logística/ElasticNet: interpretado/barato.
Recomendações: LambdaMART, factorização, seq2rec.
Anomalias Isolation Forest, AutoEncoder.
Fileiras de tempo: Prophet/ETS/GBDT-segundo o calendário.

6) Regularização e prevenção de reaproveitamento

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Paragem precoce: por métrica em val com patience e melhora mínima.

7) Seleção de hiperparâmetros

Grid/Random para pesquisa de rascunho; Bayesian/Hyperband para configuração fina.
Limitações: orçamento de iterações/tempo/custo, «no-overfit» por val (verificação cruzada em várias ligaduras temporárias).

Desenho:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Calibragem de probabilidades

Platt/Isotonic на holdout; armazenar a função de calibração como artefato.
Verificar ECE/relaibility; Concordar com liminares expectados.

9) Interpretabilidade e explicação

Global: função importance/SHAP, contribuição de permuta.
Local: SHAP para Soluções Individuais (RG/AML).
Documente os riscos e a admissibilidade da explicação online.

10) Reprodutividade e artefatos

Seed em todo o lado: dados/modelo/atribuição/divisão.
Artefactos: versão de dados, fich-pipeline, peso, calibragem, liminares, configs.
Deterministic builds: contêineres/dependências fixados.

11) Experiências de rastreamento

Registramos: git commit, versões dataset/fic, modelos config, métricas (off/online), artefatos e comentários.
Regras de denominação de experiências, marcas (domínio/mercado/modelo).

12) Transferência offline → online

Código de transformação unificado (Função Store); teste de equivalência online/offline.
Serving: REST/gRPC, timeouts/retrai/dinheiro; canarinho/escoamento gradual.
Limiar/política: configururuems (bandeiras fichas), auditoria e roll-back.

13) Monitoramento e deriva

Dados/screen: PSI/KL; Alertas quando ultrapassados os limites.
Calibragem e métricas: ECE, PR-AUC/KS nas editoras de streaming.
Métricas de negócios: uplift Net Revenue, fraud saved, intervenções RG, SLA.
Triggers retrain: à deriva/sazonalidade/lançamentos/data de validade.

14) Privacidade, residência, fairness

Minimização PII: pseudônimos, CLS/RLS, muppings individuais.
Residency: diretórios/chaves individuais (EEA/UK/BR); proibição de join 'ov cruzados-regionais sem fundamento.
Fairness: análise de slides (mercado/dispositivo/idade da conta), disparate impact, equalized odds; correção de fic/limiar/balança.

15) Costa-engenharia

Custo de aprendizagem CPU/GPU-relógio, I/O, número de proteções.
Valor da inferência: latency/cost per request; limites para fici on-line e tamanho do modelo.
Materialização: Fiques pesados - offline; Em linha, rápidos, armazenáveis.
Chargeback: orçamentos para experiências/réplicas.

16) Exemplos (fatias)

LightGBM (classificação, Python-esboço):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Ponto-in-time amostra (SQL-ideia):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

Avaliar o custo expected e selecionar o limiar:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Processos e RACI

R (Resolvível): Data Science (modelos/experimentos), Data Eng (datasets/fichas/Feições Store), MLOs (serving/monitoramento/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/segredos/auditoria), SRE (SLO/valor), Finance (ROY).
I (Informed): Produto/Marketing/Operações/Suporte.

18) Mapa de trânsito de implementação

MVP (3-6 semanas):

1. Catálogo de tarefas e métricas (expected cost), point-in-time datasets.

2. Modelos básicos (LogReg/GBDT) + calibragem + cartões de modelo.

3. Experiências de tracking, seeds/artefatos fixos, reproducível builds.

4. Cervingo online canarinho, liminares como config, alertas métricas/à deriva.

Fase 2 (6-12 semanas):

Seleção Bayesovsky/Hyperband, análise de slides/fairness, retrain-triggers.
Economia de fic/inferno, cash/TTL, chargeback.
Documentação de fórmulas de métricas/liminares, simulações what-if.

Fase 3 (12-20 semanas):

Pipas regionais multi-regionais, DR./ensinamentos, arquivo de lançamento WORM.
Gerenciamento automático de relatórios de qualidade/calibragem, exercício automático por evento.
Experimentos A/B/n com sequential testing e parada automática.

19) Folha de cheque antes de vender

Tarefa e métrica de negócios negociados; O custo dos erros foi calculado.
Dataset point-in-time; divisões de tempo/mercado; Não há lakage.
Seleção/regularização, paragem precoce, calibragem das probabilidades.
Cartão do modelo: dados, fichas, métricas, riscos, fairness, proprietário.
Artefatos preservados (peso, fich-pipline, calibragem, liminares).
Teste de equivalência online/offline concluído; Serving com bandeira de fiech.
Monitoramento da deriva/calibração/métricas de negócios; planos retrain/rollback.
As políticas PII/DSAR/PTBF, a residência e a auditoria de acesso foram cumpridas.
O custo de aprendizagem/inferência está incluído no orçamento; Alert SLA.

20) Anti-pattern e riscos

Lakedge, fici/editoras do futuro, SCD discordante.
Sintonizando «para azul» em um eixo-amostra, sem splits temporários/verificação cruzada.
Sem calibragem e liminares de custo.
Discrepância online/offline fic: resultados diferentes na venda.
Ignorar fairness/slides: falhas ocultas em mercados/dispositivos.
Replicas ilimitadas e fici caros, aumento de custo sem benefício.

21) Total

A formação de modelos é um processo controlado: tarefa clara e métrica, disciplina de dados (point-in-time), sintonização inteligente com regulação, calibragem e reprodução, transferência transparente para a internet e monitoramento contínuo de qualidade, custo e risco. Seguindo este playbook, você recebe modelos que, previsivelmente, melhoram o produto, a retenção e a complacência - de forma rápida, ética e confiável.

Treinamento de modelos

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos