Treinamento de modelos
1) Atribuição e princípios
O objetivo é obter um modelo sustentável, reprodutivo e econômico que melhore as métricas de negócios (Net Revenue, churn↓, fraud↓), respeitando o RG/AML/Legal.
Princípios:- Problem→Metric→Data: primeiro a tarefa e a métrica operacional/custo de erro, depois o dataset.
- Point-in-time: Nenhuma fic/editora usa o futuro.
- Reprodúcibilidade: seeds/versões fixas, controle de artefatos.
- Simplicidade first: Começamos com modelos básicos/fich; Só nos complicamos com os benefícios provados.
- Private by design: PII Minimização, Residência, Auditoria.
2) Formalizar tarefas e métricas
Classificação: churn/depósito/frod/RG → PR-AUC, Fórmula @ ópera. limiar, KS, expected cost.
Regressão/previsão: LTV/GGR → WAPE/SMAPE, P50/P90 erro, cobertura PI.
Classificação/recomendação: NDCG @ K, MAP @ K, coverage/diversity.
Métricas online: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datasets e partilhas
Ponto-in-time join e medidas compatíveis SCD.
Desequilíbrio de classes: stratifed sampling, class _ weight, focal loss, oversampling eventos raros.
Partilhas de tempo/mercado/tenentes: train↔val↔test com «espaço» (gap) para vazamentos.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Preparação de sinais
Janelas e unidades: 10m/1h/1d/7d/30d, R/F/M, velocidade/fração.
Categorias: hasing/one-hot; target encoding (time-aware).
Normalização/skeiling: parâmetros do trem, armazenados nos artefatos.
Gráficos/NLP/geo: Construímos um batch, publicamos na Função Store (online/offline).
5) Algoritmos básicos
GBDT: XGBoost/LightGBM/CatBoost é uma base de dados de tabela forte.
Regressão logística/ElasticNet: interpretado/barato.
Recomendações: LambdaMART, factorização, seq2rec.
Anomalias Isolation Forest, AutoEncoder.
Fileiras de tempo: Prophet/ETS/GBDT-segundo o calendário.
6) Regularização e prevenção de reaproveitamento
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Paragem precoce: por métrica em val com patience e melhora mínima.
7) Seleção de hiperparâmetros
Grid/Random para pesquisa de rascunho; Bayesian/Hyperband para configuração fina.
Limitações: orçamento de iterações/tempo/custo, «no-overfit» por val (verificação cruzada em várias ligaduras temporárias).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Calibragem de probabilidades
Platt/Isotonic на holdout; armazenar a função de calibração como artefato.
Verificar ECE/relaibility; Concordar com liminares expectados.
9) Interpretabilidade e explicação
Global: função importance/SHAP, contribuição de permuta.
Local: SHAP para Soluções Individuais (RG/AML).
Documente os riscos e a admissibilidade da explicação online.
10) Reprodutividade e artefatos
Seed em todo o lado: dados/modelo/atribuição/divisão.
Artefactos: versão de dados, fich-pipeline, peso, calibragem, liminares, configs.
Deterministic builds: contêineres/dependências fixados.
11) Experiências de rastreamento
Registramos: git commit, versões dataset/fic, modelos config, métricas (off/online), artefatos e comentários.
Regras de denominação de experiências, marcas (domínio/mercado/modelo).
12) Transferência offline → online
Código de transformação unificado (Função Store); teste de equivalência online/offline.
Serving: REST/gRPC, timeouts/retrai/dinheiro; canarinho/escoamento gradual.
Limiar/política: configururuems (bandeiras fichas), auditoria e roll-back.
13) Monitoramento e deriva
Dados/screen: PSI/KL; Alertas quando ultrapassados os limites.
Calibragem e métricas: ECE, PR-AUC/KS nas editoras de streaming.
Métricas de negócios: uplift Net Revenue, fraud saved, intervenções RG, SLA.
Triggers retrain: à deriva/sazonalidade/lançamentos/data de validade.
14) Privacidade, residência, fairness
Minimização PII: pseudônimos, CLS/RLS, muppings individuais.
Residency: diretórios/chaves individuais (EEA/UK/BR); proibição de join 'ov cruzados-regionais sem fundamento.
Fairness: análise de slides (mercado/dispositivo/idade da conta), disparate impact, equalized odds; correção de fic/limiar/balança.
15) Costa-engenharia
Custo de aprendizagem CPU/GPU-relógio, I/O, número de proteções.
Valor da inferência: latency/cost per request; limites para fici on-line e tamanho do modelo.
Materialização: Fiques pesados - offline; Em linha, rápidos, armazenáveis.
Chargeback: orçamentos para experiências/réplicas.
16) Exemplos (fatias)
LightGBM (classificação, Python-esboço):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Ponto-in-time amostra (SQL-ideia):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Avaliar o custo expected e selecionar o limiar:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Processos e RACI
R (Resolvível): Data Science (modelos/experimentos), Data Eng (datasets/fichas/Feições Store), MLOs (serving/monitoramento/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/segredos/auditoria), SRE (SLO/valor), Finance (ROY).
I (Informed): Produto/Marketing/Operações/Suporte.
18) Mapa de trânsito de implementação
MVP (3-6 semanas):1. Catálogo de tarefas e métricas (expected cost), point-in-time datasets.
2. Modelos básicos (LogReg/GBDT) + calibragem + cartões de modelo.
3. Experiências de tracking, seeds/artefatos fixos, reproducível builds.
4. Cervingo online canarinho, liminares como config, alertas métricas/à deriva.
Fase 2 (6-12 semanas):- Seleção Bayesovsky/Hyperband, análise de slides/fairness, retrain-triggers.
- Economia de fic/inferno, cash/TTL, chargeback.
- Documentação de fórmulas de métricas/liminares, simulações what-if.
- Pipas regionais multi-regionais, DR./ensinamentos, arquivo de lançamento WORM.
- Gerenciamento automático de relatórios de qualidade/calibragem, exercício automático por evento.
- Experimentos A/B/n com sequential testing e parada automática.
19) Folha de cheque antes de vender
- Tarefa e métrica de negócios negociados; O custo dos erros foi calculado.
- Dataset point-in-time; divisões de tempo/mercado; Não há lakage.
- Seleção/regularização, paragem precoce, calibragem das probabilidades.
- Cartão do modelo: dados, fichas, métricas, riscos, fairness, proprietário.
- Artefatos preservados (peso, fich-pipline, calibragem, liminares).
- Teste de equivalência online/offline concluído; Serving com bandeira de fiech.
- Monitoramento da deriva/calibração/métricas de negócios; planos retrain/rollback.
- As políticas PII/DSAR/PTBF, a residência e a auditoria de acesso foram cumpridas.
- O custo de aprendizagem/inferência está incluído no orçamento; Alert SLA.
20) Anti-pattern e riscos
Lakedge, fici/editoras do futuro, SCD discordante.
Sintonizando «para azul» em um eixo-amostra, sem splits temporários/verificação cruzada.
Sem calibragem e liminares de custo.
Discrepância online/offline fic: resultados diferentes na venda.
Ignorar fairness/slides: falhas ocultas em mercados/dispositivos.
Replicas ilimitadas e fici caros, aumento de custo sem benefício.
21) Total
A formação de modelos é um processo controlado: tarefa clara e métrica, disciplina de dados (point-in-time), sintonização inteligente com regulação, calibragem e reprodução, transferência transparente para a internet e monitoramento contínuo de qualidade, custo e risco. Seguindo este playbook, você recebe modelos que, previsivelmente, melhoram o produto, a retenção e a complacência - de forma rápida, ética e confiável.