Sinalização de dados e qualidade de modelo
1) Atribuição e princípios
O objetivo é obter editoras reproduzidas e a qualidade mensurável dos modelos sem lakage e com base na complacência.
Princípios:- Schema-first: ontologias formalizadas, dicionários de classe e critérios.
- Point-in-time: As editoras são construídas a partir de informações disponíveis no momento da decisão.
- Quality-as-código: instruções, testes, cheques e amostras - no repositório.
- Privaciy-by-design: Minimização do PII, DSAR/PTBF, residência.
- Costa-aware: Consideramos o custo de marcação e soluções erradas (expected cost).
2) Ontologia e circuito de editoras
Defina o objeto de sinalização, as classes, as exceções e as fontes de verdade: Exemplo (AML/Antifrod):- Objeto: transação/sessão.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- Exceções: chargeback sem provas → 'unknown'.
- Fontes: pasta gerenciamento, registos chargeback, provedores/banco.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Instruções de anotação (lidelines)
Estrutura:1. Descrição da tarefa e do contexto de negócios.
2. Definições de classes com exemplos positivos/negativos e malas de fronteira.
3. Regras de prioridade de origem (verdade> eurística> opinião).
4. Critérios de 'unknown' e escalação.
5. Políticas de privacidade (camuflagem, tokens em vez de ID).
6. FAQ e folha de cheque de marcação.
Fatia de instruções (frod):- 'fraud _ confirmed': provado plargeback/mala privada com formatação FRAUD.
- 'fraud _ aspected': ≥3 de depósito
- 'legit': Sem bandeiras ou malas confirmadas na janela de 60 dias.
- 'unknown': sinais de conflito ou dados insuficientes.
4) Fontes de editoras e regras point-in-time
Auto-editoras: regras/mala, chargeback, auto-exclusão (RG), outcome apostas.
Cano de ground, resultado de investigação/resultado regulatório.
Ponto-in-time: não pode usar eventos após a decisão (t0).
Por exemplo, a marceback se manifesta entre 45 e 90 dias depois.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Amostras: barateamento e equilíbrio
Eventos raros: use stratied sampling por mercados/provedores/datas; oversampling raras classes ou focal loss.
Camadas de validação: mantenha holdout por semanas/mercados/tenentes.
Sanções/PII: exclua campos com identificadores diretos dos conjuntos de treinamento.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Coerência de sinalização (IRR)
Mede o consentimento interanotário: Cohen's (2 anotadores )/Krippendorff's (N anotadores, tipo de escala diferente).
Orientações:- κ < 0. 4 - coerência fraca → rever instruções/exemplos.
0. 4–0. 6 - aceitável para tarefas complexas;> 0. 6 - bom;> 0. Isso é óptimo.
- Revestimento (quanto marcado), / por classe e slides, porção 'unknown', tempo médio, erros top.
7) Circuito QA e referências de ouro
Golden set: 1-5% de marcação - referência com duplo teste.
Tarefas Honey-pot: malas conhecidas escondidas no fluxo de tarefas.
Segunda opinião: escalação/arbitragem em exemplos controversos.
Testes de regressão de sinalização: revalidação após a atualização dos guides.
8) Treinamento ativo, fraco e semi-controlado
Ative Learning: seleção de exemplos «inseguros» (máxima entropia/diversidade).
Weak Supervision: evristicos/distant supervision + modelo de ruído para editoras.
Semi-Supervised: pseudolívicos com limite de temperatura e verificação posterior.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anti-lakedge e controle do tempo
Point-in-time join para fic e editoras.
Banir editoras/fichas do futuro (depois de 'asof').
Pipas separadas online/offline com teste de equivalência de transformação.
Versioning de datasets e lógica ('logic _ version', 'data _ version', 'asof _ data').
10) Métricas de qualidade de modelo
Selecione as métricas sob o custo de erro do negócio:- Classificação por PR-AUC/ROC-AUC, Fórmula @ k, Recall @ k, expected cost (peso FP/FN).
- KS/ROC-AUC, Brier, calibragem (ECE), PSI/CSI para a deriva.
- Recomendações: NDCG/MAP @ K, coverage/diversity, novidade.
- Anomalias Precision @ k, AUCPR em sintético/conjunto dourado.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Análise de slides e fairness
Slides: mercado, provedor, device/ASN, idade da conta, valor do depósito, hora do dia.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Acções: reaproveitamento de fich, calibragem por slides, revisão de liminares, peso de aprendizado.
12) Monitoramento de qualidade produtiva
À deriva de dados/previsões: PSI/KL por fichas/acervos.
Calibragem: ECE, diagramas reliability.
Estabilidade da liminar: alert, se exportado ↑> X% ou PR-AUC ↓.
Esquemas/contratos: molhar breaking changes (schema registry).
Feedback loop: Editoras manuais rápidas de incidentes (encerramento de cases, RG).
13) Privacidade, segurança, complacência
Minimização PII: pseudônimos, mapping protegido separado.
Residência: pipline/chaves separados (EEA/UK/BR); proibição de join's cruzados sem fundamento.
DSAR/PTBF: projeções computáveis e edições seletivas.
Legal Hold: arquivos WORM para malas e pacotes de relatórios.
Registros: auditoria de acesso/exportação imutável.
14) Organizar o processo de sinalização
Ferramentas: rastreador task, fila de exemplos, pré-teste de contexto, camuflagem PII, teclas quentes.
Controle de velocidade e qualidade: anotador KPI (velocidade, precisão em golden), treinamento e avaliação.
Versioning: 'lidelines _ version', 'annotator _ id', 'reviewer _ id', temporizadores.
Documentação: cartão de marcação (owner, origem, janelas, regras, métricas).
15) Exemplos de modelos
Cartão de Dataset (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Regras de sinalização QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusão matrix (SQL-ideia):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Mapa de trânsito de implementação
MVP (2-4 semanas):1. Ontologia e instruções v1, conjunto de ouro (≥1000 exemplos por domínio).
2. Fluxo de anotação com camuflagem PII, -métrica por semana.
3. Modelo básico + avaliação offline (PR-AUC, expected cost), point-in-time de amostra.
4. Monitoramento da deriva do fich/córtex; maiúsculas de datasets e versões de guides.
Fase 2 (4-8 semanas):- Ativa/weak-supervision linha de montagem, auto-triage 'unknown'.
- Análise de slides e relatórios fairness, calibração de probabilidades.
- Procedimentos DSAR/PTBF para conjuntos marcados, Legal Hold para malas.
- Automação completa QA (golden/honey-pots), testes de regressão de sinalização.
- Catálogo de datasets e cartões de qualidade de modelo; a orquestração de liminares expectada.
- Chargeback por valor de sinalização/inferência, SLA por atualizações de editoras.
17) RACI
R (Resolvível): Data Science (ontologia, métricas), Label Ops (processo/QA), Data Eng (amostra/PII/armazenamento).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (regras), Security (KMS/auditoria).
I (Informed): Produto/Marketing/Operações/Suporte.
18) Folha de cheque antes de vender
- Ontologia e guindastes aprovados, versão registrada.
- Amostra de qualidade: rateio, holdout em tempo/mercado.
- / do limite de destino; golden-accuracy respeitado.
- Ponto-in-time coleta fichas e editoras; O teste de falta de lakage foi ultrapassado.
- As métricas foram selecionadas por expected cost, analisadas em slides e fairness.
- Monitoramento da deriva/calibragem está incluído; Os aleres estão bem.
- As políticas PII/DSAR/PTBF e Legal Hold foram cumpridas; a auditoria está ativada.
19) Anti-pattern e riscos
Marcação sem critérios claros baixo , editoras ruidosas.
Lakedge do futuro (sinais pós-faturamento/editoras).
Amostras desequilibradas, métrica ROC-AUC sem valor.
Falta de golden/QA e testes de regressão de marcação.
PII em datasets sem disfarce ou residência.
Nenhuma análise de slides → degradação oculta em regiões/provedores.
20) Total
A qualidade dos modelos começa com a qualidade das editoras. Ontologia rigorosa, instruções com exemplos, disciplina point-in-time, contornos QA e métricas que levam em conta o custo dos erros são a base do ML reproduzido no iGaming. Incorporando essas práticas à linha de montagem de dados e MLOps, você vai obter modelos sustentáveis, éticos e complicados que melhoram os resultados de negócios sem surpresas.