Sinalização de dados e qualidade de modelo

1) Atribuição e princípios

O objetivo é obter editoras reproduzidas e a qualidade mensurável dos modelos sem lakage e com base na complacência.

Princípios:

Schema-first: ontologias formalizadas, dicionários de classe e critérios.
Point-in-time: As editoras são construídas a partir de informações disponíveis no momento da decisão.
Quality-as-código: instruções, testes, cheques e amostras - no repositório.
Privaciy-by-design: Minimização do PII, DSAR/PTBF, residência.
Costa-aware: Consideramos o custo de marcação e soluções erradas (expected cost).

2) Ontologia e circuito de editoras

Defina o objeto de sinalização, as classes, as exceções e as fontes de verdade: Exemplo (AML/Antifrod):

Objeto: transação/sessão.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Exceções: chargeback sem provas → 'unknown'.
Fontes: pasta gerenciamento, registos chargeback, provedores/banco.

Esquema YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Instruções de anotação (lidelines)

Estrutura:

1. Descrição da tarefa e do contexto de negócios.

2. Definições de classes com exemplos positivos/negativos e malas de fronteira.

3. Regras de prioridade de origem (verdade> eurística> opinião).

4. Critérios de 'unknown' e escalação.

5. Políticas de privacidade (camuflagem, tokens em vez de ID).

6. FAQ e folha de cheque de marcação.

Fatia de instruções (frod):

'fraud _ confirmed': provado plargeback/mala privada com formatação FRAUD.
'fraud _ aspected': ≥3 de depósito
'legit': Sem bandeiras ou malas confirmadas na janela de 60 dias.
'unknown': sinais de conflito ou dados insuficientes.

4) Fontes de editoras e regras point-in-time

Auto-editoras: regras/mala, chargeback, auto-exclusão (RG), outcome apostas.
Cano de ground, resultado de investigação/resultado regulatório.
Ponto-in-time: não pode usar eventos após a decisão (t0).
Por exemplo, a marceback se manifesta entre 45 e 90 dias depois.

Modelo SQL «sem futuro»:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Amostras: barateamento e equilíbrio

Eventos raros: use stratied sampling por mercados/provedores/datas; oversampling raras classes ou focal loss.
Camadas de validação: mantenha holdout por semanas/mercados/tenentes.
Sanções/PII: exclua campos com identificadores diretos dos conjuntos de treinamento.

Controle de deslocamento da amostra:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Coerência de sinalização (IRR)

Mede o consentimento interanotário: Cohen's (2 anotadores )/Krippendorff's (N anotadores, tipo de escala diferente).

Orientações:

κ < 0. 4 - coerência fraca → rever instruções/exemplos.

0. 4–0. 6 - aceitável para tarefas complexas;> 0. 6 - bom;> 0. Isso é óptimo.

Cartão de qualidade de sinalização:

Revestimento (quanto marcado), / por classe e slides, porção 'unknown', tempo médio, erros top.

7) Circuito QA e referências de ouro

Golden set: 1-5% de marcação - referência com duplo teste.
Tarefas Honey-pot: malas conhecidas escondidas no fluxo de tarefas.
Segunda opinião: escalação/arbitragem em exemplos controversos.
Testes de regressão de sinalização: revalidação após a atualização dos guides.

8) Treinamento ativo, fraco e semi-controlado

Ative Learning: seleção de exemplos «inseguros» (máxima entropia/diversidade).
Weak Supervision: evristicos/distant supervision + modelo de ruído para editoras.
Semi-Supervised: pseudolívicos com limite de temperatura e verificação posterior.

Pipeline (esboço):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-lakedge e controle do tempo

Point-in-time join para fic e editoras.
Banir editoras/fichas do futuro (depois de 'asof').
Pipas separadas online/offline com teste de equivalência de transformação.
Versioning de datasets e lógica ('logic _ version', 'data _ version', 'asof _ data').

10) Métricas de qualidade de modelo

Selecione as métricas sob o custo de erro do negócio:

Classificação por PR-AUC/ROC-AUC, Fórmula @ k, Recall @ k, expected cost (peso FP/FN).
KS/ROC-AUC, Brier, calibragem (ECE), PSI/CSI para a deriva.
Recomendações: NDCG/MAP @ K, coverage/diversity, novidade.
Anomalias Precision @ k, AUCPR em sintético/conjunto dourado.

Expected-Cost (pseudocode):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Análise de slides e fairness

Slides: mercado, provedor, device/ASN, idade da conta, valor do depósito, hora do dia.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Acções: reaproveitamento de fich, calibragem por slides, revisão de liminares, peso de aprendizado.

12) Monitoramento de qualidade produtiva

À deriva de dados/previsões: PSI/KL por fichas/acervos.
Calibragem: ECE, diagramas reliability.
Estabilidade da liminar: alert, se exportado ↑> X% ou PR-AUC ↓.
Esquemas/contratos: molhar breaking changes (schema registry).
Feedback loop: Editoras manuais rápidas de incidentes (encerramento de cases, RG).

13) Privacidade, segurança, complacência

Minimização PII: pseudônimos, mapping protegido separado.
Residência: pipline/chaves separados (EEA/UK/BR); proibição de join's cruzados sem fundamento.
DSAR/PTBF: projeções computáveis e edições seletivas.
Legal Hold: arquivos WORM para malas e pacotes de relatórios.
Registros: auditoria de acesso/exportação imutável.

14) Organizar o processo de sinalização

Ferramentas: rastreador task, fila de exemplos, pré-teste de contexto, camuflagem PII, teclas quentes.
Controle de velocidade e qualidade: anotador KPI (velocidade, precisão em golden), treinamento e avaliação.
Versioning: 'lidelines _ version', 'annotator _ id', 'reviewer _ id', temporizadores.
Documentação: cartão de marcação (owner, origem, janelas, regras, métricas).

15) Exemplos de modelos

Cartão de Dataset (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Regras de sinalização QA:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusão matrix (SQL-ideia):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Mapa de trânsito de implementação

MVP (2-4 semanas):

1. Ontologia e instruções v1, conjunto de ouro (≥1000 exemplos por domínio).

2. Fluxo de anotação com camuflagem PII, -métrica por semana.

3. Modelo básico + avaliação offline (PR-AUC, expected cost), point-in-time de amostra.

4. Monitoramento da deriva do fich/córtex; maiúsculas de datasets e versões de guides.

Fase 2 (4-8 semanas):

Ativa/weak-supervision linha de montagem, auto-triage 'unknown'.
Análise de slides e relatórios fairness, calibração de probabilidades.
Procedimentos DSAR/PTBF para conjuntos marcados, Legal Hold para malas.

Fase 3 (8-12 semanas):

Automação completa QA (golden/honey-pots), testes de regressão de sinalização.
Catálogo de datasets e cartões de qualidade de modelo; a orquestração de liminares expectada.
Chargeback por valor de sinalização/inferência, SLA por atualizações de editoras.

17) RACI

R (Resolvível): Data Science (ontologia, métricas), Label Ops (processo/QA), Data Eng (amostra/PII/armazenamento).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (regras), Security (KMS/auditoria).
I (Informed): Produto/Marketing/Operações/Suporte.

18) Folha de cheque antes de vender

Ontologia e guindastes aprovados, versão registrada.
Amostra de qualidade: rateio, holdout em tempo/mercado.
/ do limite de destino; golden-accuracy respeitado.
Ponto-in-time coleta fichas e editoras; O teste de falta de lakage foi ultrapassado.
As métricas foram selecionadas por expected cost, analisadas em slides e fairness.
Monitoramento da deriva/calibragem está incluído; Os aleres estão bem.
As políticas PII/DSAR/PTBF e Legal Hold foram cumpridas; a auditoria está ativada.

19) Anti-pattern e riscos

Marcação sem critérios claros baixo , editoras ruidosas.
Lakedge do futuro (sinais pós-faturamento/editoras).
Amostras desequilibradas, métrica ROC-AUC sem valor.
Falta de golden/QA e testes de regressão de marcação.
PII em datasets sem disfarce ou residência.
Nenhuma análise de slides → degradação oculta em regiões/provedores.

20) Total

A qualidade dos modelos começa com a qualidade das editoras. Ontologia rigorosa, instruções com exemplos, disciplina point-in-time, contornos QA e métricas que levam em conta o custo dos erros são a base do ML reproduzido no iGaming. Incorporando essas práticas à linha de montagem de dados e MLOps, você vai obter modelos sustentáveis, éticos e complicados que melhoram os resultados de negócios sem surpresas.

Sinalização de dados e qualidade de modelo

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos