Modelos de personalização
Modelos de personalização
A personalização é um sistema onde os dados do modelo a política de exibição a ação o feedback. O objetivo é maximizar o valor incorporativo (renda/retenção/satisfação), respeitando os limites (ética/RG, capas de frequência, variedade, frescor, SLA).
1) Dados e visualizações
Matérias-primas: eventos (visualizações/cliques/jogos/compras/depósitos), conteúdo-catálogo (atributos), perfis personalizados, contexto (tempo/geo/dispositivo/canal), sinais de qualidade (bot/frod).
Fichi:- User: RFM, preferências de categorias, sensibilidade de preço, hora do dia, dispositivo.
- Item: gênero/categoria, estúdio/provedor, língua, preço/volatilidade, «frescor».
- Context: dow/hod, promoção/iventes, sessão, canal de entrada.
- Embeddings: user/item compartilhado (MF/Word2Vec2Rec/transformers), multimodal (texto/imagem).
- Qualidade: point-in-time (sem leque), tempo UTC, idempotação de eventos, camuflagem PII.
2) Paradigmas básicos
1. Conteúdo-based - Intimidade por item e perfil do usuário.
2. Filtragem de Coluberância (CF) - Usuários/itemas semelhantes por sinais de interação.
3. Faturamento de matriz/embeddings - fatores ocultos, dot-product/MLP para score.
4. Learning-to-Rank (LTR) - busting gradiente/neuroseti para classificação de lista (pairwise/listwise).
5. Camadas de ré-ranking - post-processing com base na diversificação/novidade/restrição.
6. Bandido contextual - treinamento on-line com exploration-exploration.
7. RL/seq-recomendação - otimização do caminho/sessão (prêmio de múltipla escala).
3) Linha de montagem de decisão
1. Recall (seleção rápida de candidatos, 200-5k): ANNE em embeddings, regras-bees/categoria, popularidade.
2. Rank (exato, 20-200): LTR/MLP com fitas ricas.
3. Re-rank/Policy (fim. lista, 5-30): otimização múltipla + limitação e diversificação.
4. Action: exibição/pool/e-mail/vitrine pessoal com capas e «relógios silenciosos».
5. Feedback: implicit/explorit sinais → reaproveitamento/atualização bandida.
4) Objetivos e limitações múltiplas
Metas: CTR/CTCVR, retenção, receita, margem, LTV, satisfação, velocidade.
Limitações: frequência de contatos, RG/complacência, variedade de categorias, quotas de marcas/provedores, fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Prática: Faça policy-aware re-ranking (consulte parágrafo 7), onde o screen está combinado com as regras.
5) Início frio e dados pequenos
Novos usuários: popularidade por segmento/canal/geo, conteúdo-based por questionário/primeiro clique, bandido por inteligência ampla.
Novos itemas: embeddings de conteúdo (texto/tags), metadados, «look-alike» por provedor/gênero.
Few-shot: transferência de embeddings/multi-tarefa (shared tower).
6) Métricas de avaliação
Offline
Classificação/classificação: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Negócios: eCPM/eRPM, expectativa de renda/margem, LTV proxy.
Várias metas: métricas ponderadas (por exemplo, NDCG com gain = valor).
Calibragem: Brier, ECE (para probabilidades).
Списки: coverage/diversity/novelty/serendipity.
Online
A/B e testes de gangues: CTR, CTCVR, rendimento/sessão, retenção D1/D7, queixas/dispensas (guardas), latency/SLA.
Incluído: lift%, CUPED/quasiexportações para randomização complexa.
7) Diversificação e policy-aware re-ranking
MMR/PM-2/xQuAD: equilíbrio «relevância x novidade».
Quotas: min/max em gêneros/provedores/categorias de risco.
Fairness: limite de participação para evitar distorções sistemáticas.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Histeresis: Não «piscar» com listas; atualize posições com inércia.
8) Bandidos contextuais e RL
Bandido (LinUCB, Thompson): rápido online-learn, controle de exploração. São bons para a primeira posição/criatividade/canal.
Bandidos em cascata, otimização top-k.
RL (DQN/Policy Gradient/SlateQ): Personalização de sessão, otimização de recompensa de múltipla escala (retorno/receita/longa sessão).
Segurança: avaliação de pólio off (IPS/DR), simuladores, capas de pesquisa, safe RL.
9) Personalização para efeito de causa
Modelos Uplift: quem deve tocar (persuadable), Qini/AUUC, uplift @ k.
Classificação Treatment-aware: inclua a probabilidade de um encarte em vez de um CTR «cru».
Guardrails: segmentos Do-Not-Disturb, regras RG, fairness.
10) Arquitetura e MLOs
Função Store: paridade online/offline, point-in-time, TTL para fies de sessão.
Candidate services: ANN/FAISS/ScaNN, cajagem/charding por segmentos.
Ranker: busting gradiente/MLP/Tower-arquitetura, calibrado.
Policy/Re-rank: regras/restrições, diversificação, camada de gangues.
Orquestração: Idempotidade de pedidos, p95 latency ≤ 100-300 ms, DLQ/retrai.
Observabilidade: traçado 'correlation _ id', fich-drift (PSI), métricas de qualidade, «pare-torneira».
11) Segurança, privacidade, ética
Minimização PII: Tocinização, RLS/CLS, camuflagem.
Explicabilidade: top-featuras/razões de exibição; O caminho do recurso.
Ética/RG: Capas de frequência, «relógios silenciosos», proibições de ofícios agressivos em grupos vulneráveis.
Complaens: Auditar soluções/logs, versões de políticas e criativos.
12) Passaportes e determinação de táveis
Passaporte do recomendador (exemplo)
ID/versão: 'REX _ HYBRID _ RANK _ v5'
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversity), quotas de marcas, filtros RG, caps de frequência
Alvos/métricas: NDCG @ 10, eRPM, zhaloby≤Kh, latency p95≤150 ms
A/B: 14 dias, CUPED; guardrails - RG/entrega
Proprietários/logs/runibook
Resolução de tabela (esboço)
13) Pseudo-código (sketch)
A. Recall híbrido + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling para criativos
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnóstico e monitorização
Qualidade: NDCG/Recall @ k, eRPM, coverage/diversity, calibragem.
Online: CTR/CTCVR, rendimento/sessão, retenção, queixas/dispensas, latency/timeout.
À deriva: PSI/KL em fichas-chave, queda na correlação de oflayn↔onlayn.
Limitações: execução de quotas/diversidade, batidas em filtros RG, capas de frequência.
Runibuki: recall de degradação (queda da ANNE), aumento de queixas, aumento de temporizações, folback de emergência (popular-safe).
15) Erros frequentes
Otimização de «CTR crua» em vez de valor/incorporação.
Não há camada de ré-ranking → uma variedade escassa, «túnel de visão».
Leques do futuro, mistura de TZ, definições incoerentes de sinais.
A falta de calibragem e liminares «estraga» o orçamento e os caps de frequência.
Ignorar RG/ética e fairness → queixas, riscos, problemas regulatórios.
Não-Inhron online/offline fic → um fracasso na venda.
16) Folha de cheque antes do lançamento da personalização
- Passaporte do modelo (metas, limitações, métricas, proprietários, versões)
- Recall/Rank/Re-rank espalhados; ANN e cajus aquecidos
- Fici PIT e calibragem, firewall offline (NDCG/PR-AUC) ultrapassados
- Design A/B e guard; relatório de resolução-ready (efeitos e riscos)
- Limitações: RG/frequência/diversidade/quotas - implementadas e monitadas
- Observabilidade, alertas, «pare-torneira», folbacks (popular-safe)
- Documentação e runibuki, plano de melhorias incorporativas
Resultado
Os modelos de personalização só são eficazes como policy-aware sistema: dados ricos e embeddings → híbrido Recall/Rank/Re-rank → bandido/RL para adaptação on-line → objetivos múltiplos sob restrições rígidas e ética → MLOs disciplinados e monitorados. Este caminho oferece não apenas «recomendações», mas soluções gerenciáveis que aumentam ROMI, LTV e satisfação - de forma segura, transparente e reproduzida.