Modelos de personalização

A personalização é um sistema onde os dados do modelo a política de exibição a ação o feedback. O objetivo é maximizar o valor incorporativo (renda/retenção/satisfação), respeitando os limites (ética/RG, capas de frequência, variedade, frescor, SLA).

1) Dados e visualizações

Matérias-primas: eventos (visualizações/cliques/jogos/compras/depósitos), conteúdo-catálogo (atributos), perfis personalizados, contexto (tempo/geo/dispositivo/canal), sinais de qualidade (bot/frod).

Fichi:

User: RFM, preferências de categorias, sensibilidade de preço, hora do dia, dispositivo.
Item: gênero/categoria, estúdio/provedor, língua, preço/volatilidade, «frescor».
Context: dow/hod, promoção/iventes, sessão, canal de entrada.
Embeddings: user/item compartilhado (MF/Word2Vec2Rec/transformers), multimodal (texto/imagem).
Qualidade: point-in-time (sem leque), tempo UTC, idempotação de eventos, camuflagem PII.

2) Paradigmas básicos

1. Conteúdo-based - Intimidade por item e perfil do usuário.
2. Filtragem de Coluberância (CF) - Usuários/itemas semelhantes por sinais de interação.
3. Faturamento de matriz/embeddings - fatores ocultos, dot-product/MLP para score.
4. Learning-to-Rank (LTR) - busting gradiente/neuroseti para classificação de lista (pairwise/listwise).
5. Camadas de ré-ranking - post-processing com base na diversificação/novidade/restrição.
6. Bandido contextual - treinamento on-line com exploration-exploration.
7. RL/seq-recomendação - otimização do caminho/sessão (prêmio de múltipla escala).

3) Linha de montagem de decisão

1. Recall (seleção rápida de candidatos, 200-5k): ANNE em embeddings, regras-bees/categoria, popularidade.
2. Rank (exato, 20-200): LTR/MLP com fitas ricas.
3. Re-rank/Policy (fim. lista, 5-30): otimização múltipla + limitação e diversificação.
4. Action: exibição/pool/e-mail/vitrine pessoal com capas e «relógios silenciosos».
5. Feedback: implicit/explorit sinais → reaproveitamento/atualização bandida.

4) Objetivos e limitações múltiplas

Metas: CTR/CTCVR, retenção, receita, margem, LTV, satisfação, velocidade.
Limitações: frequência de contatos, RG/complacência, variedade de categorias, quotas de marcas/provedores, fairness.

Formulação:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Prática: Faça policy-aware re-ranking (consulte parágrafo 7), onde o screen está combinado com as regras.

5) Início frio e dados pequenos

Novos usuários: popularidade por segmento/canal/geo, conteúdo-based por questionário/primeiro clique, bandido por inteligência ampla.
Novos itemas: embeddings de conteúdo (texto/tags), metadados, «look-alike» por provedor/gênero.
Few-shot: transferência de embeddings/multi-tarefa (shared tower).

6) Métricas de avaliação

Offline

Classificação/classificação: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Negócios: eCPM/eRPM, expectativa de renda/margem, LTV proxy.
Várias metas: métricas ponderadas (por exemplo, NDCG com gain = valor).
Calibragem: Brier, ECE (para probabilidades).
Списки: coverage/diversity/novelty/serendipity.

Online

A/B e testes de gangues: CTR, CTCVR, rendimento/sessão, retenção D1/D7, queixas/dispensas (guardas), latency/SLA.
Incluído: lift%, CUPED/quasiexportações para randomização complexa.

7) Diversificação e policy-aware re-ranking

MMR/PM-2/xQuAD: equilíbrio «relevância x novidade».
Quotas: min/max em gêneros/provedores/categorias de risco.
Fairness: limite de participação para evitar distorções sistemáticas.

Um exemplo de escrutínio:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Histeresis: Não «piscar» com listas; atualize posições com inércia.

8) Bandidos contextuais e RL

Bandido (LinUCB, Thompson): rápido online-learn, controle de exploração. São bons para a primeira posição/criatividade/canal.
Bandidos em cascata, otimização top-k.
RL (DQN/Policy Gradient/SlateQ): Personalização de sessão, otimização de recompensa de múltipla escala (retorno/receita/longa sessão).
Segurança: avaliação de pólio off (IPS/DR), simuladores, capas de pesquisa, safe RL.

9) Personalização para efeito de causa

Modelos Uplift: quem deve tocar (persuadable), Qini/AUUC, uplift @ k.
Classificação Treatment-aware: inclua a probabilidade de um encarte em vez de um CTR «cru».
Guardrails: segmentos Do-Not-Disturb, regras RG, fairness.

10) Arquitetura e MLOs

Função Store: paridade online/offline, point-in-time, TTL para fies de sessão.
Candidate services: ANN/FAISS/ScaNN, cajagem/charding por segmentos.
Ranker: busting gradiente/MLP/Tower-arquitetura, calibrado.
Policy/Re-rank: regras/restrições, diversificação, camada de gangues.
Orquestração: Idempotidade de pedidos, p95 latency ≤ 100-300 ms, DLQ/retrai.
Observabilidade: traçado 'correlation _ id', fich-drift (PSI), métricas de qualidade, «pare-torneira».

11) Segurança, privacidade, ética

Minimização PII: Tocinização, RLS/CLS, camuflagem.
Explicabilidade: top-featuras/razões de exibição; O caminho do recurso.
Ética/RG: Capas de frequência, «relógios silenciosos», proibições de ofícios agressivos em grupos vulneráveis.
Complaens: Auditar soluções/logs, versões de políticas e criativos.

12) Passaportes e determinação de táveis

Passaporte do recomendador (exemplo)

ID/versão: 'REX _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), quotas de marcas, filtros RG, caps de frequência

Alvos/métricas: NDCG @ 10, eRPM, zhaloby≤Kh, latency p95≤150 ms

A/B: 14 dias, CUPED; guardrails - RG/entrega

Proprietários/logs/runibook

Resolução de tabela (esboço)

Condição	Contexto	Ação	Restrições	Comentário
`new_user` & `low_history`	onboarding	popular@segment + content-based seed	caps de frequência, RG	início frio
`session_len>3` & `diversity_low`	sessão	re-rank с MMR	min 3 categorias	serendiposidade
`uplift_push≥τ`	offs	pool pessoal	Do-Not-Disturb, zhaloby≤Kh	efeitos, não CTR

13) Pseudo-código (sketch)

A. Recall híbrido + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling para criativos

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnóstico e monitorização

Qualidade: NDCG/Recall @ k, eRPM, coverage/diversity, calibragem.
Online: CTR/CTCVR, rendimento/sessão, retenção, queixas/dispensas, latency/timeout.
À deriva: PSI/KL em fichas-chave, queda na correlação de oflayn↔onlayn.
Limitações: execução de quotas/diversidade, batidas em filtros RG, capas de frequência.
Runibuki: recall de degradação (queda da ANNE), aumento de queixas, aumento de temporizações, folback de emergência (popular-safe).

15) Erros frequentes

Otimização de «CTR crua» em vez de valor/incorporação.
Não há camada de ré-ranking → uma variedade escassa, «túnel de visão».
Leques do futuro, mistura de TZ, definições incoerentes de sinais.
A falta de calibragem e liminares «estraga» o orçamento e os caps de frequência.
Ignorar RG/ética e fairness → queixas, riscos, problemas regulatórios.
Não-Inhron online/offline fic → um fracasso na venda.

16) Folha de cheque antes do lançamento da personalização

Passaporte do modelo (metas, limitações, métricas, proprietários, versões)
Recall/Rank/Re-rank espalhados; ANN e cajus aquecidos
Fici PIT e calibragem, firewall offline (NDCG/PR-AUC) ultrapassados
Design A/B e guard; relatório de resolução-ready (efeitos e riscos)
Limitações: RG/frequência/diversidade/quotas - implementadas e monitadas
Observabilidade, alertas, «pare-torneira», folbacks (popular-safe)
Documentação e runibuki, plano de melhorias incorporativas

Resultado

Os modelos de personalização só são eficazes como policy-aware sistema: dados ricos e embeddings → híbrido Recall/Rank/Re-rank → bandido/RL para adaptação on-line → objetivos múltiplos sob restrições rígidas e ética → MLOs disciplinados e monitorados. Este caminho oferece não apenas «recomendações», mas soluções gerenciáveis que aumentam ROMI, LTV e satisfação - de forma segura, transparente e reproduzida.

Modelos de personalização