Modelos de personalización
el Modelo personalizatsii
La personalización es un sistema donde los datos → los modelos → la política de visualización → la acción → la retroalimentación. El objetivo es maximizar el valor incremental (ingresos/retención/satisfacción) respetando las limitaciones (ética/RG, frecuencias, variedad, frescura, SLA).
1) Datos y presentaciones
Materias primas: eventos (vistas/clics/juegos/compras/depósitos), catálogo de contenidos (atributos), perfiles de usuario, contexto (tiempo/geo/dispositivo/canal), señales de calidad (bot/frod).
Fichi:- Usuario: RFM, preferencias de categoría, sensibilidad de precios, hora del día, dispositivo.
- Item: género/categoría, estudio/proveedor, idioma, precio/volatilidad, «frescura».
- Context: dow/hod, promociones/eventos, sesión, canal de entrada.
- Embeddings: espacios conjuntos user/item (MF/Word2Vec2Nat/transformers), multimodales (texto/imágenes).
- Calidad: punto en tiempo (sin caras), tiempo UTC, idempotencia de eventos, enmascaramiento PII.
2) Paradigmas básicos
1. Content-based - Proximidad según las características del aitem y el perfil del usuario.
2. Filtrado colaborativo (CF): usuarios/aitems similares a través de señales de interacción.
3. Factorización matricial/embeddings: factores ocultos, dot-product/MLP para score.
4. Learning-to-Rank (LTR) es un refuerzo de gradiente/red neuronal para clasificar listas (pairwise/listwise).
5. Re-ranking de capas - post-processing teniendo en cuenta la diversificación/novedad/limitaciones.
6. Bandidos contextuales - entrenamiento en línea con exploración-exploración.
7. Recomendaciones RL/seq - Optimización de la ruta/sesión (recompensa de varios pasos).
3) Transportador de decisión
1. Recall (selección rápida de candidatos, 200-5k): ANN por embestidas, reglas-beis/categoría, popularidad.
2. Rank (puntuación exacta, 20-200): LTR/MLP con ricas fichas.
3. Re-rank/Policy (fin. lista, 5-30): optimización multipropósito + restricciones y diversificación.
4. Acción: exhibición/push/e-mail/escaparate personal con caps y «reloj tranquilo».
5. Feedback: implícit/explicit señales → readiestramiento/actualización de bandido.
4) Objetivos y limitaciones multipropósito
Objetivos: CTR/CTCVR, retención, ingresos, margen, LTV, satisfacción, velocidad.
Limitaciones: frecuencia de contactos, RG/cumplimiento, variedad de categorías, cuotas de marca/proveedor, fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Práctica: Hacer política-aware re-ranking (ver § 7), donde el skore se combina con las reglas.
5) Inicio frío y pequeños datos
Nuevos usuarios: popularidad por segmento/canal/geo, contenido basado en cuestionario/primer clic, bandido con amplia inteligencia.
Nuevos aitemas: embeddings de contenido (texto/etiquetas), metadatos, «look-alike» por proveedor/género.
Few-shot: transferencia de embarques/multi-tarea (torre compartida).
6) Métricas de evaluación
Offlayn
Clasificación/clasificación: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Negocio: eCPM/eRPM, ingresos/márgenes previstos, LTV proxy.
Multiusos: métricas ponderadas (por ejemplo, NDCG con gain = valor).
Calibración: Brier, ECE (para probabilidades).
Списки: coverage/diversity/novelty/serendipity.
Onlayn
A/B y pruebas de pandillas: CTR, CTCVR, ingresos/sesión, retención de D1/D7, quejas/revocaciones (guardrails), latency/SLA.
Incremento: lift%, CUPED/cuasiexperimentos en aleatorización compleja.
7) Diversificación y re-clasificación de políticas y políticas
MMR/PM-2/xQuAD: equilibrio de «relevancia × novedad».
Cuotas: min/max por géneros/proveedores/categorías de riesgo.
Fairness: limitar las cuotas para evitar distorsiones sistemáticas.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Histéresis: no «parpadear» las listas; actualizar las posiciones con inercia.
8) Bandidos contextuales y RL
Bandidos (LinUCB, Thompson): rápido aprendizaje en línea, control de exploración. Bueno para la primera posición/creativo/canal.
Bandidos en cascada: optimización top-k.
RL (DQN/Policy Gradient/SlateQ): personalización de sesión, optimización de recompensas de varios pasos (devoluciones/ingresos/larga sesión).
Seguridad: evaluación fuera de polisi (IPS/DR), simuladores, caps por estudio, RL seguro.
9) Personalización bajo efecto causal
Modelos Uplift: quién vale la pena tocar (persuadibles), Qini/AUUC, uplift @ k.
Treatment-aware ranking: incluye la probabilidad de un aumento en lugar de un CTR «crudo».
Guardrails: segmentos Do-Not-Disturb, reglas RG, fairness.
10) Arquitectura y MLOps
Feature Store: paridad online/offline, punto en tiempo, TTL para fiches de sesión.
Servicios de candidatas: ANN/FAISS/ScaNN, caché/charding por segmentos.
Ranker: boosting degradado/MLP/Tower-architecture, calibración.
Política/Re-rank: reglas/restricciones, diversificación, capa de pandillas.
Orquestación: idempotencia de solicitudes, p95 latencia ≤ 100-300 ms, DLQ/retraídas.
Observabilidad: trazabilidad 'correlation _ id', fich drift (PSI), métricas de calidad, 'stop grúa'.
11) Seguridad, privacidad, ética
Minimización PII: tokenización, RLS/CLS, enmascaramiento.
Explicabilidad: top-features/razones de la exhibición; la vía de apelación.
Ética/RG: caps de frecuencia, «relojes silenciosos», prohibiciones de offers agresivos en grupos vulnerables.
Cumplimiento: auditoría de soluciones/registros, versiones de políticas y creativas.
12) Pasaportes y tablas de decisión
Pasaporte de recomendación (ejemplo)
ID/versión: 'NAT _ HYBRID _ RANK _ v5'
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversidad), cupos de marca, filtros RG, gotas de frecuencia
Objetivos/métricas: NDCG @ 10, eRPM, zhaloby≤Kh, latencia p95≤150 ms
A/B: 14 días, CUPED; guardrails - RG/entrega
Propietarios/lógica/rúnibuc
Tabla de decisión (esbozo)
13) Pseudo-código (sketch)
A. Recall híbrido + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling para creativos
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnóstico y monitoreo
Calidad: NDCG/Recall @ k, eRPM, coverage/diversity, calibración.
En línea: CTR/CTCVR, ingresos/sesión, retención, quejas/revocaciones, latency/timeout.
Deriva: PSI/KL por fichas clave, caída de la correlación de oflayn↔onlayn.
Restricciones: ejecución de cuotas/diversidad, golpes en filtros RG, goteras de frecuencia.
Rúnibuki: degradación de recall (caída de ANN), aumento de quejas, aumento de timautas, falback de emergencia (popular-seguro).
15) Errores frecuentes
Optimización del «CTR crudo» en lugar del valor/aumento.
No hay capa de re-ranking → escasa variedad, «túnel de visión».
Las caras son del futuro, la mezcla de TZ, las definiciones de señal inconsistentes.
La falta de calibración y umbrales → «estropea» el presupuesto y las gotas de frecuencia.
Ignorar RG/ética y fairness → quejas, riesgos, problemas regulatorios.
Nesinhron en línea/fuera de línea fich → un fracaso en la venta.
16) Lista de verificación antes del lanzamiento de la personalización
- Modelo de pasaporte (objetivos, limitaciones, métricas, propietarios, versiones)
- Recall/Rank/Re-rank espaciados; ANN y cachés calientes
- Fiches PIT y calibración, referencia fuera de línea (NDCG/PR-AUC) pasado
- Diseño A/B y guardrails; informe decision-ready (efecto y riesgos)
- Restricciones: RG/frecuencia/diversidad/cuotas - implementadas y monitorizadas
- Observabilidad, alertas, «stop grúa», folbacks (popular-seguro)
- Documentación y rúnicas, plan de mejoras incrementales
Los modelos de personalización sólo son eficaces como un sistema de políticas: datos ricos y embestidos → Recall/Rank/Re-rank híbrido → bandidos/RL para la adaptación en línea → objetivos multiusos bajo estrictas restricciones y ética → disciplinado MLOps y monitoreo. Este circuito no solo proporciona «recomendaciones», sino soluciones administradas que aumentan la satisfacción y la ROMI, LTV, de manera segura, transparente y reproducible.