Modelos de personalización

el Modelo personalizatsii

La personalización es un sistema donde los datos → los modelos → la política de visualización → la acción → la retroalimentación. El objetivo es maximizar el valor incremental (ingresos/retención/satisfacción) respetando las limitaciones (ética/RG, frecuencias, variedad, frescura, SLA).

1) Datos y presentaciones

Materias primas: eventos (vistas/clics/juegos/compras/depósitos), catálogo de contenidos (atributos), perfiles de usuario, contexto (tiempo/geo/dispositivo/canal), señales de calidad (bot/frod).

Fichi:

Usuario: RFM, preferencias de categoría, sensibilidad de precios, hora del día, dispositivo.
Item: género/categoría, estudio/proveedor, idioma, precio/volatilidad, «frescura».
Context: dow/hod, promociones/eventos, sesión, canal de entrada.
Embeddings: espacios conjuntos user/item (MF/Word2Vec2Nat/transformers), multimodales (texto/imágenes).
Calidad: punto en tiempo (sin caras), tiempo UTC, idempotencia de eventos, enmascaramiento PII.

2) Paradigmas básicos

1. Content-based - Proximidad según las características del aitem y el perfil del usuario.
2. Filtrado colaborativo (CF): usuarios/aitems similares a través de señales de interacción.
3. Factorización matricial/embeddings: factores ocultos, dot-product/MLP para score.
4. Learning-to-Rank (LTR) es un refuerzo de gradiente/red neuronal para clasificar listas (pairwise/listwise).
5. Re-ranking de capas - post-processing teniendo en cuenta la diversificación/novedad/limitaciones.
6. Bandidos contextuales - entrenamiento en línea con exploración-exploración.
7. Recomendaciones RL/seq - Optimización de la ruta/sesión (recompensa de varios pasos).

3) Transportador de decisión

1. Recall (selección rápida de candidatos, 200-5k): ANN por embestidas, reglas-beis/categoría, popularidad.
2. Rank (puntuación exacta, 20-200): LTR/MLP con ricas fichas.
3. Re-rank/Policy (fin. lista, 5-30): optimización multipropósito + restricciones y diversificación.
4. Acción: exhibición/push/e-mail/escaparate personal con caps y «reloj tranquilo».
5. Feedback: implícit/explicit señales → readiestramiento/actualización de bandido.

4) Objetivos y limitaciones multipropósito

Objetivos: CTR/CTCVR, retención, ingresos, margen, LTV, satisfacción, velocidad.
Limitaciones: frecuencia de contactos, RG/cumplimiento, variedad de categorías, cuotas de marca/proveedor, fairness.

Redacción:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Práctica: Hacer política-aware re-ranking (ver § 7), donde el skore se combina con las reglas.

5) Inicio frío y pequeños datos

Nuevos usuarios: popularidad por segmento/canal/geo, contenido basado en cuestionario/primer clic, bandido con amplia inteligencia.
Nuevos aitemas: embeddings de contenido (texto/etiquetas), metadatos, «look-alike» por proveedor/género.
Few-shot: transferencia de embarques/multi-tarea (torre compartida).

6) Métricas de evaluación

Offlayn

Clasificación/clasificación: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Negocio: eCPM/eRPM, ingresos/márgenes previstos, LTV proxy.
Multiusos: métricas ponderadas (por ejemplo, NDCG con gain = valor).
Calibración: Brier, ECE (para probabilidades).
Списки: coverage/diversity/novelty/serendipity.

Onlayn

A/B y pruebas de pandillas: CTR, CTCVR, ingresos/sesión, retención de D1/D7, quejas/revocaciones (guardrails), latency/SLA.
Incremento: lift%, CUPED/cuasiexperimentos en aleatorización compleja.

7) Diversificación y re-clasificación de políticas y políticas

MMR/PM-2/xQuAD: equilibrio de «relevancia × novedad».
Cuotas: min/max por géneros/proveedores/categorías de riesgo.
Fairness: limitar las cuotas para evitar distorsiones sistemáticas.

Ejemplo de puntuación:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Histéresis: no «parpadear» las listas; actualizar las posiciones con inercia.

8) Bandidos contextuales y RL

Bandidos (LinUCB, Thompson): rápido aprendizaje en línea, control de exploración. Bueno para la primera posición/creativo/canal.
Bandidos en cascada: optimización top-k.
RL (DQN/Policy Gradient/SlateQ): personalización de sesión, optimización de recompensas de varios pasos (devoluciones/ingresos/larga sesión).
Seguridad: evaluación fuera de polisi (IPS/DR), simuladores, caps por estudio, RL seguro.

9) Personalización bajo efecto causal

Modelos Uplift: quién vale la pena tocar (persuadibles), Qini/AUUC, uplift @ k.
Treatment-aware ranking: incluye la probabilidad de un aumento en lugar de un CTR «crudo».
Guardrails: segmentos Do-Not-Disturb, reglas RG, fairness.

10) Arquitectura y MLOps

Feature Store: paridad online/offline, punto en tiempo, TTL para fiches de sesión.
Servicios de candidatas: ANN/FAISS/ScaNN, caché/charding por segmentos.
Ranker: boosting degradado/MLP/Tower-architecture, calibración.
Política/Re-rank: reglas/restricciones, diversificación, capa de pandillas.
Orquestación: idempotencia de solicitudes, p95 latencia ≤ 100-300 ms, DLQ/retraídas.
Observabilidad: trazabilidad 'correlation _ id', fich drift (PSI), métricas de calidad, 'stop grúa'.

11) Seguridad, privacidad, ética

Minimización PII: tokenización, RLS/CLS, enmascaramiento.
Explicabilidad: top-features/razones de la exhibición; la vía de apelación.
Ética/RG: caps de frecuencia, «relojes silenciosos», prohibiciones de offers agresivos en grupos vulnerables.
Cumplimiento: auditoría de soluciones/registros, versiones de políticas y creativas.

12) Pasaportes y tablas de decisión

Pasaporte de recomendación (ejemplo)

ID/versión: 'NAT _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversidad), cupos de marca, filtros RG, gotas de frecuencia

Objetivos/métricas: NDCG @ 10, eRPM, zhaloby≤Kh, latencia p95≤150 ms

A/B: 14 días, CUPED; guardrails - RG/entrega

Propietarios/lógica/rúnibuc

Tabla de decisión (esbozo)

Condición	Contexto	Acción	Restricciones	Comentario
`new_user` & `low_history`	onbording	popular@segment + content-based seed	gotas de frecuencia, RG	inicio en frío
`session_len>3` & `diversity_low`	Sesión	re-rank с MMR	min 3 categorías	serendipnost
`uplift_push≥τ`	offery	push personal	Do-Not-Disturb, zhaloby≤Kh	efectos no CTR

13) Pseudo-código (sketch)

A. Recall híbrido + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling para creativos

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnóstico y monitoreo

Calidad: NDCG/Recall @ k, eRPM, coverage/diversity, calibración.
En línea: CTR/CTCVR, ingresos/sesión, retención, quejas/revocaciones, latency/timeout.
Deriva: PSI/KL por fichas clave, caída de la correlación de oflayn↔onlayn.
Restricciones: ejecución de cuotas/diversidad, golpes en filtros RG, goteras de frecuencia.
Rúnibuki: degradación de recall (caída de ANN), aumento de quejas, aumento de timautas, falback de emergencia (popular-seguro).

15) Errores frecuentes

Optimización del «CTR crudo» en lugar del valor/aumento.
No hay capa de re-ranking → escasa variedad, «túnel de visión».
Las caras son del futuro, la mezcla de TZ, las definiciones de señal inconsistentes.
La falta de calibración y umbrales → «estropea» el presupuesto y las gotas de frecuencia.
Ignorar RG/ética y fairness → quejas, riesgos, problemas regulatorios.
Nesinhron en línea/fuera de línea fich → un fracaso en la venta.

16) Lista de verificación antes del lanzamiento de la personalización

Modelo de pasaporte (objetivos, limitaciones, métricas, propietarios, versiones)
Recall/Rank/Re-rank espaciados; ANN y cachés calientes
Fiches PIT y calibración, referencia fuera de línea (NDCG/PR-AUC) pasado
Diseño A/B y guardrails; informe decision-ready (efecto y riesgos)
Restricciones: RG/frecuencia/diversidad/cuotas - implementadas y monitorizadas
Observabilidad, alertas, «stop grúa», folbacks (popular-seguro)
Documentación y rúnicas, plan de mejoras incrementales

Los modelos de personalización sólo son eficaces como un sistema de políticas: datos ricos y embestidos → Recall/Rank/Re-rank híbrido → bandidos/RL para la adaptación en línea → objetivos multiusos bajo estrictas restricciones y ética → disciplinado MLOps y monitoreo. Este circuito no solo proporciona «recomendaciones», sino soluciones administradas que aumentan la satisfacción y la ROMI, LTV, de manera segura, transparente y reproducible.

Modelos de personalización

el Modelo personalizatsii

Onlayn

Tabla de decisión (esbozo)

B. Thompson Sampling para creativos

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos