Modele personalizacji
Modele personalizacji
Personalizacja to system, w którym dane → modele → polityka wyświetlania → działanie → opinie. Celem jest maksymalizacja wartości przyrostowej (dochód/retencja/satysfakcja) przy jednoczesnym spełnieniu ograniczeń (etyka/RG, czapki częstotliwości, różnorodność, świeżość, SLA).
1) Dane i widoki
Surowce: zdarzenia (widoki/kliknięcia/gry/zakupy/depozyty), katalog treści (atrybuty), profile użytkowników, kontekst (czas/geo/urządzenie/kanał), sygnały jakości (bot/oszustwo).
Fici:- Użytkownik: RFM, preferencje kategorii, wrażliwość na ceny, pora dnia, urządzenie.
- Pozycja: gatunek/kategoria, studio/dostawca, język, cena/zmienność, „świeżość”.
- Kontekst: dow/hod, promo/events, session, login channel.
- Osadzenia: użytkownik/element wspólne spacje (MF/Word2Vec2Rec/transformatory), multimodalne (tekst/obrazy).
- Jakość: punkt w czasie (bez twarzy), czas UTC, idempotencja wydarzeń, maskowanie PII.
2) Podstawowe paradygmaty
1. Zawartość - bliskość zgodnie z atrybutami adresu i profilu użytkownika.
2. Filtrowanie wspólne (CF) - podobne użytkownicy/aytemy na podstawie sygnałów interakcji.
3. Matrix factorization/embeddings - ukryte czynniki, dot-product/MLP for score.
4. Learning-to-Rank (LTR) - nachylenie gradientu/sieci neuronowe dla list rankingowych (pary/listwise).
5. Ponowna klasyfikacja warstwy - po przetworzeniu, z uwzględnieniem dywersyfikacji/nowości/ograniczeń.
6. Kontekstowi bandyci - nauka online z eksploracji-eksploatacji.
7. RL/seq-zalecenia - optymalizacja ścieżki/sesji (wielokrotna nagroda).
3) Rurociąg decyzji
1. Recall (szybki wybór kandydatów, 200-5k): ANN według osadów, reguły/kategorii, popularności.
2. Rank (dokładne punktowanie, 20-200): LTR/MLP z bogatymi funkcjami.
3. Zmiana rangi/polityki (lista Finów, 5-30): optymalizacja wielofunkcyjna + ograniczenia i dywersyfikacja.
4. Akcja: pokaż/push/e-mail/osobista prezentacja ze strażnikami ustnymi i „cichym zegarkiem”.
5. Informacje zwrotne: sygnały implicit/explicit → przekwalifikowanie/bandit-update.
4) Cele i ograniczenia wielozadaniowe
Cele: CTR/CTCVR, zatrzymywanie, dochody, marża, LTV, satysfakcja, prędkość.
Ograniczenia: częstotliwość kontaktu, RG/zgodność, różnorodność kategorii, kwoty marki/dostawcy, uczciwość.
[
\ max\sum _ i w_i\cdot\text {Cel} _ i\quad
\ tekst {s. t. }\text {caps, RG, diversity, SLA}
]
Praktyka: Czy polityka-świadomy re-ranking (patrz § 7), gdzie prędkość jest połączona z zasadami.
5) Zimny start i małe dane
Nowi użytkownicy: popularność według segmentu/kanału/geo, treści oparte na kwestionariuszu/pierwsze kliknięcie, bandyta z szeroką inteligencją.
Nowe aitemy: osadzanie treści (tekst/tagi), metadane, „look-alike” według dostawcy/gatunku.
Kilka strzałów: wbudowanie transfer/wspólna wieża.
6) Metryki punktowe
Offline
Klasyfikacja/ranking: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Biznes: eCPM/eRPM, oczekiwany przychód/marża, LTV proxy.
Wielofunkcyjny: mierniki ważone (np. NDCG z zyskiem = wartość).
Kalibracja: Brier, ECE (dla prawdopodobieństwa).
Сбиска: zasięg/różnorodność/nowość/serendipity.
Online
Testy A/B i bandytów: CTR, CTCVR, dochody/sesja, zatrzymywanie D1/D7, skargi/rezygnacje (poręcze), opóźnienia/SLA.
Przyrost: podnosić%, CUPED/quasi-eksperymenty w złożonej randomizacji.
7) Dywersyfikacja i reorganizacja polityki
MMR/PM-2/xQuAD: bilans „znaczenia × nowości”.
Kwoty: min/max według gatunku/dostawcy/kategorii ryzyka.
Uczciwość: Ograniczyć akcje, aby uniknąć systematycznego skewingu.
[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {Fatigue} +\delta\cdot\text {Novelty}
]
Histereza: nie „mrugać” listami; Zaktualizuj przedmioty z bezwładnością.
8) Bandyci kontekstowi i OZ
Bandyci (LinUCB, Thompson): szybka nauka online, kontrola eksploracji. Dobra na pierwszą pozycję/kreatywny/kanał.
Bandyci kaskadowi: optymalizacja top-k.
RL (DQN/Policy Gradient/SlاQ): personalizacja sesji, wielostopniowa optymalizacja nagród (zwrot/dochód/długa sesja).
Bezpieczeństwo: ocena pozapolityczna (IPS/DR), symulatory, czapki do badań, bezpieczne RL.
9) Personalizacja dla efektu przyczynowego
Modele uplift: kto powinien być dotykany (perswadowalne), Qini/AUUC, uplift @ k.
Ranking świadomy leczenia: Uwzględnij prawdopodobieństwo przyrostu zamiast surowego CTR.
Poręcze: segmenty Do-Not-Disturb, zasady RG, uczciwość.
10) Architektura i MLOp
Sklep funkcyjny: parytet online/offline, punkt w czasie, TTL dla funkcji sesji.
Usługi kandydackie: ANN/FAISS/ScaNN, buforowanie/shading według segmentu.
Ranker: gradient boosting/MLP/wieża architektury, kalibracja.
Polityka/Re-ranking: zasady/ograniczenia, dywersyfikacja, warstwa bandytów.
Orkiestra: żądanie idempotency, p95 latency ≤ 100-300 ms, DLQ/retray.
Obserwability: correlation _ id trace, PSI, quality metrics, stopcock.
11) Bezpieczeństwo, prywatność, etyka
Minimalizacja PII: tokenizacja, RLS/CLS, maskowanie.
Możliwość wyjaśnienia: najlepsze cechy/powody do pokazania; ścieżka odwoławcza.
Etyka/RG: czapki częstotliwości, „ciche godziny”, zakazy dotyczące agresywnych ofert ze strony słabszych grup.
Zgodność: audyt decyzji/dzienników, wersje polityk i twórców.
12) Paszporty i tabele decyzji
Certyfikat referencyjny (przykład)
ID/wersja: 'REC _ HYBRID _ RANK _ v5'
Przypomnij: ANN (osadzanie użytkownika/elementu), top-500
Ranker: LTR-GBM + MLP (funkcje: user RFM, item meta, context)
Zmiana rangi: PM-2 (różnorodność), kwoty marki, filtry RG, czapki częstotliwości
Bramki/wskaźniki: NDCG @ 10, eRPM, zhaloby ≤ Kh, opóźnienie p95 ≤ 150 ms
A/B: 14 dni, PUCHAR; poręcze - RG/wydajność
Właściciele/Rejestrowanie/Runibook
Tabela decyzji
13) Kod pseudo (szkic)
A. Hybrydowe wycofanie + ranga + ponowna ranga
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling for Creatives
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diagnostyka i monitorowanie
Jakość: NDCG/Recall @ k, eRPM, zasięg/różnorodność, kalibracja.
Online: CTR/CTCVR, dochód/sesja, zatrzymanie, reklamacje/rezygnacje, opóźnienia/timeout.
Drift: PSI/KL według najważniejszych cech, kropla korelacji z layn na onlayn.
Ograniczenia: wypełnienie kwot/różnorodność, wpływ na filtry RG, pułapy częstotliwości.
Runibooks: recall degradation (ANN drop), wzrost reklamacji, gwałtowny wzrost czasu, awaryjny folback (popularne-safe).
15) Częste błędy
Optymalizacja „surowego CTR” zamiast przyrostu/wartości.
Nie ma warstwy ponownej klasyfikacji → skąpej odmiany, „tunel wzroku”.
Twarze z przyszłości, mieszanie TZ, niespójne definicje sygnału.
Brak kalibracji i progów → budżet i pułapy częstotliwości „pogarszają się”.
Ignorowanie RG/etyki i uczciwości → skargi, ryzyka, kwestie regulacyjne.
Funkcja online/offline non-synchron → awaria sprzedaży.
16) Lista kontrolna personalizacji przed zwolnieniem
- Paszport modelowy (cele, ograniczenia, mierniki, właściciele, wersje)
- Recall/Rank/Re-rank posted; ANN i bufory ocieplone
- Cechy PIT i kalibracja, wskaźniki offline (NDCG/PR-AUC) przeszedł
- Konstrukcja i szyny ochronne A/B; gotowe do podjęcia decyzji sprawozdanie
- RG/Częstotliwość/Różnorodność/Ograniczenia kwot - Wdrożone i monitorowane
- Obserwowalność, wpisy, stop-dźwig, folbacks (popularne-safe)
- Dokumentacja i Runibooks, Plan poprawy przyrostowej
Razem
Modele personalizacji są skuteczne tylko jako system świadomy polityki: bogate dane i osadzanie → a Recall/Rank/Re-rank hybrid → bandyci/RL dla adaptacji online → cele wielozadaniowe dla ścisłych ograniczeń i etyki → zdyscyplinowane MLOp i monitorowania. Taki układ dostarcza nie tylko „rekomendacji”, ale także możliwych do opanowania rozwiązań, które zwiększają ROMI, LTV i satysfakcję - bezpiecznie, przejrzysto i powtarzalnie.