Modele personalizacji

Personalizacja to system, w którym dane → modele → polityka wyświetlania → działanie → opinie. Celem jest maksymalizacja wartości przyrostowej (dochód/retencja/satysfakcja) przy jednoczesnym spełnieniu ograniczeń (etyka/RG, czapki częstotliwości, różnorodność, świeżość, SLA).

1) Dane i widoki

Surowce: zdarzenia (widoki/kliknięcia/gry/zakupy/depozyty), katalog treści (atrybuty), profile użytkowników, kontekst (czas/geo/urządzenie/kanał), sygnały jakości (bot/oszustwo).

Fici:

Użytkownik: RFM, preferencje kategorii, wrażliwość na ceny, pora dnia, urządzenie.
Pozycja: gatunek/kategoria, studio/dostawca, język, cena/zmienność, „świeżość”.
Kontekst: dow/hod, promo/events, session, login channel.
Osadzenia: użytkownik/element wspólne spacje (MF/Word2Vec2Rec/transformatory), multimodalne (tekst/obrazy).
Jakość: punkt w czasie (bez twarzy), czas UTC, idempotencja wydarzeń, maskowanie PII.

2) Podstawowe paradygmaty

1. Zawartość - bliskość zgodnie z atrybutami adresu i profilu użytkownika.
2. Filtrowanie wspólne (CF) - podobne użytkownicy/aytemy na podstawie sygnałów interakcji.
3. Matrix factorization/embeddings - ukryte czynniki, dot-product/MLP for score.
4. Learning-to-Rank (LTR) - nachylenie gradientu/sieci neuronowe dla list rankingowych (pary/listwise).
5. Ponowna klasyfikacja warstwy - po przetworzeniu, z uwzględnieniem dywersyfikacji/nowości/ograniczeń.
6. Kontekstowi bandyci - nauka online z eksploracji-eksploatacji.
7. RL/seq-zalecenia - optymalizacja ścieżki/sesji (wielokrotna nagroda).

3) Rurociąg decyzji

1. Recall (szybki wybór kandydatów, 200-5k): ANN według osadów, reguły/kategorii, popularności.
2. Rank (dokładne punktowanie, 20-200): LTR/MLP z bogatymi funkcjami.
3. Zmiana rangi/polityki (lista Finów, 5-30): optymalizacja wielofunkcyjna + ograniczenia i dywersyfikacja.
4. Akcja: pokaż/push/e-mail/osobista prezentacja ze strażnikami ustnymi i „cichym zegarkiem”.
5. Informacje zwrotne: sygnały implicit/explicit → przekwalifikowanie/bandit-update.

4) Cele i ograniczenia wielozadaniowe

Cele: CTR/CTCVR, zatrzymywanie, dochody, marża, LTV, satysfakcja, prędkość.
Ograniczenia: częstotliwość kontaktu, RG/zgodność, różnorodność kategorii, kwoty marki/dostawcy, uczciwość.

Brzmienie:

[
\ max\sum _ i w_i\cdot\text {Cel} _ i\quad
\ tekst {s. t. }\text {caps, RG, diversity, SLA}
]

Praktyka: Czy polityka-świadomy re-ranking (patrz § 7), gdzie prędkość jest połączona z zasadami.

5) Zimny start i małe dane

Nowi użytkownicy: popularność według segmentu/kanału/geo, treści oparte na kwestionariuszu/pierwsze kliknięcie, bandyta z szeroką inteligencją.
Nowe aitemy: osadzanie treści (tekst/tagi), metadane, „look-alike” według dostawcy/gatunku.
Kilka strzałów: wbudowanie transfer/wspólna wieża.

6) Metryki punktowe

Offline

Klasyfikacja/ranking: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
Biznes: eCPM/eRPM, oczekiwany przychód/marża, LTV proxy.
Wielofunkcyjny: mierniki ważone (np. NDCG z zyskiem = wartość).
Kalibracja: Brier, ECE (dla prawdopodobieństwa).
Сбиска: zasięg/różnorodność/nowość/serendipity.

Online

Testy A/B i bandytów: CTR, CTCVR, dochody/sesja, zatrzymywanie D1/D7, skargi/rezygnacje (poręcze), opóźnienia/SLA.
Przyrost: podnosić%, CUPED/quasi-eksperymenty w złożonej randomizacji.

7) Dywersyfikacja i reorganizacja polityki

MMR/PM-2/xQuAD: bilans „znaczenia × nowości”.
Kwoty: min/max według gatunku/dostawcy/kategorii ryzyka.
Uczciwość: Ograniczyć akcje, aby uniknąć systematycznego skewingu.

Przykład punktacji:

[
\ textstyle\text {Score} =\alpha\cdot\hat {p} _ {\text {click}} +\beta\cdot\text {Value} -\gamma\cdot\text {Fatigue} +\delta\cdot\text {Novelty}
]

Histereza: nie „mrugać” listami; Zaktualizuj przedmioty z bezwładnością.

8) Bandyci kontekstowi i OZ

Bandyci (LinUCB, Thompson): szybka nauka online, kontrola eksploracji. Dobra na pierwszą pozycję/kreatywny/kanał.
Bandyci kaskadowi: optymalizacja top-k.
RL (DQN/Policy Gradient/SlاQ): personalizacja sesji, wielostopniowa optymalizacja nagród (zwrot/dochód/długa sesja).
Bezpieczeństwo: ocena pozapolityczna (IPS/DR), symulatory, czapki do badań, bezpieczne RL.

9) Personalizacja dla efektu przyczynowego

Modele uplift: kto powinien być dotykany (perswadowalne), Qini/AUUC, uplift @ k.
Ranking świadomy leczenia: Uwzględnij prawdopodobieństwo przyrostu zamiast surowego CTR.
Poręcze: segmenty Do-Not-Disturb, zasady RG, uczciwość.

10) Architektura i MLOp

Sklep funkcyjny: parytet online/offline, punkt w czasie, TTL dla funkcji sesji.
Usługi kandydackie: ANN/FAISS/ScaNN, buforowanie/shading według segmentu.
Ranker: gradient boosting/MLP/wieża architektury, kalibracja.
Polityka/Re-ranking: zasady/ograniczenia, dywersyfikacja, warstwa bandytów.
Orkiestra: żądanie idempotency, p95 latency ≤ 100-300 ms, DLQ/retray.
Obserwability: correlation _ id trace, PSI, quality metrics, stopcock.

11) Bezpieczeństwo, prywatność, etyka

Minimalizacja PII: tokenizacja, RLS/CLS, maskowanie.
Możliwość wyjaśnienia: najlepsze cechy/powody do pokazania; ścieżka odwoławcza.
Etyka/RG: czapki częstotliwości, „ciche godziny”, zakazy dotyczące agresywnych ofert ze strony słabszych grup.
Zgodność: audyt decyzji/dzienników, wersje polityk i twórców.

12) Paszporty i tabele decyzji

Certyfikat referencyjny (przykład)

ID/wersja: 'REC _ HYBRID _ RANK _ v5'

Przypomnij: ANN (osadzanie użytkownika/elementu), top-500

Ranker: LTR-GBM + MLP (funkcje: user RFM, item meta, context)

Zmiana rangi: PM-2 (różnorodność), kwoty marki, filtry RG, czapki częstotliwości

Bramki/wskaźniki: NDCG @ 10, eRPM, zhaloby ≤ Kh, opóźnienie p95 ≤ 150 ms

A/B: 14 dni, PUCHAR; poręcze - RG/wydajność

Właściciele/Rejestrowanie/Runibook

Tabela decyzji

Warunek	Kontekst	Działanie	Ograniczenia	Komentarz
'new _ user' & 'low _ history'	na pokładzie	popularny @ segment + nasiona oparte na treści	czapki częstotliwości, RG	zimny początek
'session _ len> 3' & 'diversity _ low'	sesja	ponowne zaszeregowanie w zakresie MMR	min 3 kategorie	serendipity
„uplift _ push ≥”	oferty	osobisty push	Do-Not-Disturb, zhaloby ≤ Kh	efekty, nie CTR

13) Kod pseudo (szkic)

A. Hybrydowe wycofanie + ranga + ponowna ranga

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling for Creatives

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diagnostyka i monitorowanie

Jakość: NDCG/Recall @ k, eRPM, zasięg/różnorodność, kalibracja.
Online: CTR/CTCVR, dochód/sesja, zatrzymanie, reklamacje/rezygnacje, opóźnienia/timeout.
Drift: PSI/KL według najważniejszych cech, kropla korelacji z layn na onlayn.
Ograniczenia: wypełnienie kwot/różnorodność, wpływ na filtry RG, pułapy częstotliwości.
Runibooks: recall degradation (ANN drop), wzrost reklamacji, gwałtowny wzrost czasu, awaryjny folback (popularne-safe).

15) Częste błędy

Optymalizacja „surowego CTR” zamiast przyrostu/wartości.
Nie ma warstwy ponownej klasyfikacji → skąpej odmiany, „tunel wzroku”.
Twarze z przyszłości, mieszanie TZ, niespójne definicje sygnału.
Brak kalibracji i progów → budżet i pułapy częstotliwości „pogarszają się”.
Ignorowanie RG/etyki i uczciwości → skargi, ryzyka, kwestie regulacyjne.
Funkcja online/offline non-synchron → awaria sprzedaży.

16) Lista kontrolna personalizacji przed zwolnieniem

Paszport modelowy (cele, ograniczenia, mierniki, właściciele, wersje)
Recall/Rank/Re-rank posted; ANN i bufory ocieplone
Cechy PIT i kalibracja, wskaźniki offline (NDCG/PR-AUC) przeszedł
Konstrukcja i szyny ochronne A/B; gotowe do podjęcia decyzji sprawozdanie
RG/Częstotliwość/Różnorodność/Ograniczenia kwot - Wdrożone i monitorowane
Obserwowalność, wpisy, stop-dźwig, folbacks (popularne-safe)
Dokumentacja i Runibooks, Plan poprawy przyrostowej

Razem

Modele personalizacji są skuteczne tylko jako system świadomy polityki: bogate dane i osadzanie → a Recall/Rank/Re-rank hybrid → bandyci/RL dla adaptacji online → cele wielozadaniowe dla ścisłych ograniczeń i etyki → zdyscyplinowane MLOp i monitorowania. Taki układ dostarcza nie tylko „rekomendacji”, ale także możliwych do opanowania rozwiązań, które zwiększają ROMI, LTV i satysfakcję - bezpiecznie, przejrzysto i powtarzalnie.

Modele personalizacji