Personallaşdırma modelləri
Personalizasiya modelləri
Personalizasiya - bu sistem, burada məlumatlar → modellər → nümayiş siyasəti → fəaliyyət → rəy. Məqsəd məhdudiyyətlərə (etika/RG, tezlik qapaqları, müxtəliflik, təravət, SLA) riayət etməklə artıqlıq dəyərini (gəlir/saxlama/məmnunluq) maksimuma çatdırmaqdır.
1) Məlumatlar və təqdimatlar
Xammal: hadisələr (baxışlar/klik/oyunlar/alış/depozitlər), məzmun kataloqu (atributlar), xüsusi profillər, kontekst (vaxt/geo/cihaz/kanal), keyfiyyət siqnalları (bot/frod).
Fiçi:- User: RFM, kateqoriya üstünlükləri, qiymət həssaslığı, günün vaxtı, cihaz.
- Item: janr/kateqoriya, studiya/provayder, dil, qiymət/dəyişkənlik, «təravət».
- Context: dow/hod, promo/tədbirlər, sessiya, giriş kanalı.
- Embeddinq: user/item (MF/Word2Vec2Rec/transformers), multimodal (mətn/görüntü) birgə məkanları.
- Keyfiyyət: point-in-time (like olmadan), UTC-time, hadisələrin idempotentliyi, PII maskalanması.
2) Əsas paradiqmalar
1. Content-based - aytem və istifadəçi profilinə görə yaxınlıq.
2. Əməkdaşlıq filtrasiyası (CF) - qarşılıqlı əlaqə siqnalları üzrə oxşar istifadəçilər/aytemlər.
3. Matrix faktorizasiyası/embeddingi - gizli amillər, score üçün dot-product/MLP.
4. Learning-to-Rank (LTR) - siyahıların (pairwise/listwise) sıralanması üçün qradiyent gücləndirici/neyron şəbəkəsi.
5. Re-ranking təbəqəsi - diversifikasiya/yenilik/məhdudiyyətlər nəzərə alınmaqla post-processing.
6. Kontekst quldurlar - exploration-exploitation ilə onlayn təlim.
7. RL/seq-tövsiyələr - yol/sessiyanın optimallaşdırılması (çox addımlı mükafat).
3) Qərar qəbul edən konveyer
1. Recall (namizədlərin sürətli seçimi, 200-5k): ANN embeddinq, qaydalar-base/kateqoriya, populyarlıq.
2. Rank (dəqiq skorinq, 20-200): Zəngin xüsusiyyətləri olan LTR/MLP.
3. Re-rank/Policy (fin. siyahısı, 5-30): çoxməqsədli optimallaşdırma + məhdudiyyətlər və diversifikasiya.
4. Action :/push/e-mail/kaps və «sakit saat» ilə şəxsi vitrin.
5. Feedback: implicit/explicit siqnalları → yenidən təlim/quldur yeniləmə.
4) Çox məqsədli hədəflər və məhdudiyyətlər
Məqsədlər: CTR/CTCVR, saxlama, gəlir, marja, LTV, məmnunluq, sürət.
Məhdudiyyətlər: əlaqə tezliyi, RG/komplayens, kateqoriya müxtəlifliyi, marka/provayder kvotaları, fairness.
[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]
Practice: qaydalarla birləşdirilmiş sürətin olduğu ranking policy-aware (bax § 7).
5) Soyuq başlanğıc və kiçik məlumatlar
Yeni istifadəçilər: seqment/kanal/geo populyarlıq, anket/ilk klik məzmun based, geniş kəşfiyyat quldur.
Yeni aytemlər: məzmun embeddingi (mətn/tags), metadata, provayder/janr üzrə «look-alike».
Few-shot: embeddinq köçürülməsi/multi-tapşırıq (shared tower).
6) Qiymətləndirmə metrikası
Offline
Təsnifat/sıralama: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Biznes: eCPM/eRPM, gözlənilən gəlir/marja, LTV proxy.
Çox məqsədli: balanslı metriklər (məsələn, NDCG ilə gain = dəyər).
Kalibrləmə: Brier, ECE (ehtimal üçün).
Списки: coverage/diversity/novelty/serendipity.
Online
A/B və quldur testləri: CTR, CTCVR, gəlir/seans, D1/D7 saxlama, şikayətlər/cavablar (guardrails), latency/SLA.
Increment: lift%, CUPED/kvaziexperiments mürəkkəb randomization ilə.
7) Diversifikasiya və policy-aware re-ranking
MMR/PM-2/xQuAD: «uyğunluq × yenilik» balansı.
Kvotalar: janrlar/provayderlər/risk kateqoriyaları üzrə min/max.
Fairness: sistemli qüsurların qarşısını almaq üçün səhmlərin məhdudlaşdırılması.
[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]
Histeresis: siyahıları «yanıb-sönməyin»; ətalətlə mövqeləri yeniləyin.
8) Kontekst quldurlar və RL
Quldurlar (LinUCB, Thompson): sürətli online təhsil, nəzarət exploration. Birinci mövqe/yaradıcı/kanal üçün yaxşıdır.
Kaskad quldurlar: optimallaşdırma top-k.
RL (DQN/Policy Gradient/SlateQ): sessiya personalizasiyası, çoxaddımlı mükafatın optimallaşdırılması (geri/gəlir/uzun sessiya).
Təhlükəsizlik: off-polis qiymətləndirilməsi (IPS/DR), simulyatorlar, tədqiqat üçün kaps, safe RL.
9) səbəb təsiri altında personalizasiya
Uplift modelləri: kimə toxunmaq lazımdır (persuadables), Qini/AUUC, uplift @k.
Treatment-aware sıralama: «xam» CTR əvəzinə inkrement ehtimalını daxil edin.
Guardrails: Do-Not-Disturb seqmentləri, RG qaydaları, fairness.
10) Memarlıq və MLOps
Feature Store: online/offline paritet, point-in-time, seans üçün TTL.
Candidate services: ANN/FAISS/ScaNN, seqmentlər üzrə caching/charding.
Ranker: qradiyent gücləndirici/MLP/Tower-memarlıq, kalibrləmə.
Policy/Re-rank: qaydalar/məhdudiyyətlər, diversifikasiya, quldur təbəqəsi.
Orkestr: sorğuların idempotentliyi, p95 latency ≤ 100-300 ms, DLQ/retray.
Müşahidə: trass 'correlation _ id', fich-drift (PSI), keyfiyyət metrikası, «stop-kran».
11) Təhlükəsizlik, məxfilik, etika
PII-minimallaşdırma: tokenizasiya, RLS/CLS, maskalama.
Açıqlanabilirlik: top-features/göstərilmə səbəbləri; apellyasiya yolu.
Etika/RG: tezlik qapaqları, «sakit saatlar», həssas qruplarda aqressiv offerlərə qadağalar.
Komplayens: həllərin/loqların auditi, siyasətlərin və yaradıcılığın versiyaları.
12) Pasport və decision tables
Tövsiyəçi pasportu (nümunə)
ID/versiyası: 'REC _ HYBRID _ RANK _ v5'
Recall: ANN (user/item embeddings), top-500
Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)
Re-rank: PM-2 (diversity), marka kvotaları, RG-filtrlər, tezlik qapaqları
Məqsədlər/metriklər: NDCG @ 10, eRPM, şikayətlər ≤ X, latency p95 ≤ 150 ms
A/B: 14 gün, CUPED; guardrails - RG/çatdırılma
Sahibləri/Loging/Runibook
Decision table (eskiz)
13) Psevdo-kod (eskiz)
A. Hibrid recall + rank + re-rank
python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)
Rank features = featurize(user, cands, context) # user/item/context scores = ranker. predict(features) # CTR/Value score
Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]
B. Thompson Sampling yaradıcılıq üçün
python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)
14) Diaqnostika və monitorinq
Keyfiyyət: NDCG/Recall @k, eRPM, coverage/diversity, kalibrləmə.
Online: CTR/CTCVR, gəlir/seans, saxlama, şikayətlər/cavablar, latency/timeout.
Drift: PSI/KL açar fiqurları üzrə, onlayn olaraq offline korrelyasiya düşməsi.
Məhdudiyyətlər: kvota/diversity yerinə yetirilməsi, RG filtrlərinə zərbələr, tezlik qapaqları.
Runibook: recall deqradasiyası (ANN-in düşməsi), şikayətlərin artması, vaxtların artması, qəza artımı (popular-safe).
15) Tez-tez səhvlər
Inkrement/dəyər əvəzinə «xam CTR» optimallaşdırılması.
Re-ranking qat → cüzi müxtəliflik, «görmə tuneli» yoxdur.
Gələcəyin üzləri, TZ qarışdırılması, razılaşdırılmamış siqnallar.
Kalibrləmə və eşiklərin olmaması → büdcə və tezlik qapaqlarını «korlayır».
Ignor RG/etika və fairness → şikayətlər, risklər, tənzimləyici problemlər.
Nesinxron online/offline → prod uğursuzluq.
16) Fərdiləşdirmədən əvvəl çek siyahısı
- Model pasportu (məqsədlər, məhdudiyyətlər, metriklər, sahiblər, versiyalar)
- Recall/Rank/Re-rank dağıdıldı; ANN və caches qızdırılır
- PIT Ficks və Kalibrləmə, Offline Benchmark (NDCG/PR-AUC) keçdi
- A/B-dizayn və guardrails; decision-ready hesabatı (effekt və risklər)
- Məhdudiyyətlər: RG/tezlik/diversity/kvotalar - tətbiq və monitorinq
- Müşahidə, alert, «stop-kran», folbeklər (popular-safe)
- Sənədləşmə və Runibook, Artımlı Təkmilləşdirmə Planı
Yekun
Personalizasiya modelləri yalnız policy-aware sistemi kimi effektivdir: zəngin məlumatlar və embeddinq → hibrid Recall/Rank/Re-rank → onlayn adaptasiya üçün quldurlar/RL → sərt məhdudiyyətlər və etika altında çox məqsədli hədəflər → intizamlı MLOps və monitorinq. Bu konturda yalnız «tövsiyələr» deyil, ROMI, LTV və məmnunluğu artıran idarə olunan həllər - təhlükəsiz, şəffaf və təkrar edilə bilər.