Personallaşdırma modelləri

Personalizasiya modelləri

Personalizasiya - bu sistem, burada məlumatlar → modellər → nümayiş siyasəti → fəaliyyət → rəy. Məqsəd məhdudiyyətlərə (etika/RG, tezlik qapaqları, müxtəliflik, təravət, SLA) riayət etməklə artıqlıq dəyərini (gəlir/saxlama/məmnunluq) maksimuma çatdırmaqdır.

1) Məlumatlar və təqdimatlar

Xammal: hadisələr (baxışlar/klik/oyunlar/alış/depozitlər), məzmun kataloqu (atributlar), xüsusi profillər, kontekst (vaxt/geo/cihaz/kanal), keyfiyyət siqnalları (bot/frod).

Fiçi:

User: RFM, kateqoriya üstünlükləri, qiymət həssaslığı, günün vaxtı, cihaz.
Item: janr/kateqoriya, studiya/provayder, dil, qiymət/dəyişkənlik, «təravət».
Context: dow/hod, promo/tədbirlər, sessiya, giriş kanalı.
Embeddinq: user/item (MF/Word2Vec2Rec/transformers), multimodal (mətn/görüntü) birgə məkanları.
Keyfiyyət: point-in-time (like olmadan), UTC-time, hadisələrin idempotentliyi, PII maskalanması.

2) Əsas paradiqmalar

1. Content-based - aytem və istifadəçi profilinə görə yaxınlıq.
2. Əməkdaşlıq filtrasiyası (CF) - qarşılıqlı əlaqə siqnalları üzrə oxşar istifadəçilər/aytemlər.
3. Matrix faktorizasiyası/embeddingi - gizli amillər, score üçün dot-product/MLP.
4. Learning-to-Rank (LTR) - siyahıların (pairwise/listwise) sıralanması üçün qradiyent gücləndirici/neyron şəbəkəsi.
5. Re-ranking təbəqəsi - diversifikasiya/yenilik/məhdudiyyətlər nəzərə alınmaqla post-processing.
6. Kontekst quldurlar - exploration-exploitation ilə onlayn təlim.
7. RL/seq-tövsiyələr - yol/sessiyanın optimallaşdırılması (çox addımlı mükafat).

3) Qərar qəbul edən konveyer

1. Recall (namizədlərin sürətli seçimi, 200-5k): ANN embeddinq, qaydalar-base/kateqoriya, populyarlıq.
2. Rank (dəqiq skorinq, 20-200): Zəngin xüsusiyyətləri olan LTR/MLP.
3. Re-rank/Policy (fin. siyahısı, 5-30): çoxməqsədli optimallaşdırma + məhdudiyyətlər və diversifikasiya.
4. Action :/push/e-mail/kaps və «sakit saat» ilə şəxsi vitrin.
5. Feedback: implicit/explicit siqnalları → yenidən təlim/quldur yeniləmə.

4) Çox məqsədli hədəflər və məhdudiyyətlər

Məqsədlər: CTR/CTCVR, saxlama, gəlir, marja, LTV, məmnunluq, sürət.
Məhdudiyyətlər: əlaqə tezliyi, RG/komplayens, kateqoriya müxtəlifliyi, marka/provayder kvotaları, fairness.

Sözlər:

[
\max \sum_i w_i \cdot \text{Objective}_i \quad
\text{s. t. } \text{caps, RG, diversity, SLA}
]

Practice: qaydalarla birləşdirilmiş sürətin olduğu ranking policy-aware (bax § 7).

5) Soyuq başlanğıc və kiçik məlumatlar

Yeni istifadəçilər: seqment/kanal/geo populyarlıq, anket/ilk klik məzmun based, geniş kəşfiyyat quldur.
Yeni aytemlər: məzmun embeddingi (mətn/tags), metadata, provayder/janr üzrə «look-alike».
Few-shot: embeddinq köçürülməsi/multi-tapşırıq (shared tower).

6) Qiymətləndirmə metrikası

Offline

Təsnifat/sıralama: AUC/PR-AUC, NDCG @k, MAP, Recall @k.
Biznes: eCPM/eRPM, gözlənilən gəlir/marja, LTV proxy.
Çox məqsədli: balanslı metriklər (məsələn, NDCG ilə gain = dəyər).
Kalibrləmə: Brier, ECE (ehtimal üçün).
Списки: coverage/diversity/novelty/serendipity.

Online

A/B və quldur testləri: CTR, CTCVR, gəlir/seans, D1/D7 saxlama, şikayətlər/cavablar (guardrails), latency/SLA.
Increment: lift%, CUPED/kvaziexperiments mürəkkəb randomization ilə.

7) Diversifikasiya və policy-aware re-ranking

MMR/PM-2/xQuAD: «uyğunluq × yenilik» balansı.
Kvotalar: janrlar/provayderlər/risk kateqoriyaları üzrə min/max.
Fairness: sistemli qüsurların qarşısını almaq üçün səhmlərin məhdudlaşdırılması.

Skorinq nümunəsi:

[
\textstyle \text{Score} = \alpha \cdot \hat{p}_{\text{click}} + \beta \cdot \text{Value} - \gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty}
]

Histeresis: siyahıları «yanıb-sönməyin»; ətalətlə mövqeləri yeniləyin.

8) Kontekst quldurlar və RL

Quldurlar (LinUCB, Thompson): sürətli online təhsil, nəzarət exploration. Birinci mövqe/yaradıcı/kanal üçün yaxşıdır.
Kaskad quldurlar: optimallaşdırma top-k.
RL (DQN/Policy Gradient/SlateQ): sessiya personalizasiyası, çoxaddımlı mükafatın optimallaşdırılması (geri/gəlir/uzun sessiya).
Təhlükəsizlik: off-polis qiymətləndirilməsi (IPS/DR), simulyatorlar, tədqiqat üçün kaps, safe RL.

9) səbəb təsiri altında personalizasiya

Uplift modelləri: kimə toxunmaq lazımdır (persuadables), Qini/AUUC, uplift @k.
Treatment-aware sıralama: «xam» CTR əvəzinə inkrement ehtimalını daxil edin.
Guardrails: Do-Not-Disturb seqmentləri, RG qaydaları, fairness.

10) Memarlıq və MLOps

Feature Store: online/offline paritet, point-in-time, seans üçün TTL.
Candidate services: ANN/FAISS/ScaNN, seqmentlər üzrə caching/charding.
Ranker: qradiyent gücləndirici/MLP/Tower-memarlıq, kalibrləmə.
Policy/Re-rank: qaydalar/məhdudiyyətlər, diversifikasiya, quldur təbəqəsi.
Orkestr: sorğuların idempotentliyi, p95 latency ≤ 100-300 ms, DLQ/retray.
Müşahidə: trass 'correlation _ id', fich-drift (PSI), keyfiyyət metrikası, «stop-kran».

11) Təhlükəsizlik, məxfilik, etika

PII-minimallaşdırma: tokenizasiya, RLS/CLS, maskalama.
Açıqlanabilirlik: top-features/göstərilmə səbəbləri; apellyasiya yolu.
Etika/RG: tezlik qapaqları, «sakit saatlar», həssas qruplarda aqressiv offerlərə qadağalar.
Komplayens: həllərin/loqların auditi, siyasətlərin və yaradıcılığın versiyaları.

12) Pasport və decision tables

Tövsiyəçi pasportu (nümunə)

ID/versiyası: 'REC _ HYBRID _ RANK _ v5'

Recall: ANN (user/item embeddings), top-500

Ranker: LTR-GBM + MLP (features: user RFM, item meta, context)

Re-rank: PM-2 (diversity), marka kvotaları, RG-filtrlər, tezlik qapaqları

Məqsədlər/metriklər: NDCG @ 10, eRPM, şikayətlər ≤ X, latency p95 ≤ 150 ms

A/B: 14 gün, CUPED; guardrails - RG/çatdırılma

Sahibləri/Loging/Runibook

Decision table (eskiz)

Şərt	Kontekst	Fəaliyyət	Məhdudiyyətlər	Şərh
`new_user` & `low_history`	Onbordinq	popular@segment + content-based seed	tezlik qapaqları, RG	soyuq başlanğıc
`session_len>3` & `diversity_low`	sessiya	re-rank с MMR	min 3 kateqoriyalar	serendiplik
`uplift_push≥τ`	offerlər	şəxsi push	Do-Not-Disturb, şikayətlər ≤ X	effektləri, CTR deyil

13) Psevdo-kod (eskiz)

A. Hibrid recall + rank + re-rank

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. Thompson Sampling yaradıcılıq üçün

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) Diaqnostika və monitorinq

Keyfiyyət: NDCG/Recall @k, eRPM, coverage/diversity, kalibrləmə.
Online: CTR/CTCVR, gəlir/seans, saxlama, şikayətlər/cavablar, latency/timeout.
Drift: PSI/KL açar fiqurları üzrə, onlayn olaraq offline korrelyasiya düşməsi.
Məhdudiyyətlər: kvota/diversity yerinə yetirilməsi, RG filtrlərinə zərbələr, tezlik qapaqları.
Runibook: recall deqradasiyası (ANN-in düşməsi), şikayətlərin artması, vaxtların artması, qəza artımı (popular-safe).

15) Tez-tez səhvlər

Inkrement/dəyər əvəzinə «xam CTR» optimallaşdırılması.
Re-ranking qat → cüzi müxtəliflik, «görmə tuneli» yoxdur.
Gələcəyin üzləri, TZ qarışdırılması, razılaşdırılmamış siqnallar.
Kalibrləmə və eşiklərin olmaması → büdcə və tezlik qapaqlarını «korlayır».
Ignor RG/etika və fairness → şikayətlər, risklər, tənzimləyici problemlər.
Nesinxron online/offline → prod uğursuzluq.

16) Fərdiləşdirmədən əvvəl çek siyahısı

Model pasportu (məqsədlər, məhdudiyyətlər, metriklər, sahiblər, versiyalar)
Recall/Rank/Re-rank dağıdıldı; ANN və caches qızdırılır
PIT Ficks və Kalibrləmə, Offline Benchmark (NDCG/PR-AUC) keçdi
A/B-dizayn və guardrails; decision-ready hesabatı (effekt və risklər)
Məhdudiyyətlər: RG/tezlik/diversity/kvotalar - tətbiq və monitorinq
Müşahidə, alert, «stop-kran», folbeklər (popular-safe)
Sənədləşmə və Runibook, Artımlı Təkmilləşdirmə Planı

Yekun

Personalizasiya modelləri yalnız policy-aware sistemi kimi effektivdir: zəngin məlumatlar və embeddinq → hibrid Recall/Rank/Re-rank → onlayn adaptasiya üçün quldurlar/RL → sərt məhdudiyyətlər və etika altında çox məqsədli hədəflər → intizamlı MLOps və monitorinq. Bu konturda yalnız «tövsiyələr» deyil, ROMI, LTV və məmnunluğu artıran idarə olunan həllər - təhlükəsiz, şəffaf və təkrar edilə bilər.

Personallaşdırma modelləri

Personalizasiya modelləri

Online

Decision table (eskiz)

B. Thompson Sampling yaradıcılıq üçün

Yekun

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq