Сунуш системалары

Сунуш системасы "CTR модели" гана эмес. Бул конвейер маалыматтар → талапкерлер → ранжирлөө → саясат → иш-аракет → реалдуу чектөөлөрдүн астында инкременталдык баалуулукту оптималдаштыруу (ылдамдык, жыштык, ар түрдүүлүк, этика/комплаенс).

1) Маалыматтар, сигналдар жана түшүнүктөр

Events: Views/Click/кошуу/сатып алуу/депозиттер, dwell-time, жокко чыгаруу.
Контент/каталог: атрибуттар (категориялар/жанрлар/студиялар/баа/жаңылык/туруксуздук).
Колдонуучунун профилдери: RFM, артыкчылык, түзмөктөр/каналдар, тайм-слоттор.
Контекст: саат/күн/майрам/дан, жергиликтүү/TZ, көргөзмө аянтчасы.
Сапаты: пункту-жылы-убакыт Recipes, иш-чаралар, дедуп/antibot, PII маскировка.
Эмбеддинг: жалпы мейкиндикте user/item/context (MF/Word2Vec2Rec/transformers), multimodal (текст/сүрөттөр).

2) Архитектура: Recall → Rank → Re-rank → Action

1. Candidate кайра (200-5000 талапкер): ANN (FAISS/ScaNN), популярдуулугу/тренддер, rule-негизделген чыпкалар.
2. Ranking (20-200): LTR (GBM/NN), Tower-архитектура, экилик/көп максаттуу (click, conversion, value).
3. Policy-aware re-rank (жыйынтыктоочу тизмеде 5-30): диверсификация/жаңылык/серендиптүүлүк, бренддердин/категориялардын квоталары, RG/комплаенс, жыштык капкактары, fairness.
4. Action :/push/e-mail/кулдауналар жана "тынч саат" менен жеке терезе.
5. Feedback: лог 'impression → click → action → value', терс пикир (skip, даттануу).

3) Моделдик парадигмалар

Content-based: айтемдин жана профилдин белгилери боюнча жакындыгы; айтемдердин муздак башталышы үчүн идеалдуу.
Биргелешип чыпкалоо: user-user/item-item өз ара матрица боюнча.
Факторизация/эмбеддинг: MF/BPR/NeuMF, эки мунаралуу MLP (колдонуучу tower × item tower).
Learning-to-Rank: pairwise/listwise (LambdaMART, RankNet), NDCG оптималдаштыруу @k.
Сессия/ырааттуу: GRU4Rec, SASRec, Transformers (T5-style) - тартиби/сессиясынын контекстинде.
Контексттик бандиттер: LinUCB/Томпсон үчүн тез онлайн адаптация жана чыгармачылык.
RL: SlateQ/DQN/Policy Gradient үчүн көп кадам сыйлык (сактоо/LTV).
Каузалдык/uplift-ыкмалары: "чийки CTR" эмес, өсүштү эске алуу менен сунуштар.

4) Милдеттердин максаттары, чектөөлөрү жана формулировкасы

Максаттары: CTR/CTCVR, киреше/маржа/LTV, сактоо, канааттануу, ылдамдык.
Чектөөлөр: диверсификация, провайдерлердин/категориялардын квоталары, жыштык капкактары, RG/комплаенс, fairness/этика, SLA p95.

Policy-aware re-rank (скаляризациянын мисалы):

[
\textstyle Score = \alpha \cdot \hat p_{\text{click}} + \beta \cdot \text{Value}

\gamma \cdot \text{Fatigue} + \delta \cdot \text{Novelty} - \sum_j \lambda_j \cdot \text{Penalty}_j
]

бул жерде жаза - квота/RG/жыштык/бир калыпта бузуу.

5) Метрика жана баалоо

Оффлайн

Тиешелүү/рейтинги: AUC/PR-AUC, Recall @k, MAP, NDCG @k.
Бизнес: eRPM/eCPM, прокси-LTV, күтүлгөн маржа.
Калибрлөө: Brier, ECE (босоголор/саясат үчүн маанилүү).
Списки: coverage/diversity/novelty/serendipity.

Онлайн

A/B/көп кырдуу тесттер: CTR, CTCVR, киреше/сессия, кармап туруу, даттануулар/жооптор (guardrails), latency/timeout.
Каузалдык баалоо: CUPED, квазиэксперименттер (DiD/синтетикалык көзөмөл) чектелген рандомизация менен.
Uplift-метрика: Qini/AUUC, uplift @k - treatment-aware сунуштар үчүн.

6) муздак баштоо жана сейрек

Жаңы колдонуучулар: популярдуу @segment, мазмун сурамжылоо, биринчи чыкылдатуу боюнча мазмун based, кенен чалгындоо менен бандит.
Жаңы айтемалар: мета-маалыматтар/тексттик эмбеддингдер/сүрөттөр + студия/категория боюнча look-alike.
Чакан домендер: transfer learning, multi-task (shared tower), cross-domain distillation.

7) Ар түрдүүлүк, жаңылык, серендүүлүк

Алгоритмдер: MMR, xQuAD, PM-2; бир түрдүүлүк үчүн айып пул.
Квоталар: категориялар/бренддер/тобокелдик класстары боюнча min/max.
Тизмелердин туруктуулугу: позициялардын инерциясы, жаңылануу гистерезиси; берүү менен "жарк этпеңиз".

8) Инфраструктура жана MLOps

Feature Store: PIT Recipes, TTL үчүн сессия, онлайн/оффлайн паритет.
ANN кызматтары: FAISS/ScaNN, шардинг/кэш, репликация.
Ranker: реалдуу убакыт Fich, калибрлөө, кол чыгаруу.
Policy/Re-rank катмары: чектөөлөр/квота/RG/жыштык/ар түрдүү.
SLA: end-to-end p95 ≤ 100–300 мс; деградация учурунда fallback (popular-safe).
Байкоо: tracking 'correlation _ id', fich-drift (PSI), онлайн сапат метриктер, "stop-кран".

9) Коопсуздук, купуялык, этика

PII минималдаштыруу, RLS/CLS, жашыруу.
RG/комплаенс-чыпкалар көрсөтүүгө чейин, жыштык, "тынч саат".
сегменттер боюнча Fairness диагностика; көрсөтүү себептерин түшүндүрүү; даттануу жолу.

10) Псевдо-код: гибрид Recall → Rank → Re-rank

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

Thompson Sampling үчүн чыгармачылык (эскиз)

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11) Pseudo-SQL: терс пикир жана жыштык капка

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12) Decision стол (саясат эскиз)

Шарт	Контекст	Иш-аракет	Чектөөлөр	Комментарий
`new_user & low_history`	Онбординг	popular@segment + content-seed	Cap жыштык, RG	муздак баштоо
`session_len>3 & diversity_low`	сессия	MMR/xQuAD re-rank	min 3 категориялары	Серендүүлүк
`uplift_push≥τ`	Оффералар	жеке бош	Do-Not-Disturb, даттануулар ≤ X	инкремент, CTR эмес
`risk_RG≥τ`	ар кандай	тобокелдик мазмуну	RG/комплаенс	коопсуздук

13) Анти-үлгүлөрү

Инкременттин жана баалуулуктун ордуна "чийки CTR" оптималдаштыруу.
Re-rank катмарынын жоктугу → ашыкча монотондук, "көрүү туннели".
Келечектен келген жүздөр; аралаштыруу TZ; сигнал аныктамалары.
Жок калибрлөө ыктымалдыгы → туура эмес босоголор/саясат.
Ignor RG/этика/fairness → даттануулар/тобокелдиктер/айып.
Онлайн/оффлайн Рассинхрон fich жана метрик - "төмөндөө".
fallback жана "stop-кран" жок.

14) Check-list ишке киргизүү сунуш

Паспорт системасы: максаттары, чектөөлөр, метрика, ээлери, нускалары
Recall/Rank/Re-rank ажырашып кеткен; ANN жылытуу, кэш орнотулган
PIT чүчүкулак, калибрлөө, оффлайн чүчүкулак (NDCG/PR-AUC) өттү
A/B-дизайн жана guardrails; decision-ready отчет (таасири/тобокелдиктер)
Чектөөлөр: Diversity/квота/RG/жыштык Cap - ишке ашырылган жана мониторинг
SLA p95, Tracking, Алерт, "stop-кран" жана popular-safe fallback
Документация, Рунибуки, инкременталдык жакшыртуу планы

Жыйынтык

Күчтүү сунуш системасы policy-aware конвейер болуп саналат: ылдамдык, этика жана ар түрдүүлүк чектөөлөрү астында инкременталдык баалуулукту оптималдаштыруучу гибриддик Recall/Rank/Re-rank. онлайн ылайыкташуу үчүн бандиттерди/RL кошуу, MLOps тартип жана туура Cauzal баа, сиз "тизмелер үчүн тизмелерди" жана ROMI, LTV жана пайдалануучулардын канааттануу жогорулатуу башкарылуучу чечимдерди алуу - туруктуу жана коопсуз.

Сунуш системалары