추천 시스템

추천 시스템은 "CTR 모델" 만이 아닙니다. "이것은 실제 제약 (속도, 주파수 한도, 다양성, 윤리/준수) 하에서 증분 가치를 최적화하는 데이터 → 후보 → 순위 → 정책 → 행동, → 피드백의 파이프 라인입니다.

1) 데이터, 신호 및 표현

이벤트: 보기/클릭/추가/구매/예금, 체류 시간, 취소.
콘텐츠/카탈로그: 속성 (카테고리/장르/스튜디오/가격/신선도/변동성).
사용자 프로필: RFM, 환경 설정, 장치/채널, 타임 슬롯.
상황: 시간/일/공휴일/일치, 로케일/TZ, 디스플레이 사이트.
품질: 포인트 인 타임 레시피, 이벤트의 demotency, 데드 업/부팅 방지, PII 마스킹.
내장: 공유 공간의 사용자/항목/컨텍스트 (MF/Word2Vec2Rec/transformers), 멀티 모달 (텍스트/이미지).

2) 아키텍처: 리콜 → 순위 → 순위 변경 → 액션

1. 후보 리콜 (200-5000 후보): ANN (FAISS/ScaNN), 인기/트렌드, 규칙 기반 필터.
2. 랭킹 (20-200): LTR (GBM/NN), 타워 아키텍처, 이진/다중 대상 대상 (클릭, 변환, 값).
3. 정책 인식 재 순위 (최종 목록에서 5-30): 다양 화/참신/세렌디피티, 브랜드/카테고리 할당량, RG/준수, 주파수 한도, 공정성.
4. 액션: 쿨 다운 및 "조용한 시간" 이있는 쇼/푸시/전자 메일/개인 쇼케이스.
5. 피드백: 로그 '인상 → 클릭 → 동작 → 값', 부정적인 피드백 (건너 뛰기, 불만).

3) 모델 패러다임

콘텐츠 기반: IT 기능 및 프로필에 의한 근접성; 아이템의 콜드 스타트에 이상적입니다.
협업 필터링: 상호 작용 행렬 별 사용자 사용자/항목 항목.
인수 분해/임베딩: MF/BPR/NeuMF, 2 타워 MLP (사용자 타워 × 항목 타워).
순위별 학습: pairwise/listwise (LambdaMART, RankNet), NDCG 최적화 @ k.
세션/순차: GRU4Rec, SASRec, Transformers (T5 스타일) -세션의 순서/컨텍스트.
상황에 맞는 도적: 빠른 온라인 적응 및 크리에이티브를위한 LinUCB/Thompson.
RL: 다단계 상 (보존/LTV) 을위한 SlateQ/DQN/정책 그라디언트.
인과/향상 접근 방식: "원시 CTR" 이 아닌 증가를 고려한 권장 사항.

4) 작업의 목표, 제한 및 공식화

목표: CTR/CTCVR, 수익/마진/LTV, 보존, 만족, 속도.
제한: 다양 화, 제공자/카테고리 할당량, 주파수 한도, RG/준수, 공정성/윤리, SLA p95.

정책 인식 재 순위 (스칼라 화 예):

[
\ 텍스트 스타일 점수 =\알파\cdot\hat p _ {\텍스트 {클릭}} +\베타\cdot\텍스트 {가치}

\감마\도트\텍스트 {피로} +\델타\cdot\텍스트 {Novelty} -\sum _ j\lambda _ j\cdot\텍스트 {페널티} _ j
]

여기서 페널티는 할당량/RG/주파수/단조 위반입니다.

5) 측정 및 점수

오프라인

관련/순위: AUC/PR-AUC, 리콜 @ k, MAP, NDCG @ k.
비즈니스: eRPM/eCPM, proxy-LTV, 예상 마진.
교정: Brier, ECE (임계 값/정책에 중요).
다양성/다양성/참신/세렌디피티.

온라인

A/B/다중 라벨 테스트: CTR, CTCVR, 소득/세션, 보유, 불만/불만 (가드 레일), 대기 시간/시간 초과.
인과 평가: 제한된 무작위 화에서 CUPED, 준 실험 (DiD/합성 제어).
상승 지표: 치료 인식 권장 사항을위한 Qini/AUUC, uplift @ k.

6) 콜드 스타트와 드문 드문

새로운 사용자: 인기있는 @ 세그먼트, 컨텐츠 설문 조사, 첫 번째 클릭을 기반으로 한 컨텐츠, 광범위한 인텔리전스로 적재.
새로운 아이 템: 메타 데이터/텍스트 내장/이미지 + 스튜디오/카테고리 별 모양.
작은 도메인: 전학 학습, 다중 작업 (공유 타워), 도메인 간 증류.

7) 다각화, 참신, 세렌디피티

알고리즘: MMR, xQuAD, PM-2; 단조로운 벌금.
Quotas: 카테고리/브랜드/위험 클래스 별 최소/최대.
안정성 목록: 위치 관성, 히스테리시스 업데이트; 출력을 "플래시" 하지 마십시오.

8) 인프라 및 MLops

피처 스토어: PIT 레시피, 세션 기능을위한 TTL, 온라인/오프라인 패리티.
ANN 서비스: FAISS/ScaNN, 샤딩/캐시, 복제.
랭커: 실시간 기능, 교정, 버전 서명.
정책/순위 변경 계층: 한계/할당량/RG/주파수/다양성.
SLA: 엔드-투-엔드 p95 성능 저하시 대체 (인기 안전).
관찰 가능성: correlation _ id 추적, 기능 드리프트 (PSI), 온라인 품질 지표, 정지 크레인.

9) 보안, 개인 정보 보호, 윤리

PII 최소화, RLS/CLS, 마스킹.
디스플레이 전 RG/준수 필터, 주파수 캡, 조용한 시간.
세그먼트 별 공정성 진단; 쇼의 이유에 대한 설명; 항소의 길.

10) 의사 코드: 리콜 → 랭크 → 순위 하이브리드

python
Recall cand_emb = ann. recall(user_embed, topk=500)
cand_rule = popular. by_segment(user. segment, k=200)
cands = dedup(cand_emb + cand_rule)

Rank features = featurize(user, cands, context)   # user/item/context scores = ranker. predict(features)        # p(click), value

Policy-aware re-rank final = rerank(
cands, scores,
constraints=dict(
diversity_min={'category': 3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=get_user_caps(user)
),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

크리에이티브를위한 톰슨 샘플링 (스케치)

python beta priors per creative: (α, β)
samples = {cr: np. random. beta(alpha[cr], beta[cr]) for cr in creatives}
chosen = max(samples, key=samples. get)
show(chosen)
update(alpha, beta, reward=click)

11) 의사-SQL: 네거티브 피드백 및 주파수 캡

sql
-- Last show and "hide/complain" flags → 7-day bans
WITH last_impr AS (
SELECT user_id, item_id,
MAX(ts) AS last_ts,
BOOL_OR(feedback_hide) AS hidden,
BOOL_OR(feedback_report) AS reported
FROM impressions
GROUP BY 1,2
)
SELECT i.
FROM inventory i
LEFT JOIN last_impr l ON l. user_id=:uid AND l. item_id=i. item_id
WHERE COALESCE(l. hidden,false)=false
AND COALESCE(l. reported,false)=false
AND (l. last_ts IS NULL OR l. last_ts < NOW() - INTERVAL '7 day');

12) 결정표

상태	맥락	행동	제한 사항	코멘트
'New _ user & low _ history'	온 보딩	인기있는 @ segment + 컨텐츠 시드	주파수 캡, RG	콜드 스타트
'setion _ len> 3 & diversity _ low'	세션	MMR/xQuAD 재 순위	최소 3 범주	세렌디피티
'uplift _ push	제안	개인적인 추진	Do-Not-Disturb, zhaloby	CTR이 아닌 증분
'risk _ RG 계정'	모든 것	위험 콘텐츠 차단	RG/준수	안전

13) 반 패턴

증분 및 값 대신 "원시 CTR" 최적화.
레이어의 순위 부족 → 초과 단조, "비전 터널".
미래의 얼굴; 혼합 TZ; 정통하지 않은 신호 정의.
확률의 교정 → 잘못된 임계 값/정책.
RG/윤리/공정성 → 불만/위험/벌금을 무시하십시오.
온라인/오프라인 비 동기화 기능 및 지표 - 음식의 "단점".
대체 및 정지 밸브가 없습니다.

14) 추천 출시 점검표

시스템 여권-목표, 제한, 지표, 소유자, 버전
리콜/랭크/재 랭크 이혼; ANN이 워밍업, 캐시 구성
PIT 기능, 교정, 오프라인 벤치 마크 (NDCG/PR-AUC) 통과
A/B 디자인 및 가드 레일; 의사 결정 준비 보고서
제한: 다양성/할당량/RG/주파수 캡-구현 및 모니터링
SLA p95, 흔적, 경고, 크레인 정지 및 인기있는 안전 대체
문서, 런북, 증분 개선 계획

합계

강력한 추천 시스템은 정책 인식 파이프 라인입니다. 속도, 윤리 및 다양성 제약 하에서 증분 가치를 최적화하는 하이브리드 리콜/랭크/순위. 온라인 적응, MLops 징계 및 올바른 인과 평가를 위해 도적/RL을 추가함으로써 "목록을위한 목록" 이 아니라 ROMI, LTV 및 사용자 만족도를 높이는 솔루션을 안정적이고 안전하게 관리합니다.

추천 시스템

추천 시스템

온라인

크리에이티브를위한 톰슨 샘플링 (스케치)

합계

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다