개인화 모델

개인화는 데이터 → 모델 → 표시 정책 → 행동 → 피드백을 나타내는 시스템입니다. 목표는 제약 조건 (윤리/RG, 빈도 상한, 다양성, 신선도, SLA) 을 충족하면서 증분 가치 (소득/유지/만족) 를 극대화하는 것입니다.

1) 데이터 및보기

원시 자료: 이벤트 (보기/클릭/게임/구매/예금), 컨텐츠 카탈로그 (속성), 사용자 프로필, 컨텍스트 (시간/지리/장치/채널), 품질 신호 (봇/사기).

공상 과학:

사용자: RFM, 범주 환경 설정, 가격 감도, 시간, 장치.
항목: 장르/카테고리, 스튜디오/제공자, 언어, 가격/변동성, "신선도".
맥락: dow/hod, 프로모션/이벤트, 세션, 로그인 채널.
내장: 사용자/항목 협업 공간 (MF/Word2Vec2Rec/transformers), 복합 모달 (텍스트/이미지).
품질: 포인트 인 타임 (얼굴없이), UTC 타임, 이벤트의 dempotence, PII 마스킹.

2) 기본 패러다임

1. 콘텐츠 기반-주소 및 사용자 프로필의 속성에 따른 근접성.
2. 협업 필터링 (CF) - 상호 작용 신호를 기반으로하는 유사한 사용자/aytems.
3. 매트릭스 인수 분해/임베딩-숨겨진 요소, 내적/MLP 점수.
4. LTR (Learning-to-Rank) -순위 목록을위한 그라디언트 부스팅/신경망 (쌍별/목록).
5. 다각화/참신/제한을 고려하여 계층의 재 순위 - 처리 후.
6. 상황에 맞는 도적-탐사 탐사를 통한 온라인 학습.
7. RL/seq 권장 사항-경로/세션 최적화 (다단계 상).

3) 결정 파이프 라인

1. 리콜 (빠른 후보 선택, 200-5k): 임베딩, 규칙 기반/범주, 인기에 의한 ANN.
2. 순위 (정확한 점수, 20-200): 풍부한 기능을 갖춘 LTR/MLP.
3. 재 순위/정책 (최종 목록, 5-30): 다목적 최적화 + 제약 조건 및 다양 화.
4. 액션: 입 가드와 "조용한 시계" 가있는 쇼/푸시/전자 메일/개인 쇼케이스.
5. 피드백: 암시 적/명시 적 신호 → 재교육/적재 업데이트.

4) 다목적 목표 및 제한

목표: CTR/CTCVR, 보존, 수익, 마진, LTV, 만족, 속도.
제한 사항: 연락 빈도, RG/준수, 다양한 범주, 브랜드/제공자 할당량, 공정성.

단어:

[
\ max\sum _ i w _ i\cdot\텍스트 {Objective} _ i\quad
\ 텍스트 {s. t. }\텍스트 {caps, RG, 다양성, SLA}
]

실습: 속도가 규칙과 결합 된 정책 인식 재 순위 (§ 7 참조) 를 수행하십시오.

5) 콜드 스타트 및 소규모 데이터

새로운 사용자: 세그먼트/채널/지오에 의한 인기, 설문지/첫 클릭에 의한 컨텐츠 기반, 광범위한 지능을 갖춘 산적.
새로운 aitems: 컨텐츠 포함 (텍스트/태그), 메타 데이터, 제공자/장르별 "모양".
몇 번의 샷: 전송/공유 타워 포함.

6) 점수 측정 항목

오프라인

분류/순위: AUC/PR-AUC, NDCG @ k, MAP, Recall @ k.
비즈니스: eCPM/eRPM, 예상 수익/마진, LTV 프록시.
다목적: 가중 지표 (예: 이득 = 값을 갖는 NDCG).
교정: Brier, ECE (확률).
다양성/다양성/참신/세렌디피티.

온라인

A/B 및 산적 테스트: CTR, CTCVR, 소득/세션, D1/D7 보유, 불만/가입 (가드 레일), 대기 시간/SLA.
증가: 복잡한 무작위 화에서 상승%, CUPED/준 실험.

7) 다각화 및 정책 인식 재 순위

MMR/PM-2/xQuAD: "관련 × 참신" 의 균형.
Quotas: 장르/제공자/위험 범주별 최소/최대.
공정성: 체계적인 왜곡을 피하기 위해 주식을 제한합니다.

채점 예:

[
\ 텍스트 스타일\텍스트 {점수} =\알파\cdot\hat {p} _ {\텍스트 {클릭} +\베타\cdot\텍스트 {Value} -\감마\cdot\텍스트 {피로} +\delta\cdot\텍스트 {Novelty}
]

히스테리시스: 목록을 "깜박이지" 않습니다. 관성으로 항목을 업데이트하십시오.

8) 상황에 맞는 도둑과 RL

Bandits (LinUCB, Thompson): 빠른 온라인 학습, 탐사 제어. 첫 번째 위치/크리에이티브/채널에 좋습니다.
캐스케이딩 도적: 톱 k 최적화.
RL (DQN/Policy Gradient/SlateQ): 세션 개인화, 다단계 보상 최적화 (리턴/수익/롱 세션).
안전: 정책 외 평가 (IPS/DR), 시뮬레이터, 연구 한도, 안전한 RL.

9) 인과 효과를위한 개인화

향상 모델: 누가 만져야하는지 (설득력), Qini/AUUC, uplift @ k.
치료 인식 순위: 원시 CTR 대신 증가 확률을 포함합니다.
Guardrails: Do-Not-Disturb 세그먼트, RG 규칙, 공정성.

10) 건축 및 MLops

Feature Store: 세션 기능을위한 온라인/오프라인 패리티, 포인트 인 타임, TTL.
후보 서비스: ANN/FAISS/ScaNN, 세그먼트 별 캐싱/샤딩.
랭커: 그라디언트 부스팅/MLP/타워 아키텍처, 교정.
정책/재 순위: 규칙/제한, 다양 화, 적재 계층.
오케스트레이션: demempotency, p95 대기 시간은 100-300ms, DLQ/retray를 요청하십시오.
관찰 가능성: correlation _ id trace, PSI, 품질 지표, stopcock.

11) 보안, 개인 정보 보호, 윤리

PII 최소화: 토큰 화, RLS/CLS, 마스킹.
설명 가능성: 최고 기능/표시 이유; 항소의 길.
윤리/RG: 주파수 한도, "조용한 시간", 취약한 그룹의 공격적인 제안 금지.
준수: 의사 결정/로그 감사, 정책 버전 및 크리에이티브.

12) 여권 및 의사 결정 테이블

참조 인증서 (예)

ID/버전: 'REC _ HYBRID _ RANK _ v5'

리콜: ANN (사용자/항목 임베딩), 상위 500

랭커: LTR-GBM + MLP (기능: 사용자 RFM, 항목 메타, 컨텍스트)

순위 변경: PM-2 (다양성), 브랜드 할당량, RG 필터, 주파수 한도

목표/측정: NDCG @ 10, eRPM, zhaloby

A/B: 14 일, CUPED; 가드 레일-RG/배송

소유자/로깅/루니 북

결정 테이블

상태	맥락	행동	제한 사항	코멘트
'New _ user' 및 'low _ history'	온 보딩	인기있는 @ segment + 컨텐츠 기반 시드	주파수 캡, RG	콜드 스타트
'setion _ len> 3' & 'diversity _ low'	세션	(PHP 3 = 3.0.6, PHP 4)	최소 3 범주	세렌디피티
'uplift _ push	제안	개인적인 추진	Do-Not-Disturb, zhaloby	CTR이 아닌 효과

13) 의사 코드 (스케치)

A. 하이브리드 리콜 + 랭크 + 재 순위

python
Recall cands_emb = ann. recall(user_embed, topk=500)
cands_rule = rule_based. popular_by_segment(user, k=200)
cands = dedup(cands_emb + cands_rule)

Rank features = featurize(user, cands, context)  # user/item/context scores = ranker. predict(features)      # CTR/Value score

Re-rank (policy-aware)
final = rerank(
cands, scores,
constraints=dict(diversity_min={'category':3},
brand_quota={'A':0. 3,'B':0. 3},
rg_filter=True,
freq_caps=per_user_caps(user)),
objective_weights=dict(ctr=0. 6, value=0. 3, novelty=0. 1)
)
return final[:N]

B. 크리에이티브를위한 톰슨 샘플링

python beta priors per creative: (α, β)
for creative in creatives:
p_hat = np. random. beta(alpha[creative], beta[creative])
chosen = argmax(p_hat)
show(chosen)
update(alpha, beta, reward=click)

14) 진단 및 모니터링

품질: NDCG/Recall @ k, eRPM, 적용 범위/다양성, 교정.
온라인: CTR/CTCVR, 소득/세션, 유지, 불만/구독, 대기 시간/시간 초과.
드리프트: 주요 기능에 따른 PSI/KL, oflayn onlayn 상관 관계 강하.
제한: 할당량/다양성 이행, RG 필터에 대한 영향, 주파수 한도.
Runibook: 리콜 저하 (ANN 드롭), 불만 증가, 타임 아웃 급증, 긴급 폴백 (인기 안전).

15) 빈번한 오류

증분/값 대신 "원시 CTR" 최적화.
순위가 다른 레이어는 없습니다. "비전 터널".
미래의 얼굴, TZ 혼합, 일관되지 않은 신호 정의.
교정 부족 및 임계 값 → 예산 및 주파수 한도는 "열화됩니다".
RG/윤리 및 공정성 → 불만, 위험, 규제 문제를 무시하십시오.
온라인/오프라인 비 신크론 기능 → 판매 실패.

16) 사전 릴리스 개인화 점검표

모델 여권 (목표, 제한, 지표, 소유자, 버전)
리콜/랭크/재 랭크 게시; ANN과 캐시가 따뜻해 짐
PIT 기능 및 교정, 오프라인 벤치 마크 (NDCG/PR-AUC) 통과
A/B 디자인 및 가드 레일; 의사 결정 준비 보고서
RG/주파수/다양성/쿼터 제약-구현 및 모니터링
관찰 가능성, 경고, 스톱 크레인, 폴백 (인기 안전)
문서 및 런북, 증분 개선 계획

합계

개인화 모델은 정책 인식 시스템으로 만 효과적입니다. 풍부한 데이터 및 임베딩 → 온라인 적응을위한 리콜/랭크/순위 하이브리드 → 도적/RL → 엄격한 제한 및 윤리 및 훈련 된 MLops 및 모니터링을위한 다목적 목표. 이러한 회로는 "권장 사항" 뿐만 아니라 ROMI, LTV 및 만족도를 높이는 관리 가능한 솔루션을 안전하고 투명하며 재현 가능하게 제공합니다.

개인화 모델