강화 교육

1) iGaming에서 RL의 목적 및 장소

RL은 불확실성과 피드백을 위해 시간이 지남에 따라 행동 정책을 최적화

게임 카탈로그의 개인화 (Slate-RL): 화면/푸시에 대한 일련의 제안 선택.
보너스/프로모션 최적화: 남용의 위험을 고려한 크기/유형/타이밍.
RG/보존의 반응: 개입시기 및 방법 (소프트 알림/일시 정지/에스컬레이션).
운영: 동적 제한 관리, 지원 대기열의 우선 순위.
교통 및 조달: 경매 입찰, 예산 간격.

감독 된 이유: 대상 변수는 장기 보상 (LTV, 웰빙, 위험 감소) 이며 예측뿐만 아니라 최적으로 누적해야합니다.

2) 기본 문구

상태 (s _ t): 플레이어 프로필, 세션 컨텍스트, 시장 제한.
액션 (a _ t): 제공, 게임 선택 (슬레이트), RG 트리거, 입찰자 베팅.
보상 (r _ t): 혼합 메트릭 (수입-RG/AML 처벌-가치).

(PHP 3 = 3.0.6, PHP	s): 행동 분포.
목표: 심각한 제약 (안전/규정 준수) 하에서 예상되는 총 보상 (\matbb {E} _\pi [\sum\gamma ² t r _ t]) 을 최대화합니다.

3) 방법 가족

3. 도둑 1 명 (무국적자)

다중 무장 산적: (\epsilon) -욕심 많은, UCB, Thompson Sampling.
상황에 맞는 산적: 플레이어/세션 특성을 고려하십시오.
슬레이트/랭킹 도둑: 제안 세트 선택; 위치 효과를 조정합니다.

3. 2 풀 RL

정책 그라디언트/배우-비평가: REINFORCE, A2C/A3C, PPO-넓은 공간에 내성이 있습니다.
Q-Learning/Deep Q-Networks: 개별 동작, 경험 버퍼를 사용한 오프라인 학습.
보수적/오프라인 RL: CQL, BCQ, IQL-온라인 착취없이 로그에서 학습하십시오.

3. 3 안전/제한 RL

제약 RL (CMDP): RG/AML/예산 제약에 따른 최적화.

위험 민감성: CVaR-RL, 페널티 성형, Lagrangian

4) 수상 디자인 (보상 성형)

이상은 다음의 가치와 위험을 반영해야합니다

수익: 증분 순 수익/LTV ("원시 요금" 이 아님) 에 대한 기여.
책임있는 플레이: 위험 패턴에 대한 처벌, 한계 초과, 피곤한 인센티브.
준수/AML: 안전하지 않은 활동의 가능성을 높이는 조치에 대한 처벌.
경험 품질: CTR/CVR/세션 길이이지만 "과열" 을 피하기 위해 캡/무게가 있습니다.

혼합 보상 (의사 코드) 의 예:

python reward = w_revdelta_net_revenue \
- w_rgrg_risk_score \
- w_abusebonus_abuse_prob \
- w_costoffer_cost

5) 오프라인 교육 및 평가 (보안의 열쇠)

온라인 휴식 또는 금지/비용 → 오프라인 RL 및 반 사실 평가를 사용합니다

IPS/DR: 권장 사항 로그에서 역 성향 득점/Doubly Robust.
재생/시뮬레이터: 사용자 정의/제공자 응답 모델이있는 시뮬레이터.
보수적 인 규정: 이러한 로그를 지원하기위한 벌금 (CQL/IQL).
로거 정책: 정확한 추정치가 있도록 노출 확률 (성향) 을 기록하십시오.

DR 평가 (체계):

python value_dr = np. mean(w_ips(r - q_hat) + v_hat) # w_ips = π(a    s)/μ(a    s)

6) 상황에 맞는 도둑: 빠른 시작

시퀀스가 짧을 때 "부드러운" 온라인 학습에 대한 접근 방식:

Thompson Sampling (logit): 계수에 의한 후방 → 동작 선택.
UCB: 예산이 부족하고 사르가 강합니다.
규제 공정성/RG: 용납 할 수없는 행동을 숨기고 노출 빈도를 제한하십시오.

TS 의사 코드:

python β ~ Posterior () # select from posterior distribution scores = X @ β # contextual scores actions = top_k (scores, k = slate _ size, mask = policy _ mask)

7) 슬레이트 -RL (키트 권장 사항)

목표: 전체 세트의 보상을 최대화하는 것 (위치, 카드 경쟁을 고려하여).
방법: 인수 분해를 통한 Listwise-bandits, slate-Q, 정책 구배 (Plackett-Luce).
위치 교정: 위치 별 성향; 허용 가능한 범위 내의 무작위 화.

8) 안전, RG/AML 및 준수

RL은 "보호 모드" 에서만 실행됩니다

어려운 제약: 독성 제안 금지, 주파수 제한, "냉각".
정책 차폐: 추론 전후에 RG/AML 정책에 의한 조치를 필터링합니다.

이중 최적화: 제한에 대한 라그랑주 승수 (예: "공격적" 의 점유율은

윤리 및 공정 사용: 프록시 기능을 제외하고 감사에 영향을 미칩니다.

실링 (의사 코드):

python a = policy. sample(s)
if not passes_guardrails(a, s):
a = safe_fallback (s) # rule/minimum offer

9) 데이터 및 서빙 아키텍처

오프라인 루프

레이크 하우스: 노출/클릭/변환, 성향, 비용 로그.
Feature Store (오프라인): 시점별 기능, 올바른 레이블.

교육: 오프라인 RL (CQL/IQL) + 시뮬레이터; IPS/DR 검증

온라인/거의 실시간

Feechee: 빠른 창 (1-60 분), 플레이어/세션 표시, 한계 및 RG/AML 마스크.
서빙: gRPC/REST, p95 50-150 ms (개인화), 카나리아 라우팅.
로그: 'policy _ id', 'propensity', 'slate', 'guard _ mask', 실제 결과를 저장하십시오.

10) 측정 및 실험

오프라인: DR/IPS 평가 값, 적용 범위 지원, 로거와의 차이.
온라인: 순 수익/LTV, RG 신호 (개입 시간), 남용률, CTR/CVR/유지 증가.
위험 지표: CVaR, 가드 레일 위반 비율, RG 개입 빈도.
실험: 트래픽 캡핑 및 "킬 스위치" 가있는 A/B/n, 순차 테스트.

11) 비용 공학 및 성능

행동의 복잡성: 우리는 제안의 슬레이트/공간의 크기를 제한합니다.
기능/솔루션의 캐시: 인기있는 상태를위한 짧은 TTL.
분해: 2 단계 (후보 생성 → 재 순위).
일정에 따른 오프라인 교육: 일일/주간 재교육; 온라인-쉬운 적응 (도적).

12) 예 (조각)

안전 페널티 PPO (축소판):

python for rollout in rollouts:
A = advantage(rollout, value_fn)
loss_policy  = -E[ clip_ratio(pi, old_pi) A ]
loss_value  = mse(V(s), R)
loss_safety  = λ relu(safety_metric - safety_cap)
loss_total  = loss_policy + c1loss_value + loss_safety + c2entropy(pi)
step_optimizer(loss_total)

보수적 인 Q 학습 (아이디어):

python loss_cql = mse(Q(s,a), target) + α (E_{a~π}[Q(s,a)] - E_{a~D}[Q(s,a)])

RG 마스크가있는 상황:

python scores = model (x) # predicted utility scores [~ allowed _ mask] = -inf # forbidden actions a = argmax (scores) if rand ()> eps else random_allowed ()

13) 프로세스, 역할 및 RACI

R (책임): 데이터 과학 (RL 모델/도적), MLops (플랫폼/로깅/평가), Data Eng (기능/시뮬레이터).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (RG/AML/PII), 법률 (제안 조건), 보안 (비밀/KMS), SRE (SLO/값), 제품.
I (정보): 마케팅/CRM, 운영, 지원.

14) 구현 로드맵

MVP (4-6 주):

1. RG/AML 마스크 및 성향 로깅으로 1 개의 오퍼를 선택하기위한 컨텍스트 산적.

2. A/B (트래픽의 5-10%) 로 제한되는 오프라인 IPS/DR 점수는 킬 스위치입니다.

3. 대시 보드: 값 (DR), CTR/CVR, RG 지표, 가드 레일 위반.

2 단계 (6-12 주):

슬레이트 산적 (N = 3-5 카드), 위치 교정; 2 단계 후보 → 재 순위.
시뮬레이터가있는 오프라인 RL (IQL/CQL); 정기적 인 재교육.
Constrained-RL: 공격성/주파수 제한, 이중 최적화.

3 단계 (12-20 주):

엄격한 상한 및 감사를 통한 RG 개입 (안전한 RL) 정책.
CVaR 제한이있는 예산 간격 및 입찰 (경매).
추론 및 제안의 대가로 지역 간 적응.

15) 사전 판매 점검표

로그에는 'policy _ id', 'propensity', 마스크/제약, 결과가 포함됩니다.
DR/IPS 점수 안정; 충분한 데이터 지원 (로거와 겹침).
가드 레일: 목록, 주파수 제한, 대기 시간, 킬 스위치 억제.
RG/AML/Legal은 규칙에 동의했습니다. 감사 활성화 (사례의 경우 WORM).
카나리아 출시 및 교통 제한; 모니터링 가치/RG/남용.
수상 및 위험 문서; 정책 카드 (소유자, 버전, SLA).
통제 대상 비용: 대기 시간 p95, 비용/요청, 슬롯 크기, 캐시.

16) 반 패턴

온라인 휴식 또는 보호 및 오프라인 평가없이.
남용 및 RG → 독성 정책을 제외한 클릭/베팅 상.
로그에 의한 타당성 부족 및 올바른 인과 평가.
너무 많은 액션 공간, 마스크/캡핑 없음.
거주 및 규칙없이 지역/관할 구역을 혼합합니다.
킬 스위치와 카나리아의 부재.

17) 결론

RL은 RG/AML/Legal을 준수하면서 장기적인 가치를 극대화하는 iGaming 플랫폼 적응 형 정책을 제공합니다. 안전한 구현의 핵심은 오프라인/보존 방법, 올바른 인과 평가 (IPS/DR), 엄격한 가드 레일, 투명한 보상, MLOps 징계 및 점진적인 롤아웃입니다. 이렇게하면 책임과 준수를 손상시키지 않으면 서 순 수익/LTV 성장을 얻을 수 있습니다.

강화 교육

온라인/거의 실시간

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다