선생님의 유무에 관계없이 가르치

1) 언제 그리고 언제

감독: 확률/클래스/값을 예측하는 레이블 → 가 있습니다. "정답" 이 명확하고 이탈, 7 일의 예금, RG/AML 위험, 제안에 대한 응답 확률, LTV 예측과 같은 이야기가있을 때이를 사용합니다.
감독되지 않은 점수 → 플레이어의 세분화, 사기 링, 게임의 주제 프로파일, 제공자 실패 감지, 표지판 압축 등 구조/클러스터/이상/잠복 요소를 찾을 수 없습니다.

선택 규칙: 사업 결정이 특정 확률 론적 예측 → 감독에 의존하는 경우; 목표가 알 수없는 패턴/신호를 열거나 감독되지 않은 데이터의 차원을 줄이는 것입니다. 실제로, 그들은 결합됩니다.

2) 전형적인 iGaming 케이스

감독

처리/재 활성화: 이진 분류 (go/not go), 충격에 대한 향상 모델.
예금/구매 성향: 지평선에서 이벤트 확률 T.
RG/AML: 위험률, 구조화 확률, 의심스러운 세션.
보너스 남용 방지: 사기성 프로모션 사용 가능성.
권장 사항 (순위): 게임에서 클릭/베팅 확률 (목록/포인트).

감독되지 않은

플레이어 세분화: RFM/동작/장르별 k-means, GMM, HDBSCAN.
Anomalies: 결제/게임 패턴에 대한 격리 숲, LOF, 자동 인코더.
그래프 분석: "플레이어 장치-카드 -IP" 열의 클러스터링.
다운 사이즈: 시각화 및 기능 엔지니어링을위한 PCA/UMAP.
주제 모델: 게임 설명/지원 채팅을위한 NMF/LDL.

3) 데이터 및 기능

데이터 유출을 제외하기위한 시점 연결.
특징적인 창: 10 분/1 시간/1 일/7 일/30 일 (최근, 빈도, 통화).
상황: 시장/관할권/DST/공휴일, 공급자/장르, 장치/ASN.
그래프 기능: 고유 한 카드/IP/장치의 수, 중심성.
사용자/게임/공급자를위한 통화/시간대 정규화, SCD II.

4) 알고리즘 및 메트릭

선생님과 함께

알고리즘: LogReg, XGBoost/LightGBM/CatBoost, TabNet; 랭킹 - LambdaMART/GBDT; 시계열-예언자/ETS/그라디언트 부스트 TS.
지표: ROC-AUC/PR-AUC, F1 @ 운영 임계 값, KS (위험), NDCG/MAP @ K (권장 사항), MAPE/WAPE (예측), FP/FN 가중치의 예상 비용.

선생님없이

클러스터링: k-means/GMM (클러스터 수-팔꿈치/실루엣), HDBSCAN (밀도).
Anomalies: 격리 숲/LOF/자동 인코더; 메트릭-전문가 마크 업의 정밀 @ k, 합성 이상의 AUCPR.
차원: 기능 설계 및 시각화를위한 PCA/UMAP.

5) 결합 된 접근 방식

반 감독: 할당되지 않은 데이터 (자체 교육), 일관성 조절에 대한 의사 거품.
자체 감독: 대비/마스크 된 작업 (세션/게임 포함) → 감독시 다운 스트림을 사용합니다.
능동적 학습: 이 시스템은 표시 후보 (최대 불확실성/다양성) 를 제공합니다. → AML/RG 전문가의 작업을 저장합니다.
약한 감독: 휴리스틱/규칙/먼 마크 업은 "약한" 레이블을 형성 한 다음 교정합니다.

6) 프로세스: 오프라인에서 온라인 서핑까지

1. 오프라인: 시간/시장별로 → 분할 → 교육/검증 → 백 테스트.
2. 메트릭 시맨틱: 균일 한 공식 (예: 이탈 _ 30d) 및 고정 시간 창.
3. Feature Store: 온라인/오프라인 균일 한 기능 공식; 규정 준수 테스트.
4. 온라인 서핑: gRPC/REST 엔드 포인트, 대기 시간별 SLA, AB 라우팅/카나리아 릴리스.
5. 모니터링: 데이터/예측 드리프트 (PSI/KL), 대기 시간 p95, 비즈니스 메트릭 오류, 경고.

7) 개인 정보 보호 및 준수

PII 최소화: 가명, 매핑 격리, CLS/RLS.
거주지: 지역 별 개별 파이프 라인/암호화 키 (EEA/UK/BR).
DSAR/RTBF: 기능 및 로그 삭제/편집; 예외에 대한 법적 근거를 유지하십시오.
법적 보류: 조사/보고 아티팩트 동결.
공정성: 감사 프록시 기능, 영향 보고서 (SHP), RG 중재 정책.

8) 경제와 생산성

기능 계산 비용 (비용/기능) 및 추론 (비용/요청).
오프라인 골재의 재료화; 온라인-중요한 창만.
짧은 TTL에 대한 권한/채점 결과, 타임 아웃이있는 비동기 검색.
리플레이/백 테스트를위한 쿼타 및 예산; 명령/모델별로 지불.

9) 예 (조각)

9. 이탈 _ 30d에 대한 1 포인트 인 타임 선택

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 지불 이상 (의사 코드, 격리 숲)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 k- 평균의 세분화 (RFM + 장르)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 이진 모델에 대한 4 비용 임계 값

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) 평가, 검증 및 실험

오프라인: 시간 분할 (시간/시장별 기차/발/테스트), 백 테스트, 부트 스트랩 트러스트.
온라인: A/B/n, 순차 테스트, CUPED/diff-in-diff.
비 정책: 개인화 정책을위한 IPS/DR.
교정: 올바른 확률을위한 Platt/Isotonic.
분해 제어: 비즈니스 지표 및 PR-AUC/KS에 의한 경고.

11) RACI

R (책임): 데이터 과학 (모델/실험), MLops (플랫폼/서빙), Data Eng (기능/파이프 라인).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (PII/RG/AML), 보안 (KMS/비밀), SRE (SLO/값), 금융 (ROI).
I (정보): 제품/마케팅/운영/지원.

12) 구현 로드맵

MVP (4-6 주):

1. 대상/레이블 및 신호 카탈로그 (turn _ 30d, propensity _ 7d, risk _ rg).

2. Feature Store v1 (5-10 기능), 기본 XGBoost 모델, 오프라인 메트릭 대시 보드.

3. k- 평균의 세분화 (8 클러스터) + 세그먼트의 설명; 지불을위한 격리 숲.

4. 캐시가있는 온라인 서핑, p95 <150 ms; 트래픽의 10-20% 에 대한 A/B.

2 단계 (6-12 주):

Label Scarcity (AML/RG) 용 Active/Semi-Supervised, 자체 감독 게임/세션 임베딩.
카나리아 출시, 드리프트 모니터링, 자동 재교육.
단일 시맨틱 메트릭 계층 및 온라인/오프라인 일치 기능.

3 단계 (12-20 주):

그래프 표시 및 사기 링; 향상 보너스 모델.
다지역 서빙, 할당량/지불 거절; 릴리스의 WORM 아카이브.
공정성 감사, 스트레스 테스트, 런북 사건.

13) 사전 판매 점검표

적시 샘플링 및 누출 방지 테스트.
확률 보정; 예상 비용 임계 값을 선택하십시오
모델 카드 (소유자, 데이터, 지표, 위험, 공정성).
Feature Store 온라인/오프라인 준수 테스트.
드리프트/대기 시간/오류 모니터링, 경고 및 자동 롤백.
PII/DSAR/RTBF/법률 보유 정책; 로깅은 비인간적입니다.
계획 A/B 및 통계력 계산; 롤백 런북이 준비되었습니다.

14) 반 패턴

새로운 이벤트를 레이블 (누출) 및 시점의 부재로 혼합합니다.
도메인 분해 대신 "모두를위한 하나의 모델".
일부 보정 된 확률 → 잘못된 비즈니스 임계 값.

맹인 비행: 온라인 드리프트/품질 모니터링이 없습니다

온라인 과도한 합병증 (캐시 및 타임 아웃없이 무거운 외부 결합).
비즈니스 해석 및 소유자가없는 세그먼트.

15) 결론

감독 학습은 측정 가능한 예후 및 위험/소득 관리를 제공합니다. 교사없이-마크가없는 구조와 신호. 데이터 분야 (포인트 인 타임, 피처 스토어), 규정 준수 및 MLops의 조합 (반/자체 감독, 능동 학습) 은 iGaming 플랫폼에 순 수익의 꾸준한 증가, 사기 감소 및 적시 RG 개입-재현성, 비용 관리 및 감사 준비.

선생님의 유무에 관계없이 가르치

감독되지 않은

선생님없이

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다