데이터 클러스터링
1) iGaming 플랫폼을 클러스터링하는 이유
태그가없는 개인화: 우리는 제안, 한계, UX를 목표로 행동으로 플레이어를 그룹화합니다.
운영 및 위험: "얇은 파일", 비정형 지불 패턴, 사기 클러스터를 식별합니다.
제품 및 내용: 좋아하는 공급자/기계공 (충돌/슬롯/라이브) 의 세그먼트, 수명주기.
분석 및 전략적 통찰력: 시장/캠페인/시즌별로 세그먼트의 혼합이 어떻게 변하는 지.
2) 데이터 및 태그 공간
2. 1 출처
게임 동작: 세션 빈도/길이, 베팅/분, 변동성, 좋아하는 장르/공급자.
지불: 예금/인출 빈도/금액, 방법 (Papara/PIX/카드), 요금 환급/편차.
마케팅/CRM: 어트랙션 채널, 보너스/퀘스트에 대한 반응, 푸시 응답.
장치/플랫폼: OS, 버전, 클라이언트 안정성, 네트워크 유형.
RG/준수: 자체 제외 플래그, 한계, 지원 호출 (PII 제외).
2. 2 엔지니어링 기능
창문별로 집계: 7/28/90 일; "활동적인 하루 동안" 배급.
표준화/로버트 스케일링: z-score/robust-scaler (IQR), "롱 테일" 에 대한 로그 스케일.
카테고리 → 임베딩/원 핫: 공급자/채널/국가.
치수 감소: 노이즈 및 시각화를위한 PCA/UMAP이지만 해석을 위해 "원시" 벡터를 저장합니다.
Zero-PII: 식별자 대신 토큰은 개인 필드를 금지합니다.
3) 알고리즘과 복용 시점
k-means/Mini-Batch k-means - 빅 데이터의 빠른 기준; 구면 가정.
GMM-소프트 제휴 (확률), "테두리" 플레이어에게 유용합니다.
DBSCAN/HDBSCAN-자유형 클러스터 및 "노이즈" (이상) 를 찾습니다. 'eps' 에 민감합니다.
계층 적 (구/평균) -세그먼트의 "나무" 에 대한 덴드로 그램, 평균 N.에 좋습니다.
스펙트럼 - 비 구형 클러스터 용; 큰 N.의 도로
SOM (Kohonen 맵) -행동 패턴의 해석 가능한 2D 맵.
혼합 데이터: k- 프로토 타입, k- 모드, Gower 거리.
힌트: Mini-Batch k-means (속도) + HDBSCAN (잡음/이상) 으로 시작하고 안정성을 비교하십시오.
4) k를 선택하고 품질을 평가하는 방법
내부 지표: Silhouette (더 높음), Davies-Bouldin (더 낮음), Calinski-Harabasz.
안정성: 부트 스트랩 샘플의 재 클러스터링, 파티션 간 Rand Index/NMI.
외부 유효성: 클러스터 간 KPI (GGR/NET, 보존, 오퍼 변환, FPR) 의 구별 성.
비즈니스 해석: 클러스터는 명확한 프로필과 조치를 취해야합니다. 그렇지 않은 경우 기능/스케일/알고리즘을 무시하
5) 프로필 및 설명 불가능
클러스터 프로필: 중간/양자 기능, 최고 게임/제공 업체, 장치, 지불 방법, 채널.
모집단과의 차이: p-points/
로컬 설명자: 클러스터 간의 경계에 대한 SHP/순열 중요성 (훈련 된 분류기 "cluster _ id" 를 통해).
우리는 클러스터를 "하이 롤러 충돌", "보너스 헌터 슬롯", "캐주얼 주말 라이브" 라고 부릅니다.
6) 작동 (온라인/오프라인)
일주일에 한 번 오프라인 클러스터링 → 세그먼트의 "여권" 게시.
온라인 할당: 가장 가까운 센터 (k-means), 확률 (GMM), "noise" (HDBSCAN) → 폴백 규칙.
드리프트: 주요 기능, 클러스터 간 마이그레이션, "잡음" 주파수별로 PSI/KC를 모니터링하십시오.
수명주기: 1-3 개월마다 개정; 기능/표준을 변경할 때 메이저.
7) 통합 및 행동
개인화: 제공/주파수 제한, 제공자 선택 및 토너먼트 메커니즘.
CRM/채널: 보풀/이메일 주파수, 시간 창, 언어/음조.
마케팅: 세그먼트 별 예산, 크리에이티브, LTV 예측; 전략의 "너지" 대 "가치".
RG/위험: 위험 클러스터에 대한 가벼운 중재, 이상에 대한 "수동" 검토.
사기 방지: 비정형 지불 경로/장치 클러스터 → 점수가 증가했습니다.
8) 개인 정보 보호 및 준수
보고서의 k 익명 성 (슬라이스 당 최소 N 객체).
피쉬/로그/대시 보드의 제로 -PII, 토큰 화; 토큰에 의한 DSAR 삭제.
지리/테넌트 격리: 라이센스 지역의 기차/상점 세그먼트.
공정성 점검: 민감한 측정 (국가/지불 방법/장치) 으로 차이점을 확인합니다.
사용: RG 클러스터 (정책) 에 대한 "공격적" 제안은 금지됩니다.
9) 성공 지표
운영: 온라인 속성 공유 <X ms, 센터의 안정성, 마이그레이션/비 승인.
비즈니스: 제안의 향상 전환, 세그먼트 별 ARPPU/LTV, 사기 방지 FPR 감소, RG 반응 속도.
모델 품질: 클러스터 간 KPI를 구별 할 수있는 실루엣이 있습니다.
10) 파이프 라인 (참조)
청동 → 은 → 금 → 서브
1. 이벤트/결제/장치를 섭취하십시오 → 청소/즐거움.
2. 피처 스토어: 창 계산 (7/28/90d), 표준화, 마스크/토큰.
3. 시각화를위한 희미한 감소 (PCA/UMAP) (서핑을위한 것이 아님).
4. 클러스터링 (오프라인), 메트릭 평가, "여권" 생성.
5. 온라인 할당 API: 가장 가까운 센터/확률/" 잡음 ".
6. 모니터링: 드리프트, 마이그레이션, "노이즈" 주파수, KPI 세그먼트 별.
7. 릴리스: 세미버, 섀도우/카나리아, 롤백; BI의 세그먼트 디렉토리
11) 세그먼트 예 (iGaming)
보너스 헌터 슬롯: 프리 스핀/캐쉬백, 짧은 세션, 많은 출력 실패-소프트 프로모션 한계, 투명한 조건.
충돌 위험 담당자: 짧은 강렬한 세션, 빠른 속도 축적-주파수 제한/냉각.
라이브 소셜: 라이브 캠페인의 긴 저녁 세션, 소셜 캠페인의 높은 CTR-스트림 큐 레이션 및 라이브 이벤트.
얇은 파일 신규 이민자: 1-2 예금, 몇 라운드-환영 자습서, KYC 지원.
변칙적 지불: 지갑/방법의 빈번한 변경, 지리 경주-강화 된 사기 방지.
12) 아티팩트 패턴
12. 1 세그먼트 카탈로그 (조각)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 서핑의 정치
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. 클러스터 여권 3 개 (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) 구현 로드맵
0-30 일 (MVP)
1. 디스플레이 케이스 (7/28/90d) 를 조립하고 표준화하고 PII를 차단하십시오.
2. 5-9 클러스터 용 미니 배치 k- 평균 + "노이즈" 용 기본 HDBSCAN.
3. 클러스터의 여권, 온라인 할당자, 마이그레이션/드리프트 대시 보드.
4. 두 가지 제품 실험: 세그먼트 제공 및 보풀 주파수.
30-90 일
1. 소프트 액세서리 용 GMM; 혼합 유형 (k- 프로토 타입).
2. N 일마다 자동 재 조립, 그림자 → 카나리아; PSI/마이그레이션에 대한 경고.
3. 통역 가능성 (SHP 카드), 세그먼트 BI 카탈로그 및 CRM/추천 API.
3-6 개월
1. 지오/테넌트 별 세그먼트; 장치/결제 그래프와 결합.
2. LTV 계획을위한 장기 코호트 + 전이 행렬 (Markov).
3. 세그먼트 수준 RG/AML 정책; 외부 개인 정보 보호/윤리 감사.
14) 반 패턴
k "눈으로" 를 선택하고 업무 점검없이 실루엣 만 평가하십시오.
PII 및 행동 특징 혼합; 보고서에 k- 익명 성 부족.
BI에는 온라인 할당자 → 세그먼트가 없습니다.
시즌/공유 재교육; 마이그레이션 모니터링 부족.
RG 가드 규칙이없는 "공격적인" 마케팅을위한 클러스터 사용.
현지 기능이없는 모든 국가/브랜드에 대한 하나의 세그먼트.
15) RACI
데이터 플랫폼 (R): 쇼케이스 기능, 파이프 라인, 모니터링, 버전 레지스터
데이터 과학 (R): 알고리즘 선택, k/metrics, 해석.
제품/CRM (A): 세그먼트 활동, 실험.
위험/RG (C): "무거운" 세그먼트에 대한 제한 및 HITL 정책.
보안/DPO (A/R): 개인 정보 보호, 토큰 화, k- 익명 성.
BI (C): 대시 보드, 카탈로그, 문서.
16) 관련 섹션
세그먼트 타겟팅, 추천 시스템, 플레이어 프로파일 링, 바이어스 감소, 성능 벤치마킹, 분석 및 메트릭 API, MLops: 모델 탐색, 데이터 윤리 및 투명성.
합계
클러스터링은 UMAP 그래프 일뿐만 아니라 생산 도구: PII가없는 순수한 기능, 안정적인 지표 및 이해할 수있는 세그먼트 여권, 온라인 할당자 및 CRM/제품/RG 조치. 드리프트를 정기적으로 감사하고 모니터링하면 "행동 혼돈" 이 성장, 안전 및 책임을위한 관리 가능한 전략으로 바뀝니다.