차원 감소

1) iGaming 플랫폼이 차원을 줄여야하는 이유

ML 속도 및 안정성: 더 적은 징후 → 더 빠른 적합/서빙, 재교육 위험 감소.
시각화: 세그먼트, 드리프트 및 이상을 감지하기위한 2D/3D 프로젝션.
소음 → 신호: 일반화 된 요소 (행동/지불) 는 배출에 더 강합니다.
비용: 적은 온라인 기능 → 저렴하여 저장/운송/속도 향상.
개인 정보 보호: 원래 민감한 기능을 집계 된 요소로 대체합니다.

2) 표지판의 "선택" 대 "건설"

기능 선택: 필터/래퍼/모델 가중치-원래 기능의 하위 집합을 저장하십시오.
새로운 요소 (예측/포함) 를 추출하여 추출합니다.
결합: 먼저 기본 선택 (누출, 상수, 상호 정보), 요인 구성.

3) 방법: 짧은지도

3. 1 선형

PCA/SVD: 직교 구성 요소, 설명 된 차이를 최대화하십시오. 빠르고 해석 가능한 (로딩).
요인 분석 (FA): 잠재 요인 + 특정 오류; 행동 "비늘" 에 좋습니다.

NMF: 음이 아닌 첨가제 부분 (지불/게임의 "테마 "/" 동기"); (PHP 3 = 3.0.6, P

3. 비선형 2 개

t-SNE: 2D/3D의 로컬 구조 및 클러스터; 렌더링 (제공하지 않음).
UMAP: t-SNE보다 빠른 글로벌 구조의 로컬 + 부분을 보존합니다. 클러스터 사전 처리에 적합합니다.
오토 엔코더 (AE/VAE): 인코더 → 잠복 벡터를 교육합니다. 온라인/증분 일 수 있습니다.
Isomap/LE: proda (비싸고 변덕스러운) 에서는 덜 일반적입니다.

3. 3 범주/혼합

임베딩 매트릭스에 대한 카테고리 임베딩 (게임/제공자/채널/장치) + PCA/UMAP

혼합 유형에 대한 Gower 거리 → MDS/UMAP.

4) 파이프 라인 (참조)

1. 데이터 위생: PII 마스크, 토큰 화, 틈새를 채우고 꼬리를 윈소링합니다.
2. 스케일링: 표준/견고한 스케일러; 카운터의 경우-로그 변환.
3. 0에 가까운 분산, corr> 0을 제거하십시오. 95 (휴가), 상호 정보.

4. 감소 방법: PCA/UMAP/AE; 임의의 씨앗을 수정하고 설정하십

5. 등급: 지표 (아래), 안정성, 시각화.
6. 제공: 직렬화 변환 (ONNX/PMML/레지스트리 하우스), 재 투사 시간 여행.
7. 모니터링: 잠재 계수 드리프트, PSI, kNN 토폴로지 보존.

5) 품질 지표

설명 된 변형 (PCA): 임계 값이있는 k를 선택하십시오 (예: 90-95%).
재구성 오류 (AE/NMF): MSE/Poisson, 이미지 용 SSIM (CV 인 경우).
신뢰성/연속성 (UMAP/t-SNE): 0 ~ 1-지역 이웃이 보존되는 방법.
kNN- 보존: 일반적인 사전/사후 투영 이웃의 비율.
다운 스트림 영향: 변환 후 클러스터링/분류 품질 (F1/AUC, 실루엣).
안정성: 재시작, 종자/하이퍼 파람 감도 사이의 랜드/NMI.

6) 작업을위한 실용적인 레시피

6. 플레이어 클러스터링 1 개

UMAP → HDBSCAN: "라이브/소셜", "보너스 헌터", "충돌 위험" 세그먼트가 잘 드러납니다.
빠른 해석을위한 PCA 기준선 (로딩에는 "rate/min", "valutility", "junging pattern" 이 표시됨) 이 표시됩니다.

6. 2 사기 방지 및 지불

매트릭스의 NMF (플레이어 × 지불 방법) 는 경로의 "동기" 를 나타냅니다. 그런 다음 k-means/GMM.
예금/철회 동작에 대한 AE-이상 모델에 대한 잠재 벡터 (IForest/OC-SVM).

6. 3 추천 시스템

소음 필터링 및 유사성 점수를위한 SVD/ALS 임베딩 (igrok ² igra/provayder) + PCA/UMAP.

6. 4 개의 텍스트/리뷰

문장 포함 → UMAP: 테마의 시각화 및 부정성 버스트 (감정 분석 참조).
TF-IDF의 NMF: 해석 가능한 불만 "테마" (결론, KYC, 지연).

7) 온라인, 증분 및 드리프트

증분 PCA/스트리밍 AE: 완전한 재 훈련없이 구성 요소를 업데이트하십시오.
따뜻한 시작 UMAP: 새로운 배치 업데이트 (글로벌 왜곡에주의).
드리프트: 요인별로 PSI/KC를 모니터링하고 드리프트 토폴로지 kNN; 임계 값 → 카나리아/롤백.
검증: 'project @ MAJOR. 미노르. PATCH '; 메이저-비교할 수없는 듀얼 서브를 유지하십시오.

8) 개인 정보 보호 및 준수

제로 -PII 입력; 감소 된 요소는 소스와 별도로 저장됩니다.
상점 창의 k 익명 성 (슬라이스 당 최소 N 개체).
차이. PCA/AE의 개인 정보 보호 (선택 사항): 그라디언트/좌표의 노이즈.
DSAR: 대상의 기여도를 제거하는 기능 (줄을 삭제하고 다음 배치에서 요인을 다시 계산 함).

9) 요인의 해석

로딩 (PCA/FA): 최고 기능 → 사람이 읽을 수있는 이름 ("베팅 강도", "야간 활동", "보너스 감도").
NMF 부품: 긍정적 인 가중치를 가진 기능 세트 → "지불/게임 동기".
AE: 로컬 설명 할 수없는 점 (Jacobian) + 대리 모델 주위의 선형 근사.

10) 통합

클러스터링: UMAP/PCA 공간 → HDBSCAN/k-means.
Anomalies: AE- 재건/잠정 거리 → 경고.
권장 사항: 유사성 및 ANN 검색을위한 컴팩트 임베딩.
API 분석: "원시" 민감한 기능 대신 집계와 요소를 제공합니다.

11) 템플릿 (사용할 준비)

11. 1 PCA 설정

yaml projection:
method: "pca"
n_components: "auto_0. 95" # cumulative variance ≥95%
scaler: "robust"
random_state: 42 serve:
format: "onnx"
p95_latency_ms: 5 monitoring:
drift_psi_max: 0. 2 privacy:
pii_in: false

11. 2 설정 UMAP → HDBSCAN

yaml umap:
n_neighbors: 30 min_dist: 0. 05 metric: "cosine"
random_state: 42 cluster:
method: "hdbscan"
min_cluster_size: 120 min_samples: 15 evaluate:
metrics: ["silhouette","trustworthiness","knn_preservation"]

11. 3 AE (servering)

yaml autoencoder:
encoder: [256,128,64]
latent_dim: 16 activation: "gelu"
dropout: 0. 1 optimizer: "adamw"
loss: "mse"
early_stop_patience: 10 serve:
route: "light    heavy" # router by latent complexity cache_embeddings: true

11. 4 투영 데이터 시트 (BI)

yaml version: "proj_pca_1. 3. 0"
explained_variance_cum: 0. 932 top_components:
- id: pc1, name: "rate intensity," top_features: ["bets _ per _ min, ""volatility,"" session _ len"]
- id: pc2, name: "night activity," top_features: ["evening _ share, ""dow _ weekend,"" live _ share"]
usage:
downstream: ["clusters_v4","fraud_iforest_v2","reco_ann_v3"]

12) 구현 로드맵

0-30 일 (MVP)

1. 위생 기능 (스케일링, 건너 뛰기, 상관 관계), Zero-PII.
2. 분산 임계 값이 95% 인 PCA; 세그먼트 분석을위한 2D UMAP 시각화.
3. 확인 된 분산, 신뢰성, 다운 스트림 상승.
4. 레지스트리의 변환 등록; 대시 보드 드리프트 요인.

30-90 일

1. 지불/행동에 대한 AE; 검토 주제를위한 NMF.
2. 증분 업데이트 (IncrementalPCA/AE); 버전 변경시 카나리아.
3. 클러스터링/사기 방지/권장 사항과의 통합; kNN- 토폴로지 드리프트에 경고합니다.

3-6 개월

1. 지오/테넌트 별 프로젝션; 예산 인식 서빙 (INT8/FP16).
2. 제품 팀에 대한 요인 해석 보고서.
3. 규제에 민감한 시장을위한 DP 변형.

13) 반 패턴

prod-serving에 t-SNE를 사용하십시오 (실행간에 불안정하고 비교할 수 없음).
요소와 PII 혼합; 마스크가없는 로그 소스 기능.
스케일링/건너 뛰기 → "가짜" 구성 요소를 무시하십시오.
분산/메트릭 곡선 및 다운 스트림 유효성없이 눈으로 k를 선택하십시오.
버전 및 듀얼 서브 → "깨진" 모델없이 프로젝션을 다시 구축하십시오.
안정성 테스트없이 UMAP 사진을 "지상 진실" 로 해석하십시오.

14) RACI

데이터 플랫폼 (R): 파이프 라인, 레지스트리, 드리프트 모니터링

데이터 과학 (R): 방법의 선택/튜닝, 요인 해석.
제품/CRM (A): 세분화/제안에 요인을 사용합니다.
위험/RG (C): 요소 사용, "공격적인" 타겟팅으로부터의 보호 규칙.
보안/DPO (A/R): 개인 정보 보호, k- 익명 성, DSAR.

15) 관련 섹션

데이터 클러스터링, 추천 시스템, 이상 및 상관 분석, 피드백 감각 분석, NLP 및 단어 처리, DataOps 관행, MLop: 모델 탐색, 데이터 윤리 및 투명성.

합계

치수 감소는 엄격한 기능 위생, 구조 보존 지표, 안정적이고 다양한 변형과 같은 "아름다운 점 구름" 뿐만 아니라 생산 ML의 도구입니다. iGaming에서 이러한 프로젝션은 학습 및 서핑 속도를 높이고 세분화 및 이상 감지를 개선하며 예산을 절약하고 개인 정보 보호를 유지하는 데 도움이됩니다.

차원 감소

합계

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다