Տվյալների կլաստերիզացիա
1) Ինչու՞ է iGaming պլատֆորմի կլաստերիզացումը
Կերպարացում առանց նշանների 'մենք խմբավորում ենք խաղացողներին վարքագծով, որպեսզի թարթենք օֆֆերները, լիմիտները, UX-ը։
Վիրահատություններ և ռիսկեր. Մենք հայտնաբերում ենք «բարակ ֆայլեր», ոչ հիփիկ հիբրիդային փամփուշտներ, ֆրոդի կլաստերներ։
Ապրանքը և բովանդակությունը 'հատվածներ սիրելի պրովայդերների/մեխանիկների (crash/slots/2019), կյանքի ցիկլերի վրա։
Վերլուծությունը և ինսայտները 'ինչպես է փոխվում հատվածների խառնուրդը շուկաներում/քարոզարշավներում/սեզոններում։
2) Տվյալները և նշանակալի տարածքը
2. 1 Աղբյուրներ
Խաղային վարքագիծ 'հաճախականություն/երկարություն, տոկոսադրույքներ/րոպե, անկայունություն, սիրելի ժանրեր/պրովայդերներ։
Վճարումները 'ավանդների/եզրակացությունների հաճախականությունը/գումարը, մեթոդները (Papara/PIX/քարտ), chargeback/շեղումը։
Մարքեթինգը/CRM 'ներգրավման ալիքները, բոնուսների/որոնումների արձագանքը, արձագանքները։
Սարքեր/պլատֆորմներ ՝ OS, տարբերակը, հաճախորդի արտադրանքը, ցանցի տեսակը։
RG/complaens 'ինքնանպատակ դրոշներ, լիմիտներ, սապպորտի դիմումներ (առանց PII)։
2. 2 Ինժեներական ֆիչ
Ագրեգատները պատուհաններով ՝ 7/28/90 օր; նորմալացնում ենք «ակտիվ օրը»։
Ստանդարտացում/robaste-score: z-score/robust-scaler (IQR), log-skayl «երկար պոչերի» համար։
Ռուսական սաղմեդինգի/one-hot: պրովայդերներ/ալիքներ/երկրներ։
Չափման կրճատումը 'PCA/UMAP աղմուկի և տեսողության համար, բայց պահել «հում» վեկտորը մեկնաբանելու համար։
Zero-PII-ը 'ինդեքսատորների փոխարեն, արգելում ենք անձնական դաշտերը։
3) Ալգորիթմներ և երբ դրանք վերցնենք
k-means/Mini-Batch k-means - արագ baseline մեծ տվյալների համար; սֆիրիզմի ենթադրություն։
GMM-ը փափուկ պատկանելիություն է (probabilities), օգտակար է «սահմանային» խաղացողների համար։
DBSCAN/HDBSCAN - գտնում է կամայական ձևի կլաստերներ և «աղմուկ» (անոմալիա); զգայուն է «eps» -ի նկատմամբ։
Հիերարխիկ (Ward/average) - դենդրոգրամներ «ծառի» հատվածների համար, լավ միջին N.
Սպեկտրալ կլաստերների համար։ ճանապարհը մեծ N.
SOM (Կոհոնենի քարտեզները) - վարքագծային պաթոգենների 2D քարտեզները։
Խառը տեսակներ (mixed 105) 'k-delotypes, k-modes, Գաուերի հեռավորությունը։
Այսպիսով, սկսեք Mini-Batch k-means (արագություն) + HDBSCAN (աղմուկ/անոմալիա) և համեմատեք կոմպոզիցիան։
4) Ինչպես ընտրել k և գնահատել որակը
Ներքին մետրերը ՝ Silhouette (ավելի բարձր, այնքան ավելի լավ), Davies-Bouldin (ներքևում 'ավելի լավ), Calinski-Harabasz։
Տե՛ ս 'կրկնվող կլաստերիզացիա բութսենի վրա, Rand Index/NMI տարբերությունների միջև։
Արտաքին լիդիցիան 'KPI-ի տարբերությունը (GGR/NET, պահպանումը, օֆերի փոխակերպումը, FPR) կլաստերների միջև։
Բիզնես մեկնաբանությունը 'կլաստերները պետք է ունենան հասկանալի պրոֆիլներ և գործողություններ։ Եթե ոչ, վերագտնեք ֆիչին/մասշտաբը/ալգորիթմը։
5) Մասնագիտություն և բացատրություն
Պրոֆիլներ ՝ բժիշկներ/քվանտներ ֆիչ, լավագույն խաղեր/պրովայդերներ, սարքեր, հիբրիդային մեթոդներ, ալիքներ։
Բնակչության տարբերությունը 'Pro p-2019/2019, տեսողական «ռադար»։
Coral intainers: SHAP/Permutation imultics-ը կլաստերների միջև սահմանների համար («cluster _ id»)։
Մենք անվանում ենք կլաստերներ ՝ «High-rolers crash», «Bonus-hunters slots», «Casportwekend»։
6) Վիրահատություն (on.ru/24.ru)
Ռուսական կլաստերիզացիան մեկ անգամ օրական/շաբաթ ցույց է տալիս «անձնագրեր» հատվածների հրատարակումը։
Online-յուրացումը 'մոտակա կենտրոնը (k-means), հավանականությունը (GMM), «աղմուկը» (HDBSCAN) ֆալբack կանոնները։
Դրեյֆը 'PSI/KC-ի դիտարկումը հիմնական փուլերով, որոնք կապված են կլաստերների, աղմուկի հաճախության միջև։
Կյանքի ցիկլը 'ստուգումը յուրաքանչյուր 1-3 ամիս; MAJOR-ը ֆիչ/նորմալ փոխելիս։
7) Մոսկվան և գործողությունները
Կերպարացում 'օֆֆերներ/հաճախականության լիմիտներ, պրովայդերների ընտրությունը և ռետրային մեխանիկները։
CRM/ալիքներ 'թնդանոթների/էմեյլների հաճախականությունը, ժամանակի պատուհանները, լեզուն/տոնայնությունը։
Մարքեթինգը 'սեգմենտների, ստեղծարարությունների, LTV կանխատեսման բյուջեն։ «nudge» vs «value» ռազմավարություն։
RG/ռիսկ 'փափուկ միջամտություններ ռիսկերի համար, «ձեռքով» ակնարկ անոմալիաների համար։
Անտիֆրոդը ՝ ոչ հիփիչային հիբրիդային ճանապարհների կլաստերները/dewiss-ը բարձրացված կարբինգ է։
8) Գաղտնիությունը և կոմպլենսը
K-անունությունը կատարվում է (առնվազն N օբյեկտ կտրելու համար)։
Zero-PII-ում/logs/dashbords, տոկենիզացիա; DSAR հեռացումը։
Geo/tenault-մեկուսացում 'սովորել/պահել հատվածները լիցենզիայի տարածքում։
Fairness-ը 'ստուգում ենք զգայուն չափումների տարբերությունները (երկիր/վճարման մեթոդ/սարք)։
Օգտագործումը 'արգելված է «ագրեսիվ» օֆերներ RG-2019 (քաղաքականություն) համար։
9) Հաջողության մետրերը
Վիրահատական 'առցանց լուծումների մասնաբաժինը Բիզնեսը 'uplift-ը, ARPU/LTV հատվածները, FPR հակաֆրոդի նվազումը, RG ռեակցիայի արագությունը։ Մոդելի որակը ՝ silhouette, DB 210, stability, KPI տարբերությունը կլաստերների միջև։ 10) Corpline (ստանդարտ) Bronze → Silver → Gold → Serve 1. Ingest իրադարձություններ/վճարումներ/սարքեր տեղադրվում են մաքրման/ջոյնի միջոցով։ 2. Feature Store: վիտրինի հաշվարկը (7/28/90d), ստանդարտացումը, դիմակները/հոսանքները։ 3. Dance-reduction (PCA/UMAP) տեսողությունների համար (ոչ թե սերվինգի համար)։ 4. Clustering (112), մետրի գնահատումը, «անձնագրերի» արտադրությունը։ 5. Online assignations API: մոտակա կենտրոն/հավանականության/» աղմուկ»։ 6. Monitoring: Dreef, intel, «աղմուկի» հաճախությունը, KPI հատվածները։ 7. Release: semver, shadow/canary, rollback; հատվածների կատալոգ BI-ում։ 11) Հատվածների օրինակներ (iGaming) Bonus-hunters slots-ը 'ֆրիսպինների/քեշբեքի բարձր մասը, կարճ նստաշրջանները, ելույթի շատ մերժումներ' փափուկ լիմիտներ պրոմո, թափանցիկ պայմաններ։ Crash-risk takers: կարճ ինտենսիվ նստաշրջաններ, արագ բարձրացումը հաճախականության/սառեցման սահմաններ են։ Systocial-social: Երկար երեկոյան նստաշրջաններ հանդիպման ժամանակ, բարձր CTR-ն social-քարոզարշավի վրա 'courims և live-ivents։ Thin-www.newcomers: 1-2 դեպոզիտ, քիչ շրջադարձեր 'ողջույնի տուրատորիալներ, KYC աջակցություն։ Anomaly-payments: դրամապանակների/մեթոդների հաճախակի փոփոխություն, գեո-ցատկ - ուժեղ հակաֆրոդ։ 12) Արտեֆակտների օրինակները 12. 1 Հատվածների կատալոգ (հատված) 12. 2 Սերվինգի քաղաքականությունը 12. 3 Ռուսական անձնագիր (BI) 13) Իրականացման ճանապարհային քարտեզը 0-30 օր (MVP) 1. Հավաքեք վիտրինները (7/28/90d), ստանդարտացրեք, կտրեք PII։ 2. Mini-Batch k-means 5-9 կլաստերների վրա + HDBSCAN-ը աղմուկի համար։ 3. Կլաստերների անձնագիր, առցանց assigner, dashbord/dreafa։ 4. Երկու ստանդարտ փորձարկումներ 'սեգմենտային օֆֆերներ և թնդանոթների հաճախությունը։ 30-90 օր 1. GMM-ը soft-պատկանելիության համար։ խառը տեսակներ (k-intotypes)։ 2. Avto-Express անգամ N-օրերում, shadow procanary; Alts-ը PSI/2019-ում։ 3. Մեկնաբանությունը (SHAP քարտեր), BI հատվածների կատալոգը և API-ը CRM/առաջարկի համար։ 3-6 ամիս 1. Geo/tenant-հատուկ հատվածներ; միավորվել սարքերի/վճարումների գրաֆիկի հետ։ 2. Ռուսական կոորտները + անցումային մատրիցները (Markov) LTV պլանավորման համար։ 3. RG/AML քաղաքականությունները հատվածների մակարդակում։ գաղտնիության/էթիկայի արտաքին աուդիտ։ 14) Anti-patterna Ընտրություն k «աչքերի վրա» և գնահատումը միայն silhouette առանց բիզնես ստուգումների։ PII-ի խառնուրդը և վարքագծային ֆիգուրը; k-անունության բացակայությունը զեկույցներում։ Չկա առցանց assigner 'a ռուսական հատվածներ «կախված» BI-ում առանց գործողությունների։ Փոխակերպումը սեզոնի համար/ակցիա; միգրացիայի մոնիտորինգի բացակայությունը։ Կլաստերների օգտագործումը «ագրեսիվ» մարքեթինգի համար առանց RG-hard կանոնների։ Բոլոր երկրների/բրենդների համար հատվածների մեկ հավաքածու առանց տեղական հատկությունների։ 15) RACI Master Platform (R) 'վիտրիններ ֆիչ, wwww.pline, www.ru, wwww.ru, wwwwww.tw.ru։ Windows Science (R) 'ալգորիթմի ընտրություն, k/մետր, մեկնաբանություն։ Cort/CRM (A) 'սեգմենտների, փորձարկումների գործողություններ։ Risk/RG (C) 'սահմանափակումների քաղաքականությունը և HITL-ը «ծանր» հատվածների համար։ System/DPO (A/R) 'գաղտնիություն, տոկենիզացիա, k-անունություն։ BI (C) 'dashbords, windows և, ռուսական։ 16) Կապված հատվածներ Սեգմենտացված targeging, խորհրդատվական համակարգեր, խաղացողների ավելացում, կողմնակալության նվազում, Benchmarking արտադրողականությունը, API վերլուծաբանները և մետրիկը, MLOps-ը, մոդելների շահագործումը, տվյալների էթիկան և թափանցիկությունը։ Կլաստերիզացիան ոչ միայն UMAP-ի գրաֆիկն է, այլ արտադրողական գործիքը 'մաքուր ֆիտներ առանց PII, կայուն գծապատկերներ և հասկանալի «անձնագրեր» հատվածներ, onome-assigner և CRM/արտադրանք/RG։ Դրեյֆի վերլուծության և մոնիտորինգի ժամանակ նա վերածում է «վարքագծի քաոս» աճի, անվտանգության և պատասխանատվության կառավարվող ռազմավարության։yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]Արդյունքը