डेटा क्लस्टरिंग
1) क्यों एक iGaming मंच क्लस्टर
टैग के बिना निजीकरण: हम ऑफ़ र, सीमा, UX को लक्षित करने के लिए व्यवहार द्वारा खिलाड़ियों को समूह करते हैं।
संचालन और जोखिम: हम "पतली फाइलें", atypical भुगतान पैटर्न, धोखाधड़ी समूहों की पहचान करते हैं।
उत्पाद और सामग्री: पसंदीदा प्रदाताओं/यांत्रिकी (क्रैश/स्लॉट/लाइव), जीवन चक्र पर खंड।
एनालिटिक्स और रणनीतिक अंतर्दृष्टि: बाजार/अभियान/सीजन द्वारा खंडों का मिश्रण कैसे बदलता है।
2) डेटा और टैग स्पेस
2. 1 स्रोत
गेमिंग व्यवहार: सत्रों की आवृत्ति/लंबाई, दांव/मिनट, अस्थिरता, पसंदीदा शैलियों/प्रदाताओं।
भुगतान: जमा/निकासी की आवृत्ति/मात्रा, विधियाँ (पापारा/पीआईएक्स/कार्ड), चार्जबैक/विचलन।
विपणन/सीआरएम: आकर्षण चैनल, बोनस/quests पर प्रतिक्रिया, प्रतिक्रियाएं।
उपकरण/प्लेटफॉर्म: ओएस, संस्करण, क्लाइंट स्थिरता, नेटवर्क प्रकार।
आरजी/अनुपालन: स्व-बहिष्करण झंडे, सीमा, समर्थन कॉल (पीआईआई के बिना)।
2. 2 इंजीनियरिंग सुविधा
खिड़कियों द्वारा समुच्चय: 7/28/90 दिन; राशन "एक सक्रिय दिन के लिए"।
मानकीकरण/रोबस्ट स्केलिंग: जेड-स्कोर/मजबूत-स्केलर (IQR), "लंबी पूंछ" के लिए लॉग-स्केल।
श्रेणियां - एम्बेडिंग/वन-हॉट: प्रदाता/चैनल/देश।
आयाम में कमी: शोर और दृश्य के लिए पीसीए/यूएमएपी, लेकिन व्याख्या के लिए एक "कच्चा" वेक्टर स्टोर करें।
शून्य-पीआईआई: पहचानकर्ताओं के बजाय टोकन, हम व्यक्तिगत क्षेत्रों को प्रतिबंधित करते हैं।
3) एल्गोरिदम और उन्हें कब लेने के लिए
के-मीन्स/मिनी-बैच के-मतलब - बड़े डेटा के लिए फास्ट बेसलाइन; गोलाकार धारणा।
जीएमएम - नरम संबद्धता (संभावनाएं), "सीमा" खिलाड़ियों के लिए उपयोगी।
DBSCAN/HDBSCAN - फ्री-फॉर्म क्लस्टर और "शोर" (विसंगतियाँ) पाता है; 'eps' के प्रति संवेदनशील है।
पदानुक्रमित (वार्ड/औसत) - खंडों के "पेड़" के लिए डेंड्रोग्राम, औसत एन।
वर्णक्रमीय - गैर-गोलाकार समूहों के लिए; बड़े एन पर सड़ क
एसओएम (कोहोनेन मानचित्र) - व्यवहार पैटर्न के व्याख्यात्मक 2 डी मानचित्र।
मिश्रित डेटा: के-प्रोटोटाइप, के-मोड, गोवर दूरी।
संकेत: मिनी-बैच के-साधन (गति) + एचडीबीएससीएएन (शोर/विसंगतियों) के साथ शुरू करें और स्थिरता की तुलना करें।
4) k को कैसे चुनें और गुणवत्ता का मूल्यांकन करें
आंतरिक मैट्रिक्स: सिल्हूट (उच्चतर बेहतर है), डेविस-बोल्डिन (निचला बेहतर है), कैलिंस्की-हरबाज़।
स्थिरता: विभाजन के बीच बूटस्ट्रैप नमूनों, रैंड इंडेक्स/एनएमआई पर फिर से क्लस्टरिंग।
बाहरी वैधता: समूहों के बीच केपीआई (जीजीआर/नेट, प्रतिधारण, ऑफ़ र का रूपांतरण, एफपीआर) की विशिष्टता।
व्यावसायिक व्याख्या: समूहों में स्पष्ट प्रोफाइल और कार्य होने यदि नहीं, तो सुविधाओं/स्केल/एल्गोरिथ्म को ओवरराइड करें।
5) प्रोफाइल और व्याख्या
क्लस्टर प्रोफाइल: मेडियन/क्वांटिल्स फीचर, टॉप गेम/प्रदाता, डिवाइस, भुगतान के तरीके, चैनल।
जनसंख्या के साथ अंतर: p-points/the में, रडार द्वारा दृश्य।
स्थानीय व्याख्याकार: समूहों के बीच सीमाओं के लिए SHAP/क्रमपरिवर्तन महत्व (प्रशिक्षित वर्गीकरण के माध्यम से "।
हम समूहों को कहते हैं: "हाई-रोलर्स क्रैश", "बोनस-हंटर्स स्लॉट्स", "कैजुअल वीकेंड लाइव"।
6) ऑपरेशन (ऑनलाइन/ऑफ़लाइन)
ऑफ़ लाइन क्लस्टरिंग दिन में एक बार/सप्ताह - खंडों के "पासपोर्ट" का प्रकाशन।
ऑनलाइन असाइनमेंट: निकटतम केंद्र (के-साधन), संभावना (जीएमएम), "शोर" (एचडीबीएससीएएन) - फॉलबैक नियम।
बहाव: प्रमुख विशेषताओं, समूहों के बीच प्रवास, "शोर" आवृत्तियों द्वारा पीएसआई/केसी की निगरानी करें।
जीवन चक्र: हर 1-3 महीने में संशोधन; सुविधाओं/मानकों को बदलते समय प्रमुख
7) एकीकरण और कार्रवाई
निजीकरण: प्रस्ताव/आवृत्ति सीमा, प्रदाताओं का चयन और टूर्नामेंट यांत्रिकी।
CRM/चैनल: फुलाना/ईमेल आवृत्तियां, समय विंडो, भाषा/टोनलिटी।
विपणन: खंड, क्रिएटिव, एलटीवी पूर्वानुमान द्वारा बजट; रणनीति का "कुहनी" बनाम "मूल्य"।
आरजी/जोखिम: जोखिम क्लस्टर के लिए हल्के हस्तक्षेप, विसंगतियों के लिए "मैनुअल" समीक्षा।
एंटीफ्राड: एटिपिकल भुगतान पथ/उपकरणों के समूह - बढ़े हुए स्कोरिंग।
8) गोपनीयता और अनुपालन
रिपोर्ट की के-गुमनामी (न्यूनतम एन ऑब्जेक्ट प्रति स्लाइस)।
फिच/लॉग/डैशबोर्ड, टोकन में शून्य-पीआईआई; टोकन द्वारा DSAR विलोपन।
जियो/किरायेदार-अलगाव: लाइसेंस क्षेत्र में ट्रेन/स्टोर सेगमेंट।
निष्पक्षता जांच: हम संवेदनशील माप (देश/भुगतान विधि/उपकरण) द्वारा अंतर की जांच करते हैं।
उपयोग: आरजी क्लस्टर (नीतियों) के लिए "आक्रामक" प्रस्ताव निषिद्ध हैं।
9) सफलता मेट्रिक्स
ऑपरेटिंग: ऑनलाइन एट्रिब्यूशन व्यवसाय: ऑफ़ र का उत्थान, ARPPU/LTV खंड द्वारा, धोखाधड़ी विरोधी FPR, RG प्रतिक्रिया गति में कमी। मॉडल गुणवत्ता: सिल्हूट ↑, डीबी ↓, स्थिरता ↑, समूहों के बीच विशिष्ट केपीआई। 10) पाइपलाइन (संदर्भ) कांस्य → सिल्वर → गोल्ड → सर्व करें 1. सबसे बड़ी घटनाएं/भुगतान/उपकरण → सफाई/खुशी। 2. फ़ीचर स्टोर: विंडो गणना (7/28/90 डी), मानकीकरण, मास्क/टोकन। 3. दृश्यों के लिए मंद-कमी (पीसीए/यूएमएपी) (सर्फिंग के लिए नहीं)। 4. क्लस्टरिंग (ऑफ़लाइन), मेट्रिक्स का मूल्यांकन, "पासपोर्ट" का उत्पादन। 5. ऑनलाइन असाइनमेंट एपीआई: निकटतम केंद्र/संभावनाएं/" शोर"। 6. निगरानी: बहाव, प्रवासन, "शोर" की आवृत्ति, खंड द्वारा केपीआई। 7. रिलीज़: सेवर, छाया/कैनरी, रोलबैक; बी आई में खंड निर्देशिका 11) खंड उदाहरण (iGaming) बोनस-शिकारी स्लॉट: फ्रीस्पिन/कैशबैक का उच्च हिस्सा, लघु सत्र, कई आउटपुट विफलताएं - नरम प्रोमो सीमा, पारदर्शी स्थितियां। क्रैश-जोखिम लेने वाले: लघु गहन सत्र, तेजी से दर निर्माण - आवृत्ति सीमा/शीतलन। लाइव-सोशल: लाइव पर लंबे शाम के सत्र, सामाजिक अभियानों पर उच्च सीटीआर - धाराओं और जीवित घटनाओं का क्यूरेशन। थिन-फ़ाइल नवागंतुक: 1-2 जमा, कुछ राउंड - स्वागत योग्य ट्यूटोरियल, केवाईसी समर्थन। विसंगति-भुगतान: पर्स/विधियों का लगातार परिवर्तन, भू-दौड़ - विरोधी धोखाधड़ी को बढ़ाया। 12) कलाकृतियाँ पैटर्न 12. 1 खंड कैटलॉग (टुकड़ा) 12. 2 सर्फिंग की राजनीति 12. 3 क्लस्टर पासपोर्ट (बीआई) 13) कार्यान्वयन रोडमैप 0-30 दिन (एमवीपी) 1. प्रदर्शन मामलों (7/28/90 डी) को इकट्ठा करें, मानकीकृत करें, पीआईआई को काटें। 2. "शोर" के लिए 5-9 समूहों + मूल HDBSCAN के लिए मिनी-बैच के-साधन। 3. क्लस्टर, ऑनलाइन असाइनमेंट, माइग्रेशन/ड्रिफ्ट डैशबोर्ड का पासपोर्ट। 4. दो उत्पाद प्रयोग: खंड प्रस्ताव और फुलाना आवृत्ति। 30-90 दिन 1. सॉफ्ट-एक्सेसरी के लिए जीएमएम; मिश्रित प्रकार (के-प्रोटोटाइप)। 2. प्रत्येक एन दिनों में ऑटो-आश्वस्त करें, छाया → कैनरी; पीएसआई/प्रवासन पर अलर्ट। 3. व्याख्यात्मकता (SHAP कार्ड), खंड BI कैटलॉग और CRM/सिफारिश API। 3-6 महीने 1. जियो/किरायेदार-विशिष्ट खंड; उपकरण/भुगतान ग्राफ के साथ संयोजन। 2. LTV प्लानिंग के लिए दीर्घकालिक cohorts + संक्रमण matrices (Markov)। 3. खंड-स्तरीय आरजी/एएमएल नीतियां; बाहरी गोपनीयता/नैतिकता ऑडिट। 14) एंटी-पैटर्न K "आंख से" चुनना और व्यवसाय की जांच के बिना केवल सिल्हूट का मूल्यांकन करना। पीआईआई और व्यवहार संबंधी विशेषताओं को मिलाना; रिपोर्टों में के-गुमनामी की कमी। कार्रवाई के बिना BI में कोई ऑनलाइन असाइनमेंट → सेगमेंट "हैंग" नहीं है। सीजन/शेयर के लिए रिट्रेनिंग; पलायन की निगरानी की कमी। आरजी गार्ड नियमों के बिना "आक्रामक" विपणन के लिए समूहों का उपयोग करना। स्थानीय सुविधाओं के बिना सभी देशों/ब्रांडों के लिए एक सेट। 15) RACI डेटा प्लेटफ़ॉर्म (आर): शोकेस सुविधा, पाइपलाइन, निगरानी, संस्करण रजिस्टर। डेटा विज्ञान (आर): एल्गोरिथ्म विकल्प, k/metrics, व्याख्या। उत्पाद/सीआरएम (ए): खंड गतिविधियाँ, प्रयोग। जोखिम/आरजी (सी): "भारी" खंडों के लिए प्रतिबंध और एचआईटीएल नीतियां। सुरक्षा/डीपीओ (ए/आर): गोपनीयता, टोकन, के-गुमनामी। BI (C): डैशबोर्ड, कैटलॉग, प्रलेखन। 16) संबंधित अनुभाग खंडित लक्ष्यीकरण, सिफारिश प्रणाली, प्लेयर प्रोफाइलिंग, कम करना, पूर्वाग्रह, प्रदर्शन बेंचमार्किंग, एनालिटिक्स और मेट्रिक्स एपीआई, एमएलओपी: मॉडल शोषण, डेटा नैतिकता और पारदर्शिता। क्लस्टरिंग केवल एक यूएमएपी ग्राफ नहीं है, बल्कि एक उत्पादन उपकरण है: पीआईआई के बिना शुद्ध सुविधाएं, स्थिर मैट्रिक्स और समझने योग्य खंड पासपोर्ट, ऑनलाइन-असाइनमेंट और सीआरएम/उत्पाद/आरजी में कार्रवाई। जब बहाव के लिए नियमित रूप से ऑडिट और निगरानी की जाती है, तो यह "व्यवहार अराजकता" को विकास, सुरक्षा और जिम्मेदारी के लिए प्रबंधनीय रणनीतियों मेंyaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]कुल