GH GambleHub

डेटा विभाजन

डेटा विभाजन

विभाजन लक्ष्यीकरण, निजीकरण, विश्लेषण और जोखिम प्रबंधन के लिए सजातीय समूहों में कई वस्तुओं (उपयोगकर्ताओं, लेनदेन, उत्पादों, घटनाओं) का विभाजन है। अच्छा विभाजन मार्जिन बढ़ाता है, लागत को कम करता है, और निर्णयों को स्पष्ट करता है।

1) लक्ष्य और उद्देश्य

विपणन और विकास: व्यक्तिगत प्रस्ताव, संपर्क आवृत्ति, एंटी-स्पैम नीति।

मुद्रीकरण: मूल्य भेदभाव, बंडल, वीआईपी सेवा।

जोखिम और अनुपालन: नियंत्रण स्तर, केवाईसी/एएमएल ट्रिगर, संदिग्ध पैटर्न का स्कोरिंग।

उत्पाद और अनुभव: स्क्रिप्ट, सामग्री/खेल की सिफारिशों, गतिशील सीमाओं द्वारा ऑन बोर्डिंग।

संचालन: समर्थन का प्राथमिकता देना, सीमाओं का वितरण और कोटा।

हम विभाजन इकाई (उपयोगकर्ता/सत्र/व्यापारी), क्षितिज (7/30/90 दिन), रूपांतरण आवृत्ति (ऑनलाइन/दैनिक/साप्ताहिक) और लक्ष्य केपीआई तैयार करते हैं।

2) खंड वर्गीकरण

जनसांख्यिकी/भू: देश, भाषा, मंच।

व्यवहार: गतिविधि, आवृत्ति, गहराई, दिन का समय, पसंदीदा श्रेणियां।

मूल्य-आधारित: ARPU/ARPPU, LTV मात्रा, मार्जिनलिटी।

स्टेज: ऑन बोर्डिंग, परिपक्व, "सोते हुए", वापस आ गया।

RFM: डिब्बे/मात्रा के साथ पुनरावृत्ति, आवृत्ति, मौद्रिक।

Cohort: नामांकन तिथि/पहला भुगतान/स्रोत द्वारा।

जोखिम खंड: चार्जबैक-जोखिम, बोनस-दुरुपयोग-जोखिम, असामान्य गतिविधि।

जीवन चक्र: प्रवृत्ति-से-मंथन, प्रवृत्ति-से-खरीद, अगली-सर्वश्रेष्ठ कार्रवाई।

प्रासंगिक: उपकरण/चैनल/क्षेत्रीय नियम।

3) डेटा और तैयारी

प्वाइंट-इन-टाइम शुद्धता: संकेत उपलब्ध "अतीत" से गिने जाते हैं।

विंडो द्वारा समुच्चय: 7/30/90-दिन की रकम/आवृत्तियाँ/मात्रा।

सामान्यीकरण: रोबस्ट स्केलिंग (मध्य/एमएडी), लंबी पूंछ के लिए लॉग ट्रांसफॉर्मेशन।

श्रेणियां: एक-गर्म/लक्ष्य/हैश; "दुर्लभ" मूल्यों का नियंत्रण।

गुणवत्ता: चूक, डुप्लिकेट, सर्किट का बहाव, समय क्षेत्रों का तुल्यकालन।

शब्दार्थ: एमएल विभाजन से पहले स्पष्ट व्यावसायिक नियम (उदाहरण के लिए, जमा ≥1)।

4) विभाजन के तरीके

4. 1. व्हाइट-बॉक्स नियम और थ्रेसहोल्ड

सरल स्थिति: "VIP अगर LTV ≥ X और आवृत्ति ≥ YE।"

पेशेवरों: समझने योग्य, जल्दी से एक नीति के रूप में लागू किया गया।

विपक्ष: बहने पर नाजुकता, नियमों की संख्या बढ़ ने पर समर्थन की जटिलता।

4. 2. क्लस्टरिंग (असुरक्षित)

के-मीन्स/के-मेडॉयड्स: संख्यात्मक विशेषताओं पर त्वरित आधारभूत।

जीएमएम: नरम सामान, संभाव्य खंड।

HDBSCAN/DBSCAN: फ्री-फॉर्म क्लस्टर + "शोर" विसंगतियों के रूप में।

मिश्रित प्रकारों पर वर्णक्रमीय/ईएम: जटिल ज्यामितीय के लिए।

फीचर लर्निंग क्लस्टर: पहले एम्बेडिंग (ऑटोएनकोडर/ट्रांसफार्मर), फिर अव्यक्त स्थान में क्लस्टरिंग।

4. 3. पर्यवेक्षण-विभाजन (लक्ष्य-चालित)

हम लक्ष्य केपीआई (उदाहरण के लिए, एलटीवी/जोखिम) पर मॉडल को प्रशिक्षित करते हैं, और भविष्यवाणी मात्रा, एसएचएपी प्रोफाइल और निर्णय पेड़ों के अनुसार खंडों का निर्माण करते हैं।

पेशेवरों: खंड एक व्यावसायिक लक्ष्य से "बंधे" हैं, उत्थान की जांच करना आसान है।

विपक्ष: "फिट" का जोखिम; कठोर सत्यापन की आवश्यकता है।

4. 4. आवृत्ति रूपांकनों और नियमों

आरएफएम मैट्रिसेस, साहचर्य नियम (समर्थन/लिफ्ट), लगातार अनुक्रम (उपसर्ग) - विशेष रूप से उत्पाद नेविगेशन और बंडलों के लिए।

4. 5. ग्राफ/नेटवर्क सेगमेंट

संचार समुदाय (उपकरण, भुगतान विधियाँ, रेफरल); जीएनएन लक्षणों को समृद्ध करने के लिए।

5) दृष्टिकोण का विकल्प: तेज मैट्रिक्स

स्थितिआंकड़ासिफारिश
एक प्रबंधित नीति की आवश्तालिका + व्यापार नियमनियम आधारित + आवधिक संशोधन
"प्राकृतिक" समूहों के लिए खोजेंकई संख्यात्मक विशेषताएंके-मीन्स/जीएमएम, फिर समूहों का वर्णन करें
मजबूत nonlinearityमिश्रित/उच्च आयामएम्बेडिंग्स → HDBSCAN
प्रत्यक्ष लक्ष्य (LTV/जोखिम)टैग/लक्ष्य हैंभविष्यवाणी पर्यवेक्षण विभाजन
नेटवर्क/संचारगणना करेंसामुदायिक पहचान + ग्राफ सुविधाएँ

6) विभाजन गुणवत्ता मूल्यांकन

आंतरिक मैट्रिक्स (कोई संदर्भ नहीं):
  • सिल्हूट/डेविस-बोल्डिन/कैलिंस्की-हरबाज़: कॉम्पैक्टनेस और अलगाव।
  • स्थिरता: पुनरारंभ/बूटस्ट्रैप के बीच जैकार्ड/एआरआई।
  • सूचनात्मकता: प्रमुख विशेषताओं का प्रतिच्छेदन विचरण।
बाहरी/व्यावसायिक मेट्रिक्स:
  • केपीआई द्वारा समरूपता: खंडों के बीच एलटीवी/रूपांतरण/जोखिम में अंतर।
  • क्रियाशीलता: खंडों का अनुपात जिसके लिए हस्तक्षेप की प्रतिक्रिया भिन्न होती है।
  • उत्थान/ए/बी: खंड लक्ष्यीकरण बनाम कुल लक्ष्यीकरण।
  • कवरेज: "लाइव" सेगमेंट में% उपयोगकर्ता (न केवल "शोर")।

7) मान्यता और मजबूती

टेम्पोरल सीवी: समय के साथ खंडों की स्थिरता की जाँच (रोलिंग विंडो)।

समूह सत्यापन: ट्रेन/वैल के बीच उपयोगकर्ताओं/उपकरणों का मिश्रण न करें।

प्रतिकृति - पड़ोसी बाजारों/चैनलों में चलाएं।

बहाव: सुविधाओं और खंड वितरण द्वारा पीएसआई/जेएस-डिव; अलर्ट पर थ्रेसहोल्ड।

स्थिर पक्ष/आरंभीकरण: विभाजन संस्करणों की तुलना करने के लिए।

8) व्याख्या

खंड पासपोर्ट: नियमों/केंद्रों का विवरण, मुख्य विशेषताएं (शीर्ष-SHAP/क्रमपरिवर्तन), दर्शकों का चित्र, केपीआई प्रोफ़ाइल।

दृश्य: खंड रंगों के साथ UMAP/t-SNE, खंड द्वारा मैट्रिक्स की "जाली"।

सक्रियण के लिए नियम: मानव टैब ("उच्च-मूल्य Infrequent", "जोखिम भरा नवागंतुक")।

9) परिचालन कार्यान्वयन

Fichestor: एक समान ऑनलाइन/ऑफ़लाइन फ़ीचर गणना फ़ंक्शन।

बचाव: एसएलए और आवृत्ति (प्रवेश पर ऑनलाइन, एक बार दैनिक, घटना पर)।

एपीआई/बैच निर्यात: उपयोगकर्ता आईडी → सेगमेंट/संभावना/टाइमस्टैम्प।

वर्शनिंग: 'SEG _ MODUE _ vX', डेटा अनुबंध, प्रशिक्षण सेट फ्रीज तिथि।

नीतियां: प्रत्येक खंड के लिए - कार्रवाई के नियम (प्रस्ताव/सीमाएं/समर्थन प्राथमिकता)।

विफल-सुरक्षित: गिरावट पर डिफ़ॉल्ट खंड (कोई सुविधा/समय नहीं)।

10) प्रयोग और निर्णय लेना

A/B/n खंड द्वारा: हम एक ही खंड ग्रिड पर विभिन्न ऑफ़ र/लिमिट का परीक्षण करते हैं।

उत्थान: लक्ष्यीकरण प्रभाव बनाम नियंत्रण (Qini/AUUC, उत्थान @ k)।

बजट आबंटन: हम बजट को मार्जिन/जोखिम सीमा द्वारा खंडों द्वारा वितरित करते हैं।

रेलिंग: जोखिम खंडों, संपर्क दर और दर्शकों की थकान के लिए एफपीआर/एफएनआर।

11) नैतिकता, गोपनीयता, अनुपालन

डेटा कम से कम: हम आवश्यक न्यूनतम, छद्म नाम का उपयोग करते हैं।

निष्पक्षता: संवेदनशील खंडों द्वारा नीतियों की त्रुटियों और "कठोरता" की तुलना करें; नियमों से संरक्षित विशेषताओं को छोड़ कर, या निष्पक्षता सुधार लागू करें।

समझाने का अधिकार: दस्तावेज़ खंड असाइनमेंट तर्क।

ऑडिट: खंडों द्वारा अभियानों के संस्करणों, इनपुट सुविधाओं, निर्णयों और परिणामों का लॉग।

12) कलाकृतियाँ पैटर्न

खंड पासपोर्ट

कोड/संस्करण: 'SEG _ HVIF _ v3'

वर्णन: "उच्च मूल्य, दुर्लभ गतिविधि"

मानदंड/केंद्र: 'LTV _ quantile ≥ 0। 9 ',' Recency _ days ∈ [15,45] ',' फ्रीक्वेंसी _ 30d ∈ [1,3] '

आकार/पहुंच: 4। 8% उपयोगकर्ता (पिछले 30 दिन)

केपीआई प्रोफ़ाइल: ARPPU ↑ 2। औसत के 4 ×, चुरन-जोखिम औसत

सिफारिशें: सॉफ्ट री-एंगेज ऑफर, क्रॉस-सेल प्रीमियम उत्पाद, आवृत्ति सीमा 1/7 डी

जोखिम: अत्यधिक छूट - "लत"

मालिक: CRM/मुद्रीकरण

दिनांक/वैधता: 2025-10-15; तिमाही संशोधन

विभाजन संविदा

स्रोत विशेषता: 'fs। user_activity_v5'

अनुसूची: रात बैच 02:00 UTC; 'खरीद' घटना पर ऑनलाइन अपडेट

सेवा: 'खंड। api/v1/score '(p95 ≤ 120 мс)

लॉग: 'seg _ scoring _ log' (फ़ीचर हैश, संस्करण, गति, खंड)

अलर्ट: "अज्ञात" शेयर> 2%; मुख्य विशेषताओं> 0 द्वारा PSI। 2; खंड असंतुलन> प्रति दिन 10 पीपी

13) प्री-रिलीज़चेकलिस्ट

  • विभाजन प्रभाव लक्ष्यों और केपीआई सहमत
  • इकाई, खिड़कियां और रूपांतरण आवृत्ति परिभाषित
  • एक बेसलाइन (नियम-आधारित) और एक एमएल संस्करण है; उत्थान तुलना
  • खंड प्रलेखन + दृश्य और मानव टैब
  • ट्यून्ड ए/बी, रेलिंग और बहाव अलर्ट
  • Versioning, डेटा अनुबंध, घटना runibooks
  • प्रति खंड और डिफ़ॉल्ट-फॉलबैक कार्रवाई नीतियाँ

कुल

विभाजन एक "वन-टाइम क्लस्टरिंग" नहीं है, बल्कि एक नियंत्रण लूप है: सही डेटा और खिड़कियां, पारदर्शी खंड, केपीआई से संबंध, कठोर सत्यापन, परिचालन एसएलओ और बहाव निगरानी। जटिलता (एम्बेडिंग, रेखांकन, पर्यवेक्षण दृष्टिकोण) केवल वहां जोड़ें जहां यह एक औसत दर्जे का उत्थान देता है और व्यवसाय और अनुपालन के लिए व्याख्यात्मक रहता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।