डेटा विभाजन
डेटा विभाजन
विभाजन लक्ष्यीकरण, निजीकरण, विश्लेषण और जोखिम प्रबंधन के लिए सजातीय समूहों में कई वस्तुओं (उपयोगकर्ताओं, लेनदेन, उत्पादों, घटनाओं) का विभाजन है। अच्छा विभाजन मार्जिन बढ़ाता है, लागत को कम करता है, और निर्णयों को स्पष्ट करता है।
1) लक्ष्य और उद्देश्य
विपणन और विकास: व्यक्तिगत प्रस्ताव, संपर्क आवृत्ति, एंटी-स्पैम नीति।
मुद्रीकरण: मूल्य भेदभाव, बंडल, वीआईपी सेवा।
जोखिम और अनुपालन: नियंत्रण स्तर, केवाईसी/एएमएल ट्रिगर, संदिग्ध पैटर्न का स्कोरिंग।
उत्पाद और अनुभव: स्क्रिप्ट, सामग्री/खेल की सिफारिशों, गतिशील सीमाओं द्वारा ऑन बोर्डिंग।
संचालन: समर्थन का प्राथमिकता देना, सीमाओं का वितरण और कोटा।
हम विभाजन इकाई (उपयोगकर्ता/सत्र/व्यापारी), क्षितिज (7/30/90 दिन), रूपांतरण आवृत्ति (ऑनलाइन/दैनिक/साप्ताहिक) और लक्ष्य केपीआई तैयार करते हैं।
2) खंड वर्गीकरण
जनसांख्यिकी/भू: देश, भाषा, मंच।
व्यवहार: गतिविधि, आवृत्ति, गहराई, दिन का समय, पसंदीदा श्रेणियां।
मूल्य-आधारित: ARPU/ARPPU, LTV मात्रा, मार्जिनलिटी।
स्टेज: ऑन बोर्डिंग, परिपक्व, "सोते हुए", वापस आ गया।
RFM: डिब्बे/मात्रा के साथ पुनरावृत्ति, आवृत्ति, मौद्रिक।
Cohort: नामांकन तिथि/पहला भुगतान/स्रोत द्वारा।
जोखिम खंड: चार्जबैक-जोखिम, बोनस-दुरुपयोग-जोखिम, असामान्य गतिविधि।
जीवन चक्र: प्रवृत्ति-से-मंथन, प्रवृत्ति-से-खरीद, अगली-सर्वश्रेष्ठ कार्रवाई।
प्रासंगिक: उपकरण/चैनल/क्षेत्रीय नियम।
3) डेटा और तैयारी
प्वाइंट-इन-टाइम शुद्धता: संकेत उपलब्ध "अतीत" से गिने जाते हैं।
विंडो द्वारा समुच्चय: 7/30/90-दिन की रकम/आवृत्तियाँ/मात्रा।
सामान्यीकरण: रोबस्ट स्केलिंग (मध्य/एमएडी), लंबी पूंछ के लिए लॉग ट्रांसफॉर्मेशन।
श्रेणियां: एक-गर्म/लक्ष्य/हैश; "दुर्लभ" मूल्यों का नियंत्रण।
गुणवत्ता: चूक, डुप्लिकेट, सर्किट का बहाव, समय क्षेत्रों का तुल्यकालन।
शब्दार्थ: एमएल विभाजन से पहले स्पष्ट व्यावसायिक नियम (उदाहरण के लिए, जमा ≥1)।
4) विभाजन के तरीके
4. 1. व्हाइट-बॉक्स नियम और थ्रेसहोल्ड
सरल स्थिति: "VIP अगर LTV ≥ X और आवृत्ति ≥ YE।"
पेशेवरों: समझने योग्य, जल्दी से एक नीति के रूप में लागू किया गया।
विपक्ष: बहने पर नाजुकता, नियमों की संख्या बढ़ ने पर समर्थन की जटिलता।
4. 2. क्लस्टरिंग (असुरक्षित)
के-मीन्स/के-मेडॉयड्स: संख्यात्मक विशेषताओं पर त्वरित आधारभूत।
जीएमएम: नरम सामान, संभाव्य खंड।
HDBSCAN/DBSCAN: फ्री-फॉर्म क्लस्टर + "शोर" विसंगतियों के रूप में।
मिश्रित प्रकारों पर वर्णक्रमीय/ईएम: जटिल ज्यामितीय के लिए।
फीचर लर्निंग क्लस्टर: पहले एम्बेडिंग (ऑटोएनकोडर/ट्रांसफार्मर), फिर अव्यक्त स्थान में क्लस्टरिंग।
4. 3. पर्यवेक्षण-विभाजन (लक्ष्य-चालित)
हम लक्ष्य केपीआई (उदाहरण के लिए, एलटीवी/जोखिम) पर मॉडल को प्रशिक्षित करते हैं, और भविष्यवाणी मात्रा, एसएचएपी प्रोफाइल और निर्णय पेड़ों के अनुसार खंडों का निर्माण करते हैं।
पेशेवरों: खंड एक व्यावसायिक लक्ष्य से "बंधे" हैं, उत्थान की जांच करना आसान है।
विपक्ष: "फिट" का जोखिम; कठोर सत्यापन की आवश्यकता है।
4. 4. आवृत्ति रूपांकनों और नियमों
आरएफएम मैट्रिसेस, साहचर्य नियम (समर्थन/लिफ्ट), लगातार अनुक्रम (उपसर्ग) - विशेष रूप से उत्पाद नेविगेशन और बंडलों के लिए।
4. 5. ग्राफ/नेटवर्क सेगमेंट
संचार समुदाय (उपकरण, भुगतान विधियाँ, रेफरल); जीएनएन लक्षणों को समृद्ध करने के लिए।
5) दृष्टिकोण का विकल्प: तेज मैट्रिक्स
6) विभाजन गुणवत्ता मूल्यांकन
आंतरिक मैट्रिक्स (कोई संदर्भ नहीं):- सिल्हूट/डेविस-बोल्डिन/कैलिंस्की-हरबाज़: कॉम्पैक्टनेस और अलगाव।
- स्थिरता: पुनरारंभ/बूटस्ट्रैप के बीच जैकार्ड/एआरआई।
- सूचनात्मकता: प्रमुख विशेषताओं का प्रतिच्छेदन विचरण।
- केपीआई द्वारा समरूपता: खंडों के बीच एलटीवी/रूपांतरण/जोखिम में अंतर।
- क्रियाशीलता: खंडों का अनुपात जिसके लिए हस्तक्षेप की प्रतिक्रिया भिन्न होती है।
- उत्थान/ए/बी: खंड लक्ष्यीकरण बनाम कुल लक्ष्यीकरण।
- कवरेज: "लाइव" सेगमेंट में% उपयोगकर्ता (न केवल "शोर")।
7) मान्यता और मजबूती
टेम्पोरल सीवी: समय के साथ खंडों की स्थिरता की जाँच (रोलिंग विंडो)।
समूह सत्यापन: ट्रेन/वैल के बीच उपयोगकर्ताओं/उपकरणों का मिश्रण न करें।
प्रतिकृति - पड़ोसी बाजारों/चैनलों में चलाएं।
बहाव: सुविधाओं और खंड वितरण द्वारा पीएसआई/जेएस-डिव; अलर्ट पर थ्रेसहोल्ड।
स्थिर पक्ष/आरंभीकरण: विभाजन संस्करणों की तुलना करने के लिए।
8) व्याख्या
खंड पासपोर्ट: नियमों/केंद्रों का विवरण, मुख्य विशेषताएं (शीर्ष-SHAP/क्रमपरिवर्तन), दर्शकों का चित्र, केपीआई प्रोफ़ाइल।
दृश्य: खंड रंगों के साथ UMAP/t-SNE, खंड द्वारा मैट्रिक्स की "जाली"।
सक्रियण के लिए नियम: मानव टैब ("उच्च-मूल्य Infrequent", "जोखिम भरा नवागंतुक")।
9) परिचालन कार्यान्वयन
Fichestor: एक समान ऑनलाइन/ऑफ़लाइन फ़ीचर गणना फ़ंक्शन।
बचाव: एसएलए और आवृत्ति (प्रवेश पर ऑनलाइन, एक बार दैनिक, घटना पर)।
एपीआई/बैच निर्यात: उपयोगकर्ता आईडी → सेगमेंट/संभावना/टाइमस्टैम्प।
वर्शनिंग: 'SEG _ MODUE _ vX', डेटा अनुबंध, प्रशिक्षण सेट फ्रीज तिथि।
नीतियां: प्रत्येक खंड के लिए - कार्रवाई के नियम (प्रस्ताव/सीमाएं/समर्थन प्राथमिकता)।
विफल-सुरक्षित: गिरावट पर डिफ़ॉल्ट खंड (कोई सुविधा/समय नहीं)।
10) प्रयोग और निर्णय लेना
A/B/n खंड द्वारा: हम एक ही खंड ग्रिड पर विभिन्न ऑफ़ र/लिमिट का परीक्षण करते हैं।
उत्थान: लक्ष्यीकरण प्रभाव बनाम नियंत्रण (Qini/AUUC, उत्थान @ k)।
बजट आबंटन: हम बजट को मार्जिन/जोखिम सीमा द्वारा खंडों द्वारा वितरित करते हैं।
रेलिंग: जोखिम खंडों, संपर्क दर और दर्शकों की थकान के लिए एफपीआर/एफएनआर।
11) नैतिकता, गोपनीयता, अनुपालन
डेटा कम से कम: हम आवश्यक न्यूनतम, छद्म नाम का उपयोग करते हैं।
निष्पक्षता: संवेदनशील खंडों द्वारा नीतियों की त्रुटियों और "कठोरता" की तुलना करें; नियमों से संरक्षित विशेषताओं को छोड़ कर, या निष्पक्षता सुधार लागू करें।
समझाने का अधिकार: दस्तावेज़ खंड असाइनमेंट तर्क।
ऑडिट: खंडों द्वारा अभियानों के संस्करणों, इनपुट सुविधाओं, निर्णयों और परिणामों का लॉग।
12) कलाकृतियाँ पैटर्न
खंड पासपोर्ट
कोड/संस्करण: 'SEG _ HVIF _ v3'
वर्णन: "उच्च मूल्य, दुर्लभ गतिविधि"
मानदंड/केंद्र: 'LTV _ quantile ≥ 0। 9 ',' Recency _ days ∈ [15,45] ',' फ्रीक्वेंसी _ 30d ∈ [1,3] '
आकार/पहुंच: 4। 8% उपयोगकर्ता (पिछले 30 दिन)
केपीआई प्रोफ़ाइल: ARPPU ↑ 2। औसत के 4 ×, चुरन-जोखिम औसत
सिफारिशें: सॉफ्ट री-एंगेज ऑफर, क्रॉस-सेल प्रीमियम उत्पाद, आवृत्ति सीमा 1/7 डी
जोखिम: अत्यधिक छूट - "लत"
मालिक: CRM/मुद्रीकरण
दिनांक/वैधता: 2025-10-15; तिमाही संशोधन
विभाजन संविदा
स्रोत विशेषता: 'fs। user_activity_v5'
अनुसूची: रात बैच 02:00 UTC; 'खरीद' घटना पर ऑनलाइन अपडेट
सेवा: 'खंड। api/v1/score '(p95 ≤ 120 мс)
लॉग: 'seg _ scoring _ log' (फ़ीचर हैश, संस्करण, गति, खंड)
अलर्ट: "अज्ञात" शेयर> 2%; मुख्य विशेषताओं> 0 द्वारा PSI। 2; खंड असंतुलन> प्रति दिन 10 पीपी
13) प्री-रिलीज़चेकलिस्ट
- विभाजन प्रभाव लक्ष्यों और केपीआई सहमत
- इकाई, खिड़कियां और रूपांतरण आवृत्ति परिभाषित
- एक बेसलाइन (नियम-आधारित) और एक एमएल संस्करण है; उत्थान तुलना
- खंड प्रलेखन + दृश्य और मानव टैब
- ट्यून्ड ए/बी, रेलिंग और बहाव अलर्ट
- Versioning, डेटा अनुबंध, घटना runibooks
- प्रति खंड और डिफ़ॉल्ट-फॉलबैक कार्रवाई नीतियाँ
कुल
विभाजन एक "वन-टाइम क्लस्टरिंग" नहीं है, बल्कि एक नियंत्रण लूप है: सही डेटा और खिड़कियां, पारदर्शी खंड, केपीआई से संबंध, कठोर सत्यापन, परिचालन एसएलओ और बहाव निगरानी। जटिलता (एम्बेडिंग, रेखांकन, पर्यवेक्षण दृष्टिकोण) केवल वहां जोड़ें जहां यह एक औसत दर्जे का उत्थान देता है और व्यवसाय और अनुपालन के लिए व्याख्यात्मक रहता है।