تقسیم بندی داده ها
تقسیم بندی داده ها
تقسیم بندی تقسیم بسیاری از اشیاء (کاربران، معاملات، محصولات، رویدادها) به گروه های همگن برای هدف گیری، شخصی سازی، تجزیه و تحلیل و مدیریت ریسک است. تقسیم بندی خوب حاشیه ها را افزایش می دهد، هزینه ها را کاهش می دهد و تصمیمات را قابل توضیح می کند.
1) اهداف و مقاصد
بازاریابی و رشد: پیشنهادات شخصی، فرکانس تماس، سیاست ضد اسپم.
کسب درآمد: تبعیض قیمت، بسته نرم افزاری، خدمات VIP.
ریسک و انطباق: سطوح کنترل، محرکهای KYC/AML، امتیاز دهی الگوهای مشکوک.
محصول و تجربه: با استفاده از اسکریپت ها، توصیه های محتوا/بازی، محدودیت های پویا.
عملیات: اولویت بندی پشتیبانی، توزیع محدودیت ها و سهمیه ها.
ما واحد تقسیم بندی (کاربر/جلسه/بازرگان)، افق (7/30/90 روز)، فرکانس تبدیل (آنلاین/روزانه/هفتگی) و KPI های هدف را تدوین می کنیم.
2) طبقه بندی بخش
جمعیت شناسی/جغرافیایی: کشور، زبان، پلت فرم.
رفتاری: فعالیت، فرکانس، عمق، زمان روز، دسته های مورد علاقه.
مبتنی بر ارزش: ARPU/ARPPU، کمیت LTV، حاشیه نشینی.
مرحله: در حال سوار شدن، بالغ، «خواب»، بازگشت.
RFM: اندازه گیری، فرکانس، پولی با سطل/چندک.
کوهورت: با تاریخ ثبت نام/اولین پرداخت/منبع.
بخش خطر: chargeback خطر، پاداش سوء استفاده از خطر، فعالیت های غیر طبیعی.
چرخه زندگی: تمایل به ریزش، تمایل به خرید، بهترین اقدام بعدی.
متنی: قوانین دستگاه/کانال/منطقه ای.
3) داده ها و آماده سازی
صحت نقطه در زمان: علائم از «گذشته» موجود شمارش می شوند.
Aggregates by window: مبالغ 7/30/90 روز/فرکانس/چندک.
نرمالیزاسیون: پوسته پوسته شدن robast (median/MAD)، تغییرات log برای دم های طولانی.
دسته بندی ها: یک داغ/هدف/هش ؛ کنترل ارزش های «نادر»
کیفیت: حذفیات، تکراری، رانش از مدارهای، هماهنگ سازی مناطق زمانی.
Semantics: قوانین کسب و کار صریح (به عنوان مثال، ≥1 سپرده) قبل از تقسیم بندی ML.
4) روش های تقسیم بندی
4. 1. قوانین جعبه سفید و آستانه
شرایط ساده: «VIP اگر LTV ≥ X و فرکانس ≥ Y».
مزایا: قابل درک است، به سرعت به عنوان یک سیاست اجرا می شود.
معایب: شکنندگی در هنگام دست خوش پیشامد میشه، پیچیدگی پشتیبانی زمانی که تعداد قوانین رشد می کند.
4. 2. خوشه بندی (بدون نظارت)
k-mean/k-medoids: پایه سریع در ویژگی های عددی.
GMM: لوازم جانبی نرم، بخش های احتمالی.
HDBSCAN/DBSCAN: خوشه های آزاد فرم + «سر و صدا» به عنوان ناهنجاری.
طیفی/EM در انواع مخلوط: برای هندسه های پیچیده.
یادگیری ویژگی → خوشه: اولین جاسازی (autoencoder/ترانسفورماتور)، سپس خوشه بندی در فضای پنهان.
4. 3. نظارت بر تقسیم بندی (هدف محور)
ما مدل را بر روی KPI هدف (به عنوان مثال LTV/risk) آموزش می دهیم و بخش ها را با توجه به پیش بینی ها، پروفایل های SHAP و درختان تصمیم گیری می سازیم.
مزایا: بخش ها به یک هدف تجاری «گره خورده اند»، بررسی آن آسان است.
منفی: خطر «مناسب» ؛ ارزیابی دقیقی لازم است.
4. 4. نقوش فرکانس و قوانین
ماتریس RFM، قوانین انجمنی (پشتیبانی/بلند کردن)، توالی مکرر (PrefixSpan) - به ویژه برای ناوبری محصول و بسته نرم افزاری.
4. 5. نمودار/بخش های شبکه
جوامع ارتباطی (دستگاه ها، روش های پرداخت، ارجاعات) ؛ GNN برای غنی سازی صفات.
5) انتخاب رویکرد: ماتریس سریع
6) ارزیابی کیفیت تقسیم بندی
معیارهای داخلی (بدون مرجع):- سیلوئت/دیویس-بولدین/کالینسکی-هاراباس: فشردگی و جداییپذیری.
- پایداری: Jaccard/ARI بین راه اندازی مجدد/بوت استرپ.
- Informativity: واریانس intersegment از ویژگی های کلیدی.
- همگنی با KPI: تفاوت در LTV/تبدیل/ریسک بین بخش ها
- اقدام پذیری: نسبت بخش هایی که پاسخ به مداخلات متفاوت است.
- Uplift/A/B: افزایش هدف گیری بخش در مقابل هدف گیری کل.
- پوشش: درصد کاربران در بخش های «زنده» (نه فقط «سر و صدا»).
7) اعتبار و استحکام
CV زمانی: بررسی ثبات بخش در طول زمان (پنجره نورد).
اعتبار گروه: کاربران/دستگاه ها را بین قطار/وال مخلوط نکنید.
Replication: در بازارها/کانالهای همسایه اجرا میشود.
رانش: PSI/JS-div توسط ویژگی ها و توزیع بخش ؛ هشدارها را رعایت کنید.
Stable sides/initialization: برای مقایسه نسخه های تقسیم بندی.
8) قابلیت تفسیر
گذرنامه بخش: شرح قوانین/centroids، ویژگی های کلیدی (بالا SHAP/جایگشت)، پرتره مخاطبان، مشخصات KPI.
تجسم: UMAP/t-SNE با رنگ بخش، «شبکه» معیارها بر اساس بخش.
قوانین فعال سازی: زبانه های انسانی («نادر با ارزش بالا»، «تازه واردان خطرناک»).
9) اجرای عملیاتی
Fichestor: توابع محاسبه ویژگی آنلاین/آفلاین یکنواخت.
Rescoring: SLA و فرکانس (آنلاین در ورود، یک بار در روز، در رویداد).
API/صادرات دسته ای: شناسه کاربر → بخش/احتمال/برچسب زمان.
نسخه بندی: 'SEG _ MODEL _ vX'، قرارداد داده، آموزش تعیین تاریخ توقف.
سیاست ها: برای هر بخش - قوانین عمل (اولویت پیشنهاد/محدودیت/پشتیبانی).
Fail-safe: بخش پیش فرض پس از تخریب (بدون ویژگی/زمان بندی).
10) آزمایش و تصمیم گیری
A/B/n توسط بخش: ما پیشنهادات/محدودیت های مختلف را در همان شبکه بخش تست می کنیم.
بالا بردن: اثر هدف قرار دادن در مقابل کنترل (Qini/AUUC، uplift @ k).
تخصیص بودجه: ما بودجه را با بخش های حاشیه/محدودیت های ریسک توزیع می کنیم.
Guardrails: FPR/FNR برای بخش های خطر، میزان تماس و خستگی مخاطبان.
11) اخلاق، حریم خصوصی، انطباق
به حداقل رساندن داده ها: ما از حداقل مورد نیاز، pseudonymization استفاده می کنیم.
عدالت: مقایسه خطاها و «استحکام» سیاست های بخش های حساس ؛ ویژگی های محافظت شده را از قوانین حذف کنید یا اصلاحات عدالت را اعمال کنید.
درست توضیح دهید: منطق انتساب قطعه سند.
حسابرسی: ورود نسخه ها، ویژگی های ورودی، تصمیم گیری ها و نتایج کمپین ها توسط بخش ها.
12) الگوهای مصنوعی
گذرنامه بخش
کد/نسخه: 'SEG _ HVIF _ 3'
شرح: «ارزش بالا، فعالیت نادر»
معیار/مرکز: "LTV _ چندک ≥ 0. 9 '،' Recency _ days ∈ [15,45]، 'فرکانس _ 30d ∈ [1,3]'
اندازه/رسیدن: 4. 8% از کاربران (30 روز گذشته)
مشخصات KPI: ARPPU ↑ 2. 4 × متوسط، میانگین ریسک ریزش
توصیه ها: پیشنهادات نرم افزاری مجدد، فروش محصولات حق بیمه، محدودیت فرکانس 1/7d
خطرات: تخفیف بیش از حد → «اعتیاد»
مالک: CRM/کسب درآمد
تاریخ/اعتبار: 2025-10-15 ؛ بازنگری سه ماهه
قرارداد تقسیم بندی
منبع: fs. user_activity_v5'
برنامه: دسته شب 02:00 UTC ؛ به روز رسانی آنلاین در رویداد «خرید»
خدمات: "قطعه ساز. API/V1/نمره '(P95 ≤ 120 мс)
سیاهههای مربوط: 'seg _ scoring _ log' (ویژگی هش، نسخه، سرعت، بخش)
هشدارها: سهم «ناشناخته»> 2٪ ؛ PSI با ویژگی های کلیدی> 0. 2; عدم تعادل بخش> 10 pp در روز
13) چک لیست قبل از انتشار
- تقسیم بندی اهداف تاثیر و KPI ها توافق
- واحد، پنجره ها و فرکانس تبدیل تعریف شده است
- یک پایه (مبتنی بر قانون) و یک نوع ML وجود دارد ؛ مقایسه بالا بردن
- مستندات بخش + تجسم و زبانه های انسانی
- تنظیم A/B، گاردریل و هشدار رانش
- نسخه، قرارداد داده ها، runibooks حادثه
- سیاست های عمل در هر بخش و پیش فرض-fallback
مجموع
بخش بندی یک «خوشه بندی یک بار» نیست بلکه یک حلقه کنترل است: داده ها و پنجره های صحیح، بخش های شفاف، ارتباط با KPI ها، اعتبار سنجی دقیق، SLO های عملیاتی و نظارت بر رانش. اضافه کردن پیچیدگی (تعبیه، نمودار، نظارت بر رویکرد) تنها در جایی که آن را می دهد افزایش قابل اندازه گیری و قابل توضیح برای کسب و کار و انطباق باقی می ماند.