تقسیم بندی داده ها

تقسیم بندی تقسیم بسیاری از اشیاء (کاربران، معاملات، محصولات، رویدادها) به گروه های همگن برای هدف گیری، شخصی سازی، تجزیه و تحلیل و مدیریت ریسک است. تقسیم بندی خوب حاشیه ها را افزایش می دهد، هزینه ها را کاهش می دهد و تصمیمات را قابل توضیح می کند.

1) اهداف و مقاصد

بازاریابی و رشد: پیشنهادات شخصی، فرکانس تماس، سیاست ضد اسپم.
کسب درآمد: تبعیض قیمت، بسته نرم افزاری، خدمات VIP.
ریسک و انطباق: سطوح کنترل، محرکهای KYC/AML، امتیاز دهی الگوهای مشکوک.
محصول و تجربه: با استفاده از اسکریپت ها، توصیه های محتوا/بازی، محدودیت های پویا.
عملیات: اولویت بندی پشتیبانی، توزیع محدودیت ها و سهمیه ها.

ما واحد تقسیم بندی (کاربر/جلسه/بازرگان)، افق (7/30/90 روز)، فرکانس تبدیل (آنلاین/روزانه/هفتگی) و KPI های هدف را تدوین می کنیم.

2) طبقه بندی بخش

جمعیت شناسی/جغرافیایی: کشور، زبان، پلت فرم.
رفتاری: فعالیت، فرکانس، عمق، زمان روز، دسته های مورد علاقه.
مبتنی بر ارزش: ARPU/ARPPU، کمیت LTV، حاشیه نشینی.
مرحله: در حال سوار شدن، بالغ، «خواب»، بازگشت.
RFM: اندازه گیری، فرکانس، پولی با سطل/چندک.
کوهورت: با تاریخ ثبت نام/اولین پرداخت/منبع.
بخش خطر: chargeback خطر، پاداش سوء استفاده از خطر، فعالیت های غیر طبیعی.
چرخه زندگی: تمایل به ریزش، تمایل به خرید، بهترین اقدام بعدی.
متنی: قوانین دستگاه/کانال/منطقه ای.

3) داده ها و آماده سازی

صحت نقطه در زمان: علائم از «گذشته» موجود شمارش می شوند.
Aggregates by window: مبالغ 7/30/90 روز/فرکانس/چندک.
نرمالیزاسیون: پوسته پوسته شدن robast (median/MAD)، تغییرات log برای دم های طولانی.

دسته بندی ها: یک داغ/هدف/هش ؛ کنترل ارزش های «نادر»

کیفیت: حذفیات، تکراری، رانش از مدارهای، هماهنگ سازی مناطق زمانی.
Semantics: قوانین کسب و کار صریح (به عنوان مثال، ≥1 سپرده) قبل از تقسیم بندی ML.

4) روش های تقسیم بندی

4. 1. قوانین جعبه سفید و آستانه

شرایط ساده: «VIP اگر LTV ≥ X و فرکانس ≥ Y».
مزایا: قابل درک است، به سرعت به عنوان یک سیاست اجرا می شود.
معایب: شکنندگی در هنگام دست خوش پیشامد میشه، پیچیدگی پشتیبانی زمانی که تعداد قوانین رشد می کند.

4. 2. خوشه بندی (بدون نظارت)

k-mean/k-medoids: پایه سریع در ویژگی های عددی.
GMM: لوازم جانبی نرم، بخش های احتمالی.
HDBSCAN/DBSCAN: خوشه های آزاد فرم + «سر و صدا» به عنوان ناهنجاری.
طیفی/EM در انواع مخلوط: برای هندسه های پیچیده.
یادگیری ویژگی → خوشه: اولین جاسازی (autoencoder/ترانسفورماتور)، سپس خوشه بندی در فضای پنهان.

4. 3. نظارت بر تقسیم بندی (هدف محور)

ما مدل را بر روی KPI هدف (به عنوان مثال LTV/risk) آموزش می دهیم و بخش ها را با توجه به پیش بینی ها، پروفایل های SHAP و درختان تصمیم گیری می سازیم.
مزایا: بخش ها به یک هدف تجاری «گره خورده اند»، بررسی آن آسان است.
منفی: خطر «مناسب» ؛ ارزیابی دقیقی لازم است.

4. 4. نقوش فرکانس و قوانین

ماتریس RFM، قوانین انجمنی (پشتیبانی/بلند کردن)، توالی مکرر (PrefixSpan) - به ویژه برای ناوبری محصول و بسته نرم افزاری.

4. 5. نمودار/بخش های شبکه

جوامع ارتباطی (دستگاه ها، روش های پرداخت، ارجاعات) ؛ GNN برای غنی سازی صفات.

5) انتخاب رویکرد: ماتریس سریع

وضعیت موجود	داده ها	توصیه نامه ها
نیاز به یک سیاست مدیریت شده	جدول + قوانین کسب و کار	مبتنی بر قانون + تجدید نظر دوره ای
جستجو برای گروه های «طبیعی»	بسیاری از ویژگی های عددی	k-means/GMM، سپس خوشه ها را توصیف کنید
غیرخطی بودن قوی	ابعاد مخلوط/بالا	جاسازی → HDBSCAN
هدف مستقیم (LTV/ریسک)	برچسب ها/هدف وجود دارد	پیش بینی نظارت بر تقسیم بندی
شبکه ها/ارتباطات	شمارش کنید	تشخیص جامعه + ویژگی های نمودار

6) ارزیابی کیفیت تقسیم بندی

معیارهای داخلی (بدون مرجع):

سیلوئت/دیویس-بولدین/کالینسکی-هاراباس: فشردگی و جداییپذیری.
پایداری: Jaccard/ARI بین راه اندازی مجدد/بوت استرپ.
Informativity: واریانس intersegment از ویژگی های کلیدی.

معیارهای خارجی/تجاری:

همگنی با KPI: تفاوت در LTV/تبدیل/ریسک بین بخش ها
اقدام پذیری: نسبت بخش هایی که پاسخ به مداخلات متفاوت است.
Uplift/A/B: افزایش هدف گیری بخش در مقابل هدف گیری کل.
پوشش: درصد کاربران در بخش های «زنده» (نه فقط «سر و صدا»).

7) اعتبار و استحکام

CV زمانی: بررسی ثبات بخش در طول زمان (پنجره نورد).
اعتبار گروه: کاربران/دستگاه ها را بین قطار/وال مخلوط نکنید.
Replication: در بازارها/کانالهای همسایه اجرا میشود.
رانش: PSI/JS-div توسط ویژگی ها و توزیع بخش ؛ هشدارها را رعایت کنید.
Stable sides/initialization: برای مقایسه نسخه های تقسیم بندی.

8) قابلیت تفسیر

گذرنامه بخش: شرح قوانین/centroids، ویژگی های کلیدی (بالا SHAP/جایگشت)، پرتره مخاطبان، مشخصات KPI.
تجسم: UMAP/t-SNE با رنگ بخش، «شبکه» معیارها بر اساس بخش.
قوانین فعال سازی: زبانه های انسانی («نادر با ارزش بالا»، «تازه واردان خطرناک»).

9) اجرای عملیاتی

Fichestor: توابع محاسبه ویژگی آنلاین/آفلاین یکنواخت.
Rescoring: SLA و فرکانس (آنلاین در ورود، یک بار در روز، در رویداد).
API/صادرات دسته ای: شناسه کاربر → بخش/احتمال/برچسب زمان.
نسخه بندی: 'SEG _ MODEL _ vX'، قرارداد داده، آموزش تعیین تاریخ توقف.
سیاست ها: برای هر بخش - قوانین عمل (اولویت پیشنهاد/محدودیت/پشتیبانی).
Fail-safe: بخش پیش فرض پس از تخریب (بدون ویژگی/زمان بندی).

10) آزمایش و تصمیم گیری

A/B/n توسط بخش: ما پیشنهادات/محدودیت های مختلف را در همان شبکه بخش تست می کنیم.
بالا بردن: اثر هدف قرار دادن در مقابل کنترل (Qini/AUUC، uplift @ k).
تخصیص بودجه: ما بودجه را با بخش های حاشیه/محدودیت های ریسک توزیع می کنیم.
Guardrails: FPR/FNR برای بخش های خطر، میزان تماس و خستگی مخاطبان.

11) اخلاق، حریم خصوصی، انطباق

به حداقل رساندن داده ها: ما از حداقل مورد نیاز، pseudonymization استفاده می کنیم.
عدالت: مقایسه خطاها و «استحکام» سیاست های بخش های حساس ؛ ویژگی های محافظت شده را از قوانین حذف کنید یا اصلاحات عدالت را اعمال کنید.
درست توضیح دهید: منطق انتساب قطعه سند.
حسابرسی: ورود نسخه ها، ویژگی های ورودی، تصمیم گیری ها و نتایج کمپین ها توسط بخش ها.

12) الگوهای مصنوعی

گذرنامه بخش

کد/نسخه: 'SEG _ HVIF _ 3'

شرح: «ارزش بالا، فعالیت نادر»

معیار/مرکز: "LTV _ چندک ≥ 0. 9 '،' Recency _ days ∈ [15,45]، 'فرکانس _ 30d ∈ [1,3]'

اندازه/رسیدن: 4. 8% از کاربران (30 روز گذشته)

مشخصات KPI: ARPPU ↑ 2. 4 × متوسط، میانگین ریسک ریزش

توصیه ها: پیشنهادات نرم افزاری مجدد، فروش محصولات حق بیمه، محدودیت فرکانس 1/7d

خطرات: تخفیف بیش از حد → «اعتیاد»

مالک: CRM/کسب درآمد

تاریخ/اعتبار: 2025-10-15 ؛ بازنگری سه ماهه

قرارداد تقسیم بندی

منبع: fs. user_activity_v5'

برنامه: دسته شب 02:00 UTC ؛ به روز رسانی آنلاین در رویداد «خرید»

خدمات: "قطعه ساز. API/V1/نمره '(P95 ≤ 120 мс)

سیاهههای مربوط: 'seg _ scoring _ log' (ویژگی هش، نسخه، سرعت، بخش)

هشدارها: سهم «ناشناخته»> 2٪ ؛ PSI با ویژگی های کلیدی> 0. 2; عدم تعادل بخش> 10 pp در روز

13) چک لیست قبل از انتشار

تقسیم بندی اهداف تاثیر و KPI ها توافق
واحد، پنجره ها و فرکانس تبدیل تعریف شده است
یک پایه (مبتنی بر قانون) و یک نوع ML وجود دارد ؛ مقایسه بالا بردن
مستندات بخش + تجسم و زبانه های انسانی
تنظیم A/B، گاردریل و هشدار رانش
نسخه، قرارداد داده ها، runibooks حادثه
سیاست های عمل در هر بخش و پیش فرض-fallback

مجموع

بخش بندی یک «خوشه بندی یک بار» نیست بلکه یک حلقه کنترل است: داده ها و پنجره های صحیح، بخش های شفاف، ارتباط با KPI ها، اعتبار سنجی دقیق، SLO های عملیاتی و نظارت بر رانش. اضافه کردن پیچیدگی (تعبیه، نمودار، نظارت بر رویکرد) تنها در جایی که آن را می دهد افزایش قابل اندازه گیری و قابل توضیح برای کسب و کار و انطباق باقی می ماند.

تقسیم بندی داده ها