קיבוצי נתונים
1) מדוע אשכול פלטפורמת iGaming
התאמה אישית ללא תגיות: אנחנו שחקני קבוצה על ידי התנהגות על מנת למקד הצעות, גבולות, UX.
מבצעים וסיכון: אנו מזהים ”קבצים דקים”, דפוסי תשלום לא טיפוסיים, אשכולות הונאה.
מוצר ותוכן: מקטעים על ספקים/מכניקה מועדפים (קריסה/חריצים/חי), מחזורי חיים.
אנליטיקה ותובנות אסטרטגיות: איך תמהיל המקטעים משתנה על ידי שוק/קמפיין/עונה.
2) מידע ומרחב תיוג
2. 1 מקורות
התנהגות משחקים: תדירות/אורך הפעלות, הימורים/מין, תנודתיות, ז 'אנרים/ספקים אהובים.
תשלומים: תדירות/כמויות של הפקדות/משיכות, שיטות (Papara/PIX/card), שרטוטים/סטיות.
שיווק/CRM: ערוצי משיכה, תגובה לבונוסים/מסעות, תגובות דחוף.
התקנים/פלטפורמות: מערכת הפעלה, גרסה, יציבות הלקוח, סוג הרשת.
RG/ציות: דגלים, גבולות, קריאות תמיכה (ללא PII).
2. 2 תכונה הנדסית
אגרגטים בחלונות: 7/28/90 ימים; קיצוב ”ליום פעיל”.
סטנדרטיזציה/robast scalling: z-scoin/volvision-scaler (IQR), סולם רישומים עבור ”זנבות ארוכים”.
קטגוריות * שיבוץ/חם אחד: ספקים/ערוצים/מדינות.
צמצום ממדים: PCA/UMAP עבור רעש ודמייה, אבל לאחסן וקטור ”גולמי” לפרשנות.
אסימונים במקום מזהים, אנחנו אוסרים שדות אישיים.
3) אלגוריתמים ומתי לקחת אותם
K-אמצעים/מיני-Batch k-אמצעים - בסיס מהיר עבור נתונים גדולים; הנחת ספריטיביות.
שיוך רך (הסתברויות), שימושי עבור שחקני ”גבול”.
DBSCAN/HDBSCAN - מוצא אשכולות בצורה חופשית ו ”רעש” (אנומליות); הוא רגיש ל 'eps'.
היררכית (וורד/ממוצע) - דנדרוגרם ל ”עץ” המקטעים, טוב ב ־ N.
ספקטרלי - עבור צבירים שאינם כדוריים; 'דרך ביג נ.
מפות 2D של דפוסי התנהגות.
נתונים מעורבים: k-אב טיפוס, k-מצבי, מרחק גאוור.
רמז: התחל עם Mini-Batch k-means (מהירות) + HDBSCAN (רעש/חריגות) והשווה יציבות.
4) כיצד לבחור k ולהעריך איכות
מדטים פנימיים: Silhouette (גבוה יותר טוב), Davies-Bouldin (נמוך יותר טוב), Calinski-Harabasz.
יציבות: התקבצות מחדש של דגימות אתחול, אינדקס ראנד/NMI בין מחיצות.
תוקף חיצוני: הבחנה של KPIs (GGR/NET, שימור, המרה של הצעות, FPR) בין אשכולות.
פרשנות עסקית: אשכולות צריכים להיות פרופילים ברורים ופעולות. אם לא, עוקף תכונות/קנה מידה/אלגוריתם.
5) פרופילים והסברים
פרופיל אשכול: תכונת מדיאנים/כמויות, משחקים/ספקים עליונים, התקנים, שיטות תשלום, ערוצים.
ההבדל עם האוכלוסיה: Transpoints in p-points/egnets, הדמיה על ידי מכ "ם.
חוקרים מקומיים: חשיבות SHAP/Permutation עבור גבולות בין אשכולות (באמצעות המסווג המאומן "cluster_id").
אנחנו קוראים לאשכולות: ”התרסקות רולים גבוהים”, ”חריצים של ציידי בונוסים”, ”סוף שבוע מזדמן בשידור חי”.
6) מבצע (מקוון/לא מקוון)
קיבוצים מנותקים פעם ביום/שבוע * פרסום ”דרכונים” של קטעים.
הקצאה מקוונת: המרכז הקרוב ביותר (k-means), ההסתברות (GMM), ”רעש” (HDBSCAN).
סחיפה: צג PSI/KC לפי מאפייני מפתח, נדידה בין אשכולות, תדרי ”רעש”.
מחזור חיים: שינוי כל 1-3 חודשים; MAJOR בעת שינוי תכונות/סטנדרטים.
7) אינטגרציות ופעולות
Personalization: מציע/מגבלות תדר, בחירה של ספקים ומכניקה טורניר.
ערוצי CRM/ערוצים: תדרי פלוף/דוא "ל, חלונות זמן, שפה/טונאליות.
שיווק: תקציב אחר פלח, יצירתיות, תחזית LTV; ”דחיפה” נגד ”ערך” של האסטרטגיה.
ר "ג/סיכון: התערבויות קלות עבור אשכול סיכונים, סקירה" ידנית "עבור חריגות.
אנטי-פראוד: מקבצים של נתיבי תשלום/התקנים לא טיפוסיים.
8) פרטיות וציות
k-אנונימיות של דיווחים (מינימום N אובייקטים לכל פרוסה).
אפס-PII ב fiches/logs/dashboard, tochenization; מחיקת DSAR על ידי אסימון.
גיאו/דייר-בידוד: מגזרי רכבת/חנות באזור הרישיון.
בדיקת הגינות: נבדוק את ההבדלים על ידי מדידות רגישות (שיטה/תשלום/התקן).
שימוש: הצעות ”אגרסיביות” עבור אשכול RG (מדיניות) אסורות.
9) מדדי הצלחה
הפעלה: שיתוף של מאפיינים מקוונים <X ms, יציבות של מרכזים, נדידה/חוסר אישור.
עסקים: המרה מעלה של הצעות, ARPU/LTV לפי קטע, ירידה ב-FPR נגד הונאה, מהירות תגובה RG.
איכות מודל: צללית, DB, יציבות, KPI ניתן להבחין בין אשכולות.
10) צינור (התייחסות)
ברונזה * כסף * זהב * שרת
1. בלע אירועים/תשלומים/התקנים = ניקוי/שמחות.
2. חנות תכונה: חישוב חלונות (7/28/90d), סטנדרטיזציה, מסכות/אסימונים.
3. Dim-reduction (PCA/UMAP) לחיזוי (לא לגלישה).
4. התקבצות (לא מקוונת), הערכה של מדדים, דור של ”דרכונים”.
5. API משימות מקוונות: מרכז/הסתברויות/” רעש” הקרוב ביותר
6. ניטור: סחיפה, נדידה, תדירות ”רעש”, KPI במקטע.
7. שחרור: סמבר, צל/כנרית, רולבק; תיקיית מקטעים ב ־ BI
11) דוגמאות קטע (iGaming)
חריצים של ציידי בונוסים: נתח גבוה של פריספינים/קשבק, מפגשים קצרים, כשלים רבים בתפוקה - מגבלות פרומו רכות, תנאים שקופים.
מפגשים אינטנסיביים קצרים, קצב מהיר מצטבר - מגבלות תדר/קירור.
פגישות ערב ארוכות בשידור חי, סי-טי-אר גבוה בקמפיינים חברתיים - כליאת זרמים ואירועים חיים.
מצטרפים חדשים דקים: 1-2 מרבצים, מעט סיבובים - הדרכות ברוכות הבאות, תמיכה ב-KYC.
אנומליה-תשלומים: שינוי תדיר של ארנקים/שיטות, גיאו-מירוצים - אנטי-הונאה משופרת.
12) תבניות חפץ
12. קטלוג קטע 1 (מקטע)
yaml version: 1. 4. 0 segments:
- id: s_high_roller_crash name: "High-rollers crash"
size_share: 0. 07 centroid:
stake_per_min_z: 2. 1 volatility_z: 1. 8 session_len_min: 6. 4 actions: ["limit_bet_growth","vip_care","rg_cooldown_soft"]
- id: s_bonus_hunter_slots name: "Bonus-hunters slots"
size_share: 0. 19 centroid:
bonus_usage_rate: 0. 63 withdraw_decline_rate: 0. 21 actions: ["clear_terms","frequency_cap","onboarding_quest"]
12. 2 הפוליטיקה של הגלישה
yaml serving:
assigner: "nearest_centroid" # or gmm_prob p95_latency_ms: 50 min_confidence: 0. 6 unknown_policy: "fallback_rules"
privacy:
pii_in_features: false min_group_size: 50 monitoring:
drift_psi_max: 0. 2 migration_rate_warn: 0. 25
12. דרכון אשכול 3 (BI)
yaml cluster_id: s_live_social share: 0. 23 kpi:
d30_retention: 0. 42 arppu: 27. 4 behavior:
sessions_evening_share: 0. 68 provider_top: ["Evolution","Pragmatic Live"]
crm:
push_ctr: 0. 11 promo_sensitivity: "medium"
rg_flags: ["cooldown_hint"]
13) מימוש מפת דרכים
0-30 ימים (MVP)
1. ארגן תיקי תצוגה (7/28/90d), תקן, חתך את PII.
2. Mini-Batch k-means עבור 5-9 אשכולות + HDBSCAN בסיסי עבור ”רעש”.
3. דרכון של אשכולות, מתנגד מקוון, לוח מחוונים נדידה/סחף.
4. שני ניסויי מוצר: הצעות קטע ותדר פלומה.
30-90 ימים
1. GMM לאביזר רך; סוגים מעורבים (k-אבטיפוס).
2. הרכבה אוטומטית כל N ימים, צל = כנרית; התראה על PSI/נדידה.
3. פרשנות (כרטיסי SHAP), קטלוג קטעים BI ו ־ CRM/המלצה API.
3-6 חודשים
1. מקטעים ספציפיים של Geo/דייר; בשילוב עם גרף התקן/תשלום.
2. מטריצות מעבר לטווח ארוך (Markov) עבור תכנון LTV.
3. מדיניות RG/AML ברמת קטע; ביקורת פרטיות/אתיקה חיצונית.
14) אנטי דפוסים
בחירת k ”בעין” והערכת צללית בלבד ללא בדיקות עסקיות.
ערבוב מאפיינים פיזיים והתנהגותיים; חוסר אנונימיות בדיווחים.
אין מקשר מקוון * מקטעים ”לתלות” ב-BI ללא פעולה.
מתאמן מחדש לעונה/שיתוף; חוסר ניטור של נדידות.
שימוש במקבצים לשיווק ”אגרסיבי” ללא חוקי שומרי אר-ג 'י.
קבוצה אחת של מקטעים לכל המדינות/המותגים ללא מאפיינים מקומיים.
15) ראסי
פלטפורמת נתונים (R): תכונת תצוגה, צינור, ניטור, גירסה.
מדע נתונים (R): בחירת אלגוריתם, k/metrics, פרשנות.
מוצר/CRM (A): פעילויות מקטעים, ניסויים.
סיכון/RG (C): הגבלה ומדיניות HITL עבור מקטעים ”כבדים”.
אבטחה/DPO (A/R): פרטיות, אסיקניזציה, קיי-אנונימיות.
לוחות מחוונים, קטלוגים, תיעוד.
16) חלקים קשורים
Targeting, Extressional Systems, Profiling Profiling, Henturing Bias, Performance Benchecking, Analytics and Metrics API, MLOps: Model Eartics, Data Aithering.
סך הכל
התקבצות היא לא רק גרף UMAP, אלא גם כלי ייצור: תכונות טהורות ללא PII, מדדים יציבים ודרכוני מקטע מובנים, מעבד מקוון ופעולות ב CRM/מוצר/RG. כאשר מבוקר באופן קבוע ומנוטר לסחף, הוא הופך ”כאוס התנהגות” לאסטרטגיות לניהול לצמיחה, בטיחות ואחריות.