數據細分
數據細分
細分是將多個對象(用戶,事務,產品,事件)分為同質組,以進行定位,定性,分析和風險管理。良好的細分提高了利潤率,降低了成本,並使解決方案可以解釋。
1)目標和制作
市場營銷和成長:個性化的離場,接觸頻率,反垃圾郵件政策。
貨幣化:價格歧視,幫派,貴賓服務。
風險和合規性:控制級別,KYC/AML觸發器,可疑模式評分。
產品和經驗:按腳本編排,內容/遊戲推薦,動態限制。
操作:優先支持、限額和配額分配。
構造細分單位(用戶/會議/商人),地平線(7/30/90天),換算率(在線/每日/每周)和目標KPI。
2)片段分類
人口/地理:國家,語言,平臺。
行為:活動,頻率,深度,時間,最喜歡的類別。
價值(基於價值):ARPU/ARPPU,LTV-quantili,保證金。
階段:爬行,成熟,「睡覺」,返回。
RFM:備份,頻率,帶有瀝青/分量的Monetary。
隊列:按註冊日期/首次付款/來源。
風險段:chargeback-risk, bonus-abuse-risk,異常活動。
生命周期: propensity to churn,propensity to buy, next-best-action.
上下文:設備/頻道/區域規則。
3)數據和準備
點對點正確性:特征被認為來自可用的「過去」。
按窗口分組:7/30/90天金額/頻率/分位數。
正常化:robast滑板(median/MAD),長尾巴的日誌轉換。
類別:單熱門/目標/哈希;控制「稀有」值。
質量:跳過,復制,圖式漂移,時間區域同步。
語義:在ML分段之前,顯式業務規則(例如存款≥1)。
4)分割方法
4.1.規則和閾值(白盒)
簡單條件: 「VIP,如果LTV ≥ X和≥ Y頻率。」
優點:可以理解,作為政策迅速實施。
缺點:漂移時脆弱,規則數量增加時難以支撐。
4.2.聚類(未聚類)
k-means/k-medoids:數字碼頭的快速鎖定。
GMM:軟附件,概率段。
HDBSCAN/DBSCAN:任意形狀的群集+「噪聲」作為異常。
混合類型的光譜/EM:用於復雜的幾何形狀。
功能學習→集群:首先是栓塞(autoencoder/transformer),然後在潛伏空間中聚類。
4.3.超級文件細分(目標驅動)
我們在目標KPI(例如LTV/風險)上訓練模型,並且按預測分量,SHAP配置文件和決策樹構建細分。
優點:細分市場與業務目標「掛鉤」,容易檢查uplift。
缺點:「適合」的風險;需要嚴格的驗證。
4.4.頻率動機和規則
RFM矩陣,關聯規則(支持/升降機),頻繁序列(PrefixSpan)-尤其是用於產品導航和幫派。
4.5.圖形/網絡段
聯系社區(設備,支付方法,轉介);GNN用於豐富性狀。
5)方法選擇: 快速矩陣
6)細分質量評估
內部度量(無基準):- Silhouette/Davies-Bouldin/Calinski-Harabasz:緊湊性和可分離性。
- 穩定性:重新啟動/啟動之間的Jaccard/ARI。
- 信息性:關鍵人物的區間差異。
- KPI均勻性:段之間的LTV/轉換/風險差異。
- 可操作性:幹預響應不同部分的比例。
- Uplift/A/B:分段瞄準vs一般瞄準的增益。
- 覆蓋範圍:「有效」細分市場中用戶的百分比(不僅僅是「噪音」)。
7)驗證和可持續性
Temporal CV:時間段穩定性檢查(滾動窗口)。
組驗證:不要在train/val之間混合用戶/設備。
復制:在鄰近市場/渠道上運行。
漂移:PSI/JS-div分段和分配;Alerta上的閾值。
穩定坐標/初始化:比較分割版本。
8)可解釋性
片段護照:規則/中心體描述,關鍵字節(top-SHAP/permutation),觀眾肖像,KPI配置文件。
可視化:帶有段顏色的UMAP/t-SNE,每個段的「格子」度量。
激活規則:人為爬行(「High-Value Infrequent」,「Risky Newcomers」)。
9)運營實施
Fichestor:在線/離線特征計算的統一功能。
評分:SLA和頻率(在線登錄時,每天,事件時)。
API/batch導出:用戶ID →段/概率/時間戳。
轉化:「SEG_MODEL_vX」,數據合同,培訓樣本的「凍結」日期。
策略:針對每個細分市場-操作規則(offer/限制/支持優先級)。
Fail-safe:降解時的默認片段(無相框/時空)。
10)實驗和決策
A/B/n分段:在同一分段網格上測試不同的離場/限制。
Uplift評估:定向vs控制效果(Qini/AUUC,uplift@k)。
Budget allocation:按利潤率/風險限制按細分細分預算。
Guardrails:FPR/FNR用於風險片段,接觸頻率和聽眾疲勞。
11)道德,隱私,合規性
數據最小化:使用所需的最低值,別名化。
公平性:比較敏感部分的策略錯誤和「僵化」;從規則中排除受保護的屬性,或者應用公平校正。
解釋權:記錄段分配邏輯。
審計:按細分市場劃分的版本日誌、輸入信息、決策和活動結果。
12)工件模板
段護照
代碼/版本: 「SEG_HVIF_v3」
描述: 「高價值,罕見的活動」
標準/中心: 'LTV_quantile ≥ 0。9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`
規模/範圍: 4。8%的用戶(過去30天)
KPI配置文件: ARPPU ↑ 2。4 ×來自中位數,Churn-risk中位數
建議: 柔軟的RE-ENGAGE OFFERS,高級商品交叉插槽,頻率限制1/7 d
風險: 盈余回扣→「上癮」
所有者: CRM/Monetization
日期/有效性: 2025-10-15;每季度修訂一次
分割合同
信息來源: 'fs。user_activity_v5`
時間表: 世界標準時間02:00夜間戰鬥;「購買」事件中的在線更新'
服務: 'segmentor。api/v1/score` (p95 ≤ 120 мс)
Logs: 'seg_scoring_log' (fichi-hash, version, score,片段)
Alerts: 「UNKNOWN」> 2%;關鍵的PSI> 0。2;段不平衡>每天10個百分點
13)發行前的支票清單
- 協調分割影響的目標和KPI
- 確定單位、窗戶和重計費用頻率
- 有bezline(基於規則)和ML變體;uplift比較
- 數據段文檔+成像和人類優勢
- 定制A/B,guardrails和漂移變量
- 驗證,數據合同,runibuki事件
- 每個分區和default-fallback的操作策略
底線
分段不是「一次性聚類」,而是控制輪廓:正確的數據和窗口,透明的片段,與KPI的結合,嚴格的驗證,操作SLO和漂移監視。僅在提供可測量的uplift且仍可為業務和合規性解釋的情況下添加復雜性(embeddings,圖形,超級文件方法)。