数据细分
数据细分
细分是将多个对象(用户,事务,产品,事件)分为同质组,以进行定位,定性,分析和风险管理。良好的细分提高了利润率,降低了成本,并使解决方案可以解释。
1)目标和制作
市场营销和成长:个性化的离场,接触频率,反垃圾邮件政策。
货币化:价格歧视,帮派,贵宾服务。
风险和合规性:控制级别,KYC/AML触发器,可疑模式评分。
产品和经验:按脚本编排,内容/游戏推荐,动态限制。
操作:优先支持、限额和配额分配。
构造细分单位(用户/会议/商人),地平线(7/30/90天),换算率(在线/每日/每周)和目标KPI。
2)片段分类
人口/地理:国家,语言,平台。
行为:活动,频率,深度,时间,最喜欢的类别。
价值(基于价值):ARPU/ARPPU,LTV-quantili,保证金。
阶段:爬行,成熟,"睡觉",返回。
RFM:备份,频率,带有沥青/分量的Monetary。
队列:按注册日期/首次付款/来源。
风险段:chargeback-risk, bonus-abuse-risk,异常活动。
生命周期: propensity to churn,propensity to buy, next-best-action.
上下文:设备/频道/区域规则。
3)数据和准备
点对点正确性:特征被认为来自可用的"过去"。
按窗口分组:7/30/90天金额/频率/分位数。
正常化:robast滑板(median/MAD),长尾巴的日志转换。
类别:单热门/目标/哈希;控制"稀有"值。
质量:跳过,复制,图式漂移,时间区域同步。
语义:在ML分段之前,显式业务规则(例如存款≥1)。
4)分割方法
4.1.规则和阈值(白盒)
简单条件: "VIP,如果LTV ≥ X和≥ Y频率。"
优点:可以理解,作为政策迅速实施。
缺点:漂移时脆弱,规则数量增加时难以支撑。
4.2.聚类(未聚类)
k-means/k-medoids:数字码头的快速锁定。
GMM:软附件,概率段。
HDBSCAN/DBSCAN:任意形状的群集+"噪声"作为异常。
混合类型的光谱/EM:用于复杂的几何形状。
功能学习→集群:首先是栓塞(autoencoder/transformer),然后在潜伏空间中聚类。
4.3.超级文件细分(目标驱动)
我们在目标KPI(例如LTV/风险)上训练模型,并且按预测分量,SHAP配置文件和决策树构建细分。
优点:细分市场与业务目标"挂钩",容易检查uplift。
缺点:"适合"的风险;需要严格的验证。
4.4.频率动机和规则
RFM矩阵,关联规则(支持/升降机),频繁序列(PrefixSpan)-尤其是用于产品导航和帮派。
4.5.图形/网络段
联系社区(设备,支付方法,转介);GNN用于丰富性状。
5)方法选择: 快速矩阵
6)细分质量评估
内部度量(无基准):- Silhouette/Davies-Bouldin/Calinski-Harabasz:紧凑性和可分离性。
- 稳定性:重新启动/启动之间的Jaccard/ARI。
- 信息性:关键人物的区间差异。
- KPI均匀性:段之间的LTV/转换/风险差异。
- 可操作性:干预响应不同部分的比例。
- Uplift/A/B:分段瞄准vs一般瞄准的增益。
- 覆盖范围:"有效"细分市场中用户的百分比(不仅仅是"噪音")。
7)验证和可持续性
Temporal CV:时间段稳定性检查(滚动窗口)。
组验证:不要在train/val之间溷合用户/设备。
复制:在邻近市场/渠道上运行。
漂移:PSI/JS-div分段和分配;Alerta上的阈值。
稳定坐标/初始化:比较分割版本。
8)可解释性
片段护照:规则/中心体描述,关键字节(top-SHAP/permutation),观众肖像,KPI配置文件。
可视化:带有段颜色的UMAP/t-SNE,每个段的"格子"度量。
激活规则:人为爬行("High-Value Infrequent","Risky Newcomers")。
9)运营实施
Fichestor:在线/离线特征计算的统一功能。
评分:SLA和频率(在线登录时,每天,事件时)。
API/batch导出:用户ID →段/概率/时间戳。
转化:"SEG_MODEL_vX",数据合同,培训样本的"冻结"日期。
策略:针对每个细分市场-操作规则(offer/限制/支持优先级)。
Fail-safe:降解时的默认片段(无相框/时空)。
10)实验和决策
A/B/n分段:在同一分段网格上测试不同的离场/限制。
Uplift评估:定向vs控制效果(Qini/AUUC,uplift@k)。
Budget allocation:按利润率/风险限制按细分细分预算。
Guardrails:FPR/FNR用于风险片段,接触频率和听众疲劳。
11)道德,隐私,合规性
数据最小化:使用所需的最低值,别名化。
公平性:比较敏感部分的策略错误和"僵化";从规则中排除受保护的属性,或者应用公平校正。
解释权:记录段分配逻辑。
审计:按细分市场划分的版本日志、输入信息、决策和活动结果。
12)工件模板
段护照
代码/版本: "SEG_HVIF_v3"
描述: "高价值,罕见的活动"
标准/中心: 'LTV_quantile ≥ 0。9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`
规模/范围: 4。8%的用户(过去30天)
KPI配置文件: ARPPU ↑ 2。4 ×来自中位数,Churn-risk中位数
建议: 柔软的RE-ENGAGE OFFERS,高级商品交叉插槽,频率限制1/7 d
风险: 盈余回扣→"上瘾"
所有者: CRM/Monetization
日期/有效性: 2025-10-15;每季度修订一次
分割合同
信息来源: 'fs。user_activity_v5`
时间表: 世界标准时间02:00夜间战斗;"购买"事件中的在线更新'
服务: 'segmentor。api/v1/score` (p95 ≤ 120 мс)
Logs: 'seg_scoring_log' (fichi-hash, version, score,片段)
Alerts: "UNKNOWN"> 2%;关键的PSI> 0。2;段不平衡>每天10个百分点
13)发行前的支票清单
- 协调分割影响的目标和KPI
- 确定单位、窗户和重计费用频率
- 有bezline(基于规则)和ML变体;uplift比较
- 数据段文档+成像和人类优势
- 定制A/B,guardrails和漂移变量
- 验证,数据合同,runibuki事件
- 每个分区和default-fallback的操作策略
底线
分段不是"一次性聚类",而是控制轮廓:正确的数据和窗口,透明的片段,与KPI的结合,严格的验证,操作SLO和漂移监视。仅在提供可测量的uplift且仍可为业务和合规性解释的情况下添加复杂性(embeddings,图形,超级文件方法)。