A/B接口测试
介绍
A/B测试是一个受控实验,在实际用户上比较接口的两个版本(或更多),以了解哪个版本导致更好的产品指标。目的是通过可验证的更改而不是意见来减少决策中的不确定性,并改善UX。
适当时A/B测试
有一个可测量的目标(转换,动作时间,保留,NPS,任务速度)。
预期的效果是不可见的,或者可能因段而异。
改变的风险足够高,足以证明实验是合理的。
流量允许快速收集具有统计意义的样本。
最好不要进行测试时:在很少使用的屏幕上进行微拷贝,具有强烈的网络/社交依赖性(溢出效果)的fici,需要用户长期学习的编辑。
假设的表述
Template:- 如果我们更改[Y段/全部]的[接口中的X],则[度量Z]将更改为[方向/大小],因为[行为原因]。
示例:如果将主CTA移到折弯线以上,并将形状从6个字段缩短到3个字段,则通过减少摩擦,主要动作的CR将增加+3-5%。
指标: 目标和保护
初级(主要):一个关键,例如完成目标脚本/转换。
次要:滚动深度、CTR、动作前时间、错误、页面速度。
Guardrails(保护):性能稳定性(TTFB, LCP)、退款/退款、投诉/回扣、遵守通知限制、可用性。
建议提前MDE(检测效果最小),观察窗口和成功标准。
实验设计
随机化和分析单位
随机化单位:用户(user_id),有时是会话或组织(群集))。
分层/锁定:如果存在很大差异,则通过设备/链路。
溢出(interference)-避免单个组的行为影响另一个组(例如共享列表/磁带)。在这种情况下,是群集测试。
样本大小和MDE(简化)
接近:基本转换越低,效果越小,样本越多。
对于CR ~ 10%和MDE ~+5%的相对效应,每个变体通常需要数万次观测。
持续时间
专注于整个为期一周的行为周期+库存(通常为2-4周)或达到计划容量之前。不要过早停止测试。
坡道(渐进式推理)
1-5%的流量(金丝雀)→ 10-25% → 50% → 100%,并监视guardrails。
数据质量和有效性
SRM (Sample Ratio Mismatch)
检查实际流量分配(A/B)是否符合计划(例如,50/50)。有意义的偏差=包容/旗帜/机器人问题。
身份和跨字节
使用稳定的user_id;在漏斗中考虑交叉设备,cookie decay,稍后授权。
机器人与异常
过滤非自然模式(超高速点击、缺少用户代理、非有效转诊)。
季节性和事件
除非是测试目的,否则不要对严重的"异常"时期(假期/售罄)进行测试。
统计分析
频率方法(经典)
固定alpha(通常为0.05)和功率(通常为80%)。
不要在没有调整的情况下每小时"偷看"-假阳性的风险。
对于多个度量/变体,应用调整(Bonferroni/Holm/Hochberg)或度量层次结构。
贝叶斯方法
评估效果概率分布和变体优势概率。
方便实时监控和决策"足够好"。
CUPED/协变量
通过测试前协方差(例如上周的活动)减少方差,→更快地获得功率。