A/B接口测试

介绍

A/B测试是一个受控实验，在实际用户上比较接口的两个版本（或更多），以了解哪个版本导致更好的产品指标。目的是通过可验证的更改而不是意见来减少决策中的不确定性，并改善UX。

适当时A/B测试

有一个可测量的目标（转换，动作时间，保留，NPS，任务速度）。
预期的效果是不可见的，或者可能因段而异。
改变的风险足够高，足以证明实验是合理的。
流量允许快速收集具有统计意义的样本。

最好不要进行测试时：在很少使用的屏幕上进行微拷贝，具有强烈的网络/社交依赖性（溢出效果）的fici，需要用户长期学习的编辑。

假设的表述

Template：

如果我们更改［Y段/全部］的［接口中的X］，则［度量Z］将更改为［方向/大小］，因为［行为原因］。

示例：如果将主CTA移到折弯线以上，并将形状从6个字段缩短到3个字段，则通过减少摩擦，主要动作的CR将增加+3-5％。

指标： 目标和保护

初级（主要）：一个关键,例如完成目标脚本/转换。
次要：滚动深度、CTR、动作前时间、错误、页面速度。
Guardrails（保护）：性能稳定性（TTFB, LCP）、退款/退款、投诉/回扣、遵守通知限制、可用性。

建议提前MDE（检测效果最小），观察窗口和成功标准。

实验设计

随机化和分析单位

随机化单位：用户（user_id),有时是会话或组织（群集））。
分层/锁定：如果存在很大差异,则通过设备/链路。
溢出（interference）-避免单个组的行为影响另一个组（例如共享列表/磁带）。在这种情况下，是群集测试。

样本大小和MDE（简化）

接近：基本转换越低，效果越小，样本越多。
对于CR ~ 10％和MDE ~+5％的相对效应，每个变体通常需要数万次观测。

持续时间

专注于整个为期一周的行为周期+库存（通常为2-4周）或达到计划容量之前。不要过早停止测试。

坡道（渐进式推理）

1-5％的流量（金丝雀）→ 10-25％ → 50％ → 100％，并监视guardrails。

数据质量和有效性

SRM (Sample Ratio Mismatch)

检查实际流量分配（A/B）是否符合计划（例如,50/50）。有意义的偏差=包容/旗帜/机器人问题。

身份和跨字节

使用稳定的user_id；在漏斗中考虑交叉设备，cookie decay，稍后授权。

机器人与异常

过滤非自然模式（超高速点击、缺少用户代理、非有效转诊）。

季节性和事件

除非是测试目的，否则不要对严重的"异常"时期（假期/售罄）进行测试。

统计分析

频率方法（经典）

固定alpha（通常为0.05）和功率（通常为80%）。
不要在没有调整的情况下每小时"偷看"-假阳性的风险。
对于多个度量/变体，应用调整（Bonferroni/Holm/Hochberg）或度量层次结构。

贝叶斯方法

评估效果概率分布和变体优势概率。
方便实时监控和决策"足够好"。

CUPED/协变量

通过测试前协方差（例如上周的活动）减少方差，→更快地获得功率。