A/B接口測試

介紹

A/B測試是一個受控實驗，在實際用戶上比較接口的兩個版本（或更多），以了解哪個版本導致更好的產品指標。目的是通過可驗證的更改而不是意見來減少決策中的不確定性，並改善UX。

適當時A/B測試

有一個可測量的目標（轉換，動作時間，保留，NPS，任務速度）。
預期的效果是不可見的，或者可能因段而異。
改變的風險足夠高，足以證明實驗是合理的。
流量允許快速收集具有統計意義的樣本。

最好不要進行測試時：在很少使用的屏幕上進行微拷貝，具有強烈的網絡/社交依賴性（溢出效果）的fici，需要用戶長期學習的編輯。

假設的表述

Template：

如果我們更改［Y段/全部］的［接口中的X］，則［度量Z］將更改為［方向/大小］，因為［行為原因］。

示例：如果將主CTA移到折彎線以上，並將形狀從6個字段縮短到3個字段，則通過減少摩擦，主要動作的CR將增加+3-5％。

指標： 目標和保護

初級（主要）：一個關鍵,例如完成目標腳本/轉換。
次要：滾動深度、CTR、動作前時間、錯誤、頁面速度。
Guardrails（保護）：性能穩定性（TTFB, LCP）、退款/退款、投訴/回扣、遵守通知限制、可用性。

建議提前MDE（檢測效果最小），觀察窗口和成功標準。

實驗設計

隨機化和分析單位

隨機化單位：用戶（user_id),有時是會話或組織（群集））。
分層/鎖定：如果存在很大差異,則通過設備/鏈路。
溢出（interference）-避免單個組的行為影響另一個組（例如共享列表/磁帶）。在這種情況下，是群集測試。

樣本大小和MDE（簡化）

接近：基本轉換越低，效果越小，樣本越多。
對於CR ~ 10％和MDE ~+5％的相對效應，每個變體通常需要數萬次觀測。

持續時間

專註於整個為期一周的行為周期+庫存（通常為2-4周）或達到計劃容量之前。不要過早停止測試。

坡道（漸進式推理）

1-5％的流量（金絲雀）→ 10-25％ → 50％ → 100％，並監視guardrails。

數據質量和有效性

SRM (Sample Ratio Mismatch)

檢查實際流量分配（A/B）是否符合計劃（例如,50/50）。有意義的偏差=包容/旗幟/機器人問題。

身份和跨字節

使用穩定的user_id；在漏鬥中考慮交叉設備，cookie decay，稍後授權。

機器人與異常

過濾非自然模式（超高速點擊、缺少用戶代理、非有效轉診）。

季節性和事件

除非是測試目的，否則不要對嚴重的「異常」時期（假期/售罄）進行測試。

統計分析

頻率方法（經典）

固定alpha（通常為0.05）和功率（通常為80%）。
不要在沒有調整的情況下每小時「偷看」-假陽性的風險。
對於多個度量/變體，應用調整（Bonferroni/Holm/Hochberg）或度量層次結構。

貝葉斯方法

評估效果概率分布和變體優勢概率。
方便實時監控和決策「足夠好」。

CUPED/協變量

通過測試前協方差（例如上周的活動）減少方差，→更快地獲得功率。