A/Bインターフェイステスト

はじめに

A/Bテストとは、インターフェイスの2つ以上のバージョンが実際のユーザーで比較され、どのバージョンがより良い製品指標につながるかを理解するための制御実験です。意思決定における不確実性を低減し、意見ではなく検証可能な変更を通じてUXを改善することを目標としています。

A/Bテストが適切な場合

測定可能な目標（変換、アクションへの時間、ホールド、NPS、タスク速度）があります。
期待される効果は明らかではないか、セグメントによって異なる可能性があります。
変化のリスクは実験を正当化するのに十分である。
トラフィックを使用すると、統計的に重要なサンプルをすばやく収集できます。

テストしない方が良い場合：未使用の画面上のマイクロコピー、強力なネットワーク/社会依存（効果のオーバーフロー）を持つ機能、ユーザーの長期的なトレーニングを必要とする編集。

仮説の定式化

テンプレート：

［Y-segment/all］の［X］を変更すると、［behavioral reason］のため［Z metric］が［方向/大きさ］に変更されます。

例：メインのCTAを折り目ラインの上に移動し、形状を6から3フィールドに縮小すると、摩擦の減少によりプライマリアクションのCRが+3-5％増加します。

メトリクス： ターゲットと防御

プライマリ：1つのキー-たとえば、ターゲットスクリプトの補完/変換。
セカンダリ：スクロール深度、CTR、アクションまでの時間、エラー、ページ速度。
ガードレール（保護）：パフォーマンスの安定性（TTFB、 LCP）、返品/拒否、苦情/ロールバック、通知制限の遵守、可用性。

MDE（最小検出可能な効果）、観察ウィンドウ、成功基準を事前に修正することをお勧めします。

実験設計

ランダム化と分析単位

ランダム化ユニット：ユーザー（user_id)、時にはセッションまたは組織（クラスタ）。
層別化/ブロック：強い相違があれば装置/チャネルによって。
オーバーフロー-あるグループの動作が別のグループ（共有リスト/テープなど）に影響を与えるときに回避します。そのような場合、クラスタテスト。

サンプルサイズとMDE（簡略化）

近似：基本的な変換が低く、効果が小さいほど、サンプルが大きくなります。
CR ~ 10％とMDE ~+5％の相対効果のために、多くの場合、バリアントごとに数万の観察が必要です。

期間

完全な毎週の行動サイクル+マージン（通常2〜4週間）または計画された容量に達するまでに焦点を当てます。早期にテストを停止しないでください。

ランプアップ（段階的撤退）

トラフィック（カナリア）の1-5％→10-25％→50％→100％、ガードレール監視。

データの品質と有効性

SRM（サンプル比の不一致）

実際のトラフィック分布（A/B）が計画通りであることを確認します（例：50/50）。重大な偏差=inclusion/flag/bot問題。

アイデンティティとクロスデバイス

安定したuser_idを使用して下さい；cross-devices、 cookie-decay、 funnelの後の承認を考慮してください。

ボットと異常

不自然なパターン（超高速クリック、ユーザーエージェントの欠落、不正な参照）をフィルタリングします。

季節性とイベント

テストの目的でない限り、強い「異常な」期間（休日/販売）のテストを実行しないでください。

統計分析

周波数アプローチ（クラシック）

alphaを修正しました（通常は0です。05）および力（通常80％）。
調整なしで1時間ごとに「のぞき」しないでください-偽陽性のリスク。
複数のメトリック/バリアントについては、調整（Bonferroni/Holm/Hochberg）またはメトリックの階層を適用します。

ベイジアンアプローチ

効果の確率分布とバリアントの優位性の確率を推定します。
リアルタイム監視と「十分な」意思決定に便利です。

CUPED/共変量

テスト前の共変量による分散減少（例えば、先週の活動）→より速い電力が達成されます。