A/B arayüz testi

Giriş

A/B testi, hangi sürümün daha iyi ürün metriklerine yol açtığını anlamak için bir arayüzün iki (veya daha fazla) sürümünün gerçek kullanıcılar üzerinde karşılaştırıldığı kontrollü bir deneydir. Amaç, karar vermedeki belirsizliği azaltmak ve görüşler yerine doğrulanabilir değişikliklerle UX'i geliştirmektir.

A/B testi uygun olduğunda

Ölçülebilir bir hedef vardır (dönüşüm, eylem zamanı, bekletme, NPS, görev hızı).
Beklenen etki açık değildir veya segmente göre farklılık gösterebilir.
Değişim riski, deneyi haklı çıkaracak kadar yüksektir.
Trafik, istatistiksel olarak anlamlı bir örneği hızlı bir şekilde toplamanızı sağlar.

Test etmemek daha iyi olduğunda: az kullanılan ekranlardaki mikrokopiler, güçlü ağ/sosyal bağımlılığı olan özellikler (etkilerin taşması), kullanıcıların uzun süreli eğitimini gerektiren düzenlemeler.

Hipotez formülasyonu

Şablon:

Arayüzdeki [X]'i [Y-segmenti/tümü] için değiştirirsek, [Z metrik] [davranış nedeni] nedeniyle [yön/büyüklük] olarak değişecektir.

Örnek: Ana CTA'yı kırışıklık çizgisinin üzerine taşırsanız ve şekli 6'dan 3 alana düşürürseniz, sürtünmedeki azalma nedeniyle birincil eylemin CR'si + %3-5 artar.

Metrikler: Hedef ve Savunma

Birincil: bir anahtar - örneğin, hedef komut dosyası tamamlama/dönüştürme.
İkincil: kaydırma derinliği, TO, eylem süresi, hatalar, sayfa hızı.
Korkuluklar (koruyucu): performans kararlılığı (TTFB, LCP), geri dönüşler/reddetmeler, şikayetler/geri dönüşler, bildirim sınırlarına uygunluk, kullanılabilirlik.

MDE (minimum saptanabilir etki), gözlem penceresi ve başarı kriterlerinin önceden düzeltilmesi önerilir.

Deney tasarımı

Randomizasyon ve analiz birimi

Randomizasyon birimi: kullanıcı (user_id), bazen oturum veya organizasyon (küme).
Tabakalaşma/engelleme: güçlü farklılıklar varsa cihaz/kanal ile.
Taşma - Bir grubun davranışı diğerini etkilediğinde kaçının (örneğin, paylaşılan listeler/bantlar). Bu gibi durumlarda, küme testleri.

Örnek boyutu ve MDE (basitleştirilmiş)

Yaklaşık: Temel dönüşüm ne kadar düşükse ve etki ne kadar küçükse, örnek o kadar büyüktür.
Göreceli etkinin CR ~ %10 ve MDE ~ + %5'i için, değişken başına on binlerce gözlem genellikle gereklidir.

Süre

Tam haftalık davranış döngüsü + marjına (genellikle 2-4 hafta) veya planlanan kapasiteye ulaşana kadar odaklanın. Testi erken durdurmayın.

Rampa-up (kademeli çekilme)

Trafiğin %1-5'i (kanarya) - %10-25 - %50 - %100, korkuluklar izlenerek.

Veri kalitesi ve geçerliliği

SRM (Örnek Oranı Uyumsuzluğu)

Gerçek trafik dağılımının (A/B) planlandığı gibi olduğunu doğrulayın (örneğin, 50/50). Önemli sapmalar = içerme/bayrak/bot problemi.

Kimlik ve çapraz aygıt

Stabil bir user_id kullanın; Çapraz aygıtları, çerez bozunumunu, yetkilendirmeyi daha sonra hunide düşünün.

Botlar ve anomaliler

Doğal olmayan desenleri filtreleyin (süper hızlı tıklamalar, eksik kullanıcı aracıları, geçersiz yönlendiriciler).

Mevsimsellik ve olaylar

Testin amacı olmadığı sürece güçlü "anormal" dönemler (tatiller/satışlar) için testler yapmayın.

İstatistiksel analiz

Frekans yaklaşımı (klasik)

Düzeltme alfa (genellikle 0. 05) ve güç (genellikle %80).
Ayarlamalar olmadan her saat "dikizlemeyin" - yanlış pozitif riski.
Birden fazla metrik/değişken için, ayarlamalar (Bonferroni/Holm/Hochberg) veya bir metrik hiyerarşisi uygulayın.

Bayesci yaklaşım

Etkinin olasılık dağılımını ve değişkenin üstünlük olasılığını tahmin eder.
Gerçek zamanlı izleme ve "yeterince iyi" karar verme için uygun.

CUPED/kovaryatlar

Ön test eş değişkenlerine bağlı varyans azaltma (örneğin, geçen haftaki aktivite) - daha hızlı güç elde edilir.