A/B arayüz testi
Giriş
A/B testi, hangi sürümün daha iyi ürün metriklerine yol açtığını anlamak için bir arayüzün iki (veya daha fazla) sürümünün gerçek kullanıcılar üzerinde karşılaştırıldığı kontrollü bir deneydir. Amaç, karar vermedeki belirsizliği azaltmak ve görüşler yerine doğrulanabilir değişikliklerle UX'i geliştirmektir.
A/B testi uygun olduğunda
Ölçülebilir bir hedef vardır (dönüşüm, eylem zamanı, bekletme, NPS, görev hızı).
Beklenen etki açık değildir veya segmente göre farklılık gösterebilir.
Değişim riski, deneyi haklı çıkaracak kadar yüksektir.
Trafik, istatistiksel olarak anlamlı bir örneği hızlı bir şekilde toplamanızı sağlar.
Test etmemek daha iyi olduğunda: az kullanılan ekranlardaki mikrokopiler, güçlü ağ/sosyal bağımlılığı olan özellikler (etkilerin taşması), kullanıcıların uzun süreli eğitimini gerektiren düzenlemeler.
Hipotez formülasyonu
Şablon:- Arayüzdeki [X]'i [Y-segmenti/tümü] için değiştirirsek, [Z metrik] [davranış nedeni] nedeniyle [yön/büyüklük] olarak değişecektir.
Örnek: Ana CTA'yı kırışıklık çizgisinin üzerine taşırsanız ve şekli 6'dan 3 alana düşürürseniz, sürtünmedeki azalma nedeniyle birincil eylemin CR'si + %3-5 artar.
Metrikler: Hedef ve Savunma
Birincil: bir anahtar - örneğin, hedef komut dosyası tamamlama/dönüştürme.
İkincil: kaydırma derinliği, TO, eylem süresi, hatalar, sayfa hızı.
Korkuluklar (koruyucu): performans kararlılığı (TTFB, LCP), geri dönüşler/reddetmeler, şikayetler/geri dönüşler, bildirim sınırlarına uygunluk, kullanılabilirlik.
MDE (minimum saptanabilir etki), gözlem penceresi ve başarı kriterlerinin önceden düzeltilmesi önerilir.
Deney tasarımı
Randomizasyon ve analiz birimi
Randomizasyon birimi: kullanıcı (user_id), bazen oturum veya organizasyon (küme).
Tabakalaşma/engelleme: güçlü farklılıklar varsa cihaz/kanal ile.
Taşma - Bir grubun davranışı diğerini etkilediğinde kaçının (örneğin, paylaşılan listeler/bantlar). Bu gibi durumlarda, küme testleri.
Örnek boyutu ve MDE (basitleştirilmiş)
Yaklaşık: Temel dönüşüm ne kadar düşükse ve etki ne kadar küçükse, örnek o kadar büyüktür.
Göreceli etkinin CR ~ %10 ve MDE ~ + %5'i için, değişken başına on binlerce gözlem genellikle gereklidir.
Süre
Tam haftalık davranış döngüsü + marjına (genellikle 2-4 hafta) veya planlanan kapasiteye ulaşana kadar odaklanın. Testi erken durdurmayın.
Rampa-up (kademeli çekilme)
Trafiğin %1-5'i (kanarya) - %10-25 - %50 - %100, korkuluklar izlenerek.
Veri kalitesi ve geçerliliği
SRM (Örnek Oranı Uyumsuzluğu)
Gerçek trafik dağılımının (A/B) planlandığı gibi olduğunu doğrulayın (örneğin, 50/50). Önemli sapmalar = içerme/bayrak/bot problemi.
Kimlik ve çapraz aygıt
Stabil bir user_id kullanın; Çapraz aygıtları, çerez bozunumunu, yetkilendirmeyi daha sonra hunide düşünün.
Botlar ve anomaliler
Doğal olmayan desenleri filtreleyin (süper hızlı tıklamalar, eksik kullanıcı aracıları, geçersiz yönlendiriciler).
Mevsimsellik ve olaylar
Testin amacı olmadığı sürece güçlü "anormal" dönemler (tatiller/satışlar) için testler yapmayın.
İstatistiksel analiz
Frekans yaklaşımı (klasik)
Düzeltme alfa (genellikle 0. 05) ve güç (genellikle %80).
Ayarlamalar olmadan her saat "dikizlemeyin" - yanlış pozitif riski.
Birden fazla metrik/değişken için, ayarlamalar (Bonferroni/Holm/Hochberg) veya bir metrik hiyerarşisi uygulayın.
Bayesci yaklaşım
Etkinin olasılık dağılımını ve değişkenin üstünlük olasılığını tahmin eder.
Gerçek zamanlı izleme ve "yeterince iyi" karar verme için uygun.
CUPED/kovaryatlar
Ön test eş değişkenlerine bağlı varyans azaltma (örneğin, geçen haftaki aktivite) - daha hızlı güç elde edilir.