Testowanie interfejsu A/B
Wprowadzenie
Badanie A/B jest kontrolowanym eksperymentem, w którym dwie (lub więcej) wersje interfejsu są porównywane na rzeczywistych użytkowników, aby zrozumieć, która wersja prowadzi do lepszych wskaźników produktu. Celem jest zmniejszenie niepewności w podejmowaniu decyzji i poprawa UX poprzez weryfikowalne zmiany, a nie opinie.
Gdy odpowiednie jest badanie A/B
Istnieje wymierny cel (konwersja, czas do działania, przytrzymaj, NPS, prędkość zadania).
Spodziewany efekt nie jest oczywisty lub może różnić się w zależności od segmentu.
Ryzyko zmian jest na tyle wysokie, aby uzasadnić eksperyment.
Ruch pozwala szybko zebrać statystycznie znaczącą próbkę.
Kiedy lepiej nie testować: mikrokopie na niewykorzystanych ekranach, funkcje o silnej zależności sieciowej/społecznej (przepełnienie efektów), edycje, które wymagają długotrwałego szkolenia użytkowników.
Postać hipotezy
Szablon:- Jeśli zmienimy [X w interfejsie] dla [Y-segment/all], to [Z metric] zmieni się na [kierunek/wielkość], ponieważ [powód behawioralny].
Przykład: Jeśli przeniesiesz główną CTA nad linię zagięć i zmniejszysz kształt z 6 do 3 pól, wtedy współczynnik CR działania podstawowego wzrośnie o + 3-5% ze względu na zmniejszenie tarcia.
Metryka: Cel i obrona
Podstawowy: jeden klucz - na przykład docelowe zakończenie/konwersja skryptu.
Wtórne: głębokość przewijania, CTR, czas do działania, błędy, prędkość strony.
Poręcze (ochronne): stabilność działania (TTFB, LCP), zwroty/odmowy, reklamacje/rolki, zgodność z limitami powiadomień, dostępność.
Zaleca się wcześniejsze ustalenie MDE (minimalny wykrywalny efekt), okna obserwacji i kryteriów sukcesu.
Projektowanie eksperymentów
Randomizacja i jednostka analizy
Jednostka randomizacji: użytkownik (user_id), czasami sesja lub organizacja (klaster).
Stratyfikacja/blokowanie: przez urządzenie/kanał, jeśli istnieją silne różnice.
Overflow-Avoid, gdy zachowanie jednej grupy wpływa na inną (na przykład wspólne listy/taśmy). W takich przypadkach testy klastra.
Rozmiar próbki i MDE (uproszczony)
Przybliżony: im niższa konwersja podstawowa i mniejszy efekt, tym większa próbka.
W przypadku CR ~ 10% i MDE ~ + 5% efektu względnego często wymagane są dziesiątki tysięcy obserwacji na wariant.
Czas trwania
Skupić się na pełnym cyklu cotygodniowym zachowania + marża (zwykle 2-4 tygodnie) lub do osiągnięcia planowanej zdolności. Nie należy przedwcześnie przerywać badania.
Powiększenie (stopniowe wycofywanie)
1-5% ruchu (kanaryjskiego) → 10-25% → 50% → 100%, z monitorowaniem szyn ochronnych.
Jakość i ważność danych
SRM (niedopasowanie proporcji próbki)
Sprawdź, czy rzeczywisty rozkład ruchu (A/B) jest zgodnie z planem (na przykład 50/50). Znaczne odchylenia = problem włączenia/bandery/bot.
Identyfikacja i urządzenie krzyżowe
Użyj stabilnego user_id; rozważenie urządzeń krzyżowych, rozpadu ciasteczek, autoryzacji później w lejku.
Boty i anomalie
Filtruj nienaturalne wzory (super szybkie kliknięcia, brakujące agenty użytkownika, nieprawidłowe polecenia).
Sezonowość i wydarzenia
Nie należy przeprowadzać testów na silne „nienormalne” okresy (wakacje/sprzedaż), chyba że jest to celem testu.
Analiza statystyczna
Podejście do częstotliwości (klasyczne)
Naprawić alfa (zwykle 0. 05) i moc (zwykle 80%).
Nie „podglądać” co godzinę bez korekt - ryzyko fałszywych pozytywów.
W przypadku wielu mierników/wariantów należy stosować korekty (Bonferroni/Holm/Hochberg) lub hierarchię mierników.
Podejście bayesowskie
Szacuje rozkład prawdopodobieństwa efektu i prawdopodobieństwo wyższości wariantu.
Wygodne do monitorowania w czasie rzeczywistym i „wystarczająco dobre” podejmowania decyzji.
CUPED/covariates
Redukcja wariancji z powodu wstępnego testu covariates (np. aktywność w zeszłym tygodniu "s) → szybsza moc jest osiągana.