Testowanie interfejsu A/B

Wprowadzenie

Badanie A/B jest kontrolowanym eksperymentem, w którym dwie (lub więcej) wersje interfejsu są porównywane na rzeczywistych użytkowników, aby zrozumieć, która wersja prowadzi do lepszych wskaźników produktu. Celem jest zmniejszenie niepewności w podejmowaniu decyzji i poprawa UX poprzez weryfikowalne zmiany, a nie opinie.

Gdy odpowiednie jest badanie A/B

Istnieje wymierny cel (konwersja, czas do działania, przytrzymaj, NPS, prędkość zadania).
Spodziewany efekt nie jest oczywisty lub może różnić się w zależności od segmentu.
Ryzyko zmian jest na tyle wysokie, aby uzasadnić eksperyment.
Ruch pozwala szybko zebrać statystycznie znaczącą próbkę.

Kiedy lepiej nie testować: mikrokopie na niewykorzystanych ekranach, funkcje o silnej zależności sieciowej/społecznej (przepełnienie efektów), edycje, które wymagają długotrwałego szkolenia użytkowników.

Postać hipotezy

Szablon:

Jeśli zmienimy [X w interfejsie] dla [Y-segment/all], to [Z metric] zmieni się na [kierunek/wielkość], ponieważ [powód behawioralny].

Przykład: Jeśli przeniesiesz główną CTA nad linię zagięć i zmniejszysz kształt z 6 do 3 pól, wtedy współczynnik CR działania podstawowego wzrośnie o + 3-5% ze względu na zmniejszenie tarcia.

Metryka: Cel i obrona

Podstawowy: jeden klucz - na przykład docelowe zakończenie/konwersja skryptu.
Wtórne: głębokość przewijania, CTR, czas do działania, błędy, prędkość strony.
Poręcze (ochronne): stabilność działania (TTFB, LCP), zwroty/odmowy, reklamacje/rolki, zgodność z limitami powiadomień, dostępność.

Zaleca się wcześniejsze ustalenie MDE (minimalny wykrywalny efekt), okna obserwacji i kryteriów sukcesu.

Projektowanie eksperymentów

Randomizacja i jednostka analizy

Jednostka randomizacji: użytkownik (user_id), czasami sesja lub organizacja (klaster).
Stratyfikacja/blokowanie: przez urządzenie/kanał, jeśli istnieją silne różnice.
Overflow-Avoid, gdy zachowanie jednej grupy wpływa na inną (na przykład wspólne listy/taśmy). W takich przypadkach testy klastra.

Rozmiar próbki i MDE (uproszczony)

Przybliżony: im niższa konwersja podstawowa i mniejszy efekt, tym większa próbka.
W przypadku CR ~ 10% i MDE ~ + 5% efektu względnego często wymagane są dziesiątki tysięcy obserwacji na wariant.

Czas trwania

Skupić się na pełnym cyklu cotygodniowym zachowania + marża (zwykle 2-4 tygodnie) lub do osiągnięcia planowanej zdolności. Nie należy przedwcześnie przerywać badania.

Powiększenie (stopniowe wycofywanie)

1-5% ruchu (kanaryjskiego) → 10-25% → 50% → 100%, z monitorowaniem szyn ochronnych.

Jakość i ważność danych

SRM (niedopasowanie proporcji próbki)

Sprawdź, czy rzeczywisty rozkład ruchu (A/B) jest zgodnie z planem (na przykład 50/50). Znaczne odchylenia = problem włączenia/bandery/bot.

Identyfikacja i urządzenie krzyżowe

Użyj stabilnego user_id; rozważenie urządzeń krzyżowych, rozpadu ciasteczek, autoryzacji później w lejku.

Boty i anomalie

Filtruj nienaturalne wzory (super szybkie kliknięcia, brakujące agenty użytkownika, nieprawidłowe polecenia).

Sezonowość i wydarzenia

Nie należy przeprowadzać testów na silne „nienormalne” okresy (wakacje/sprzedaż), chyba że jest to celem testu.

Analiza statystyczna

Podejście do częstotliwości (klasyczne)

Naprawić alfa (zwykle 0. 05) i moc (zwykle 80%).
Nie „podglądać” co godzinę bez korekt - ryzyko fałszywych pozytywów.
W przypadku wielu mierników/wariantów należy stosować korekty (Bonferroni/Holm/Hochberg) lub hierarchię mierników.

Podejście bayesowskie

Szacuje rozkład prawdopodobieństwa efektu i prawdopodobieństwo wyższości wariantu.
Wygodne do monitorowania w czasie rzeczywistym i „wystarczająco dobre” podejmowania decyzji.

CUPED/covariates

Redukcja wariancji z powodu wstępnego testu covariates (np. aktywność w zeszłym tygodniu "s) → szybsza moc jest osiągana.