A/B-Prüfung der Schnittstellen
Einführung
A/B-Tests sind ein kontrolliertes Experiment, bei dem zwei (oder mehr) Versionen einer Schnittstelle mit echten Benutzern verglichen werden, um zu verstehen, welche Version zu besseren Produktmetriken führt. Ziel ist es, die Unsicherheit bei der Entscheidungsfindung zu reduzieren und die UX durch überprüfbare Änderungen und nicht durch Meinungen zu verbessern.
Wenn A/B-Tests relevant sind
Es gibt ein messbares Ziel (Conversion, Zeit bis zur Aktion, Halten, NPS, Aufgabengeschwindigkeit).
Der erwartete Effekt ist nicht offensichtlich oder kann sich segmentweise unterscheiden.
Das Risiko einer Veränderung ist hoch genug, um das Experiment zu rechtfertigen.
Der Verkehr ermöglicht es Ihnen, schnell eine statistisch signifikante Stichprobe zu sammeln.
Wenn es besser ist, nicht zu testen: Mikrokopien auf wenig genutzten Bildschirmen, Fichi mit einer starken Netzwerk-/sozialen Abhängigkeit (Effektüberlauf), Bearbeitungen, die eine lange Schulung der Benutzer erfordern.
Formulierung einer Hypothese
Vorlage:- Wenn wir [X in der Schnittstelle] für [Y-Segment/alle] ändern, ändert sich [Z-Metrik] in [Richtung/Betrag], weil [Verhaltensursache].
Beispiel: Wenn Sie den Haupt-CTA über die Faltlinie übertragen und die Form von 6 auf 3 Felder reduzieren, steigt der CR der primären Aktion aufgrund der verringerten Reibung um + 3-5%.
Metriken: Ziel und Schutz
Primary (Main): ein Schlüssel - zum Beispiel die Fertigstellung des Zielszenarios/Conversion.
Sekundär: Scrolltiefe, CTR, Zeit bis zur Aktion, Fehler, Seitengeschwindigkeit.
Guardrails (Protective): Performance-Stabilität (TTFB, LCP), Retouren/Ausfälle, Reklamationen/Pullbacks, Einhaltung der Benachrichtigungsgrenzen, Verfügbarkeit.
Es wird empfohlen, die MDE (minimal nachweisbare Wirkung), das Beobachtungsfenster und die Erfolgskriterien im Voraus zu fixieren.
Experimentelles Design
Randomisierung und Analyseeinheit
Einheit der Randomisierung: Benutzer (user_id), manchmal - Sitzung oder Organisation (Cluster).
Stratifizierung/Blockierung: nach Geräten/Kanälen, wenn es starke Unterschiede gibt.
Überlauf (Interferenz): Vermeiden Sie es, wenn das Verhalten einer Gruppe eine andere beeinflusst (z. B. gemeinsame Listen/Bänder). In solchen Fällen - Clustertests.
Stichprobengröße und MDE (vereinfacht)
Näherungsweise: Je niedriger die Basiskonversion und je kleiner der Effekt, desto größer die Stichprobe.
Für CR ~ 10% und MDE ~ + 5% relative Wirkung sind oft Zehntausende von Beobachtungen pro Variante erforderlich.
Dauer
Konzentrieren Sie sich auf einen vollständigen wöchentlichen Verhaltenszyklus + Bestand (normalerweise 2-4 Wochen) oder bis die geplante Kapazität erreicht ist. Beenden Sie den Test nicht vorzeitig.
Ramp-up (graduelle Ausgabe)
1-5% des Verkehrs (canary) → 10-25% → 50% → 100%, mit guardrails Überwachung.
Datenqualität und Gültigkeit
SRM (Sample Ratio Mismatch)
Überprüfen Sie, ob die tatsächliche Verkehrsverteilung (A/B) der geplanten entspricht (z. B. 50/50). Signifikante Abweichungen = Problem der Inklusion/Flaggen/Bots.
Identität und geräteübergreifendes Verhalten
Verwenden Sie eine stabile user_id; Berücksichtigen Sie Cross-Devices, Cookie-Decay, Autorisierung später im Trichter.
Bots und Anomalien
Filtern Sie unnatürliche Muster (superschnelle Klicks, fehlende Benutzeragenten, nicht-valide Referrer).
Saisonalität und Ereignisse
Führen Sie keine Tests für starke „anomale“ Perioden (Feiertage/Verkäufe) durch, es sei denn, dies ist der Zweck des Tests.
Statistische Analyse
Frequenzansatz (klassisch)
Halten Sie Alpha (normalerweise 0,05) und Leistung (normalerweise 80%) fest.
Nicht jede Stunde ohne Anpassungen „gucken“ - das Risiko ist falsch positiv.
Wenden Sie für mehrere Metriken/Varianten Anpassungen (Bonferroni/Holm/Hochberg) oder eine Metrikhierarchie an.
Bayesscher Ansatz
Bewertet die Wahrscheinlichkeitsverteilung des Effekts und die Wahrscheinlichkeit der Überlegenheit der Variante.
Praktisch für Echtzeitüberwachung und „gut genug“ Entscheidungsfindung.
CUPED/Kovariaten
Die Verringerung der Varianz aufgrund von Vor-Test-Kovariaten (z. B. Aktivität in der letzten Woche) wird → schneller erreicht.