A/B-Prüfung der Schnittstellen

Einführung

A/B-Tests sind ein kontrolliertes Experiment, bei dem zwei (oder mehr) Versionen einer Schnittstelle mit echten Benutzern verglichen werden, um zu verstehen, welche Version zu besseren Produktmetriken führt. Ziel ist es, die Unsicherheit bei der Entscheidungsfindung zu reduzieren und die UX durch überprüfbare Änderungen und nicht durch Meinungen zu verbessern.

Wenn A/B-Tests relevant sind

Es gibt ein messbares Ziel (Conversion, Zeit bis zur Aktion, Halten, NPS, Aufgabengeschwindigkeit).
Der erwartete Effekt ist nicht offensichtlich oder kann sich segmentweise unterscheiden.
Das Risiko einer Veränderung ist hoch genug, um das Experiment zu rechtfertigen.
Der Verkehr ermöglicht es Ihnen, schnell eine statistisch signifikante Stichprobe zu sammeln.

Wenn es besser ist, nicht zu testen: Mikrokopien auf wenig genutzten Bildschirmen, Fichi mit einer starken Netzwerk-/sozialen Abhängigkeit (Effektüberlauf), Bearbeitungen, die eine lange Schulung der Benutzer erfordern.

Formulierung einer Hypothese

Vorlage:

Wenn wir [X in der Schnittstelle] für [Y-Segment/alle] ändern, ändert sich [Z-Metrik] in [Richtung/Betrag], weil [Verhaltensursache].

Beispiel: Wenn Sie den Haupt-CTA über die Faltlinie übertragen und die Form von 6 auf 3 Felder reduzieren, steigt der CR der primären Aktion aufgrund der verringerten Reibung um + 3-5%.

Metriken: Ziel und Schutz

Primary (Main): ein Schlüssel - zum Beispiel die Fertigstellung des Zielszenarios/Conversion.
Sekundär: Scrolltiefe, CTR, Zeit bis zur Aktion, Fehler, Seitengeschwindigkeit.
Guardrails (Protective): Performance-Stabilität (TTFB, LCP), Retouren/Ausfälle, Reklamationen/Pullbacks, Einhaltung der Benachrichtigungsgrenzen, Verfügbarkeit.

Es wird empfohlen, die MDE (minimal nachweisbare Wirkung), das Beobachtungsfenster und die Erfolgskriterien im Voraus zu fixieren.

Experimentelles Design

Randomisierung und Analyseeinheit

Einheit der Randomisierung: Benutzer (user_id), manchmal - Sitzung oder Organisation (Cluster).
Stratifizierung/Blockierung: nach Geräten/Kanälen, wenn es starke Unterschiede gibt.
Überlauf (Interferenz): Vermeiden Sie es, wenn das Verhalten einer Gruppe eine andere beeinflusst (z. B. gemeinsame Listen/Bänder). In solchen Fällen - Clustertests.

Stichprobengröße und MDE (vereinfacht)

Näherungsweise: Je niedriger die Basiskonversion und je kleiner der Effekt, desto größer die Stichprobe.
Für CR ~ 10% und MDE ~ + 5% relative Wirkung sind oft Zehntausende von Beobachtungen pro Variante erforderlich.

Dauer

Konzentrieren Sie sich auf einen vollständigen wöchentlichen Verhaltenszyklus + Bestand (normalerweise 2-4 Wochen) oder bis die geplante Kapazität erreicht ist. Beenden Sie den Test nicht vorzeitig.

Ramp-up (graduelle Ausgabe)

1-5% des Verkehrs (canary) → 10-25% → 50% → 100%, mit guardrails Überwachung.

Datenqualität und Gültigkeit

SRM (Sample Ratio Mismatch)

Überprüfen Sie, ob die tatsächliche Verkehrsverteilung (A/B) der geplanten entspricht (z. B. 50/50). Signifikante Abweichungen = Problem der Inklusion/Flaggen/Bots.

Identität und geräteübergreifendes Verhalten

Verwenden Sie eine stabile user_id; Berücksichtigen Sie Cross-Devices, Cookie-Decay, Autorisierung später im Trichter.

Bots und Anomalien

Filtern Sie unnatürliche Muster (superschnelle Klicks, fehlende Benutzeragenten, nicht-valide Referrer).

Saisonalität und Ereignisse

Führen Sie keine Tests für starke „anomale“ Perioden (Feiertage/Verkäufe) durch, es sei denn, dies ist der Zweck des Tests.

Statistische Analyse

Frequenzansatz (klassisch)

Halten Sie Alpha (normalerweise 0,05) und Leistung (normalerweise 80%) fest.
Nicht jede Stunde ohne Anpassungen „gucken“ - das Risiko ist falsch positiv.
Wenden Sie für mehrere Metriken/Varianten Anpassungen (Bonferroni/Holm/Hochberg) oder eine Metrikhierarchie an.

Bayesscher Ansatz

Bewertet die Wahrscheinlichkeitsverteilung des Effekts und die Wahrscheinlichkeit der Überlegenheit der Variante.
Praktisch für Echtzeitüberwachung und „gut genug“ Entscheidungsfindung.

CUPED/Kovariaten

Die Verringerung der Varianz aufgrund von Vor-Test-Kovariaten (z. B. Aktivität in der letzten Woche) wird → schneller erreicht.