A/B test interfacce

Introduzione

A/B test è un esperimento controllato in cui due (o più) versioni dell'interfaccia vengono confrontate su utenti reali per capire quale versione porta alle migliori metriche alimentari. L'obiettivo è ridurre l'incertezza decisionale e migliorare la UX attraverso cambiamenti verificabili e non le opinioni.

Test A/B appropriati

C'è un obiettivo misurabile (conversione, tempo prima dell'azione, ritenzione, NPS, velocità dell'attività).
L'effetto previsto non è chiaro o può variare in base ai segmenti.
Il rischio di cambiamento è abbastanza alto da giustificare l'esperimento.
Il traffico consente di raccogliere rapidamente un campione statisticamente significativo.

Quando è meglio non testare: microcopie su schermi poco utilizzati, fitch con una forte dipendenza da rete/social, modifiche che richiedono una lunga formazione degli utenti.

Formulazione ipotesi

Modello:

Se cambiiamo [X nell'interfaccia] per [segmento Y/tutti], [metrica Z] cambia in [direzione/valore] perché [causa comportamentale].

Esempio: se si sposta il CTA principale sopra la linea di piegatura e si riduce la forma da 6 a 3 campi, il CR di azione primaria aumenta del + 3-5% riducendo l'attrito.

Metriche: target e protezione

Primary (principale): una chiave, ad esempio il completamento dello script di destinazione/conversione.
Secondary: profondità dello scroll, CTR, tempo prima dell'azione, errori, velocità della pagina.
Guardrails: stabilità delle prestazioni (TTFB, LCP), rimborsi/guasti, reclami/rimborsi, rispetto dei limiti di notifica, disponibilità.

Si consiglia di fissare in anticipo MDE (effetto minimo rilevabile), la finestra di sorveglianza e i criteri di successo.

Progettazione esperimento

Randomizzazione e unità di analisi

Unità randomizzazione: utente (user _ id), talvolta sessione o organizzazione (cluster).
Strazione/blocco: per dispositivi/canali, se vi sono forti differenze.
Sovrascrivi (interference) - Evita che il comportamento di un gruppo influisca su un altro gruppo (ad esempio elenchi/nastri comuni). In questi casi, test di cluster.

Dimensioni campionamento e MDE (semplificata)

Approssimativamente, più bassa è la conversione di base e minore è l'effetto, maggiore è il campione.
Per CR, il 10% e MDE, il 5% dell'effetto relativo spesso richiedono decine di migliaia di osservazioni per opzione.

Durata

Concentrarsi su un ciclo di comportamento completo di una settimana + riserva (di solito 2-4 settimane) o fino al raggiungimento della potenza prevista. Non fermate il test prematuramente.

Rampe (output graduale)

1-5% del traffico (canary) → 10-25% → 50% → 100%, monitorato da guardrail.

Qualità dei dati e validità

SRM (Sample Ratio Mismatch)

Verificare che la distribuzione effettiva del traffico (A/B) corrisponda a quella pianificata (ad esempio 50/50). Deviazioni significative = problema di incorporazione/flag/bot.

Identità e cross-device

Usa user _ id stabile; prendete in considerazione i dispositivi cross, i cookie-decay, l'autorizzazione in seguito nel vortice.

Bot e anomalie

Filtrare pattern innaturali (click ad alta velocità, agenti user mancanti, referori non calidi).

Stagionalità ed eventi

Non eseguire test per periodi «anomali» (festività/svendita) se questo non è l'obiettivo del test.

Analisi statistiche

Approccio frequenza (classico)

Fissa alfa (di solito 0,05) e potenza (generalmente 80%).
Non guardate ogni ore senza aggiustamenti, il rischio è falso.
Per le metriche/varianti multiple, applicare le regolazioni (Bonferroni/Holm/Hochberg) o la gerarchia delle metriche.

Approccio Bayeso

Valuta la distribuzione delle probabilità di effetto e le probabilità di eccellenza.
Facile da monitorare in tempo reale e prendere decisioni «abbastanza bene».

CUPED/covariati

Diminuire la dispersione grazie ai covari precursori (ad esempio, l'attività della scorsa settimana) è più veloce per raggiungere la potenza.