Essais d'interfaces A/B
Introduction
Le test A/B est une expérience contrôlée où deux (ou plus) versions de l'interface sont comparées sur des utilisateurs réels pour comprendre quelle version conduit à de meilleures métriques de produits. L'objectif est de réduire l'incertitude dans la prise de décision et d'améliorer l'UX par des changements vérifiables plutôt que par des opinions.
Lorsque les tests A/B sont appropriés
Il y a un objectif mesurable (conversion, temps d'action, rétention, NPS, vitesse de la tâche).
L'effet attendu n'est pas évident ou peut varier selon les segments.
Le risque de changement est suffisamment élevé pour justifier l'expérience.
Le trafic permet de collecter rapidement un échantillon statistiquement significatif.
Quand il est préférable de ne pas tester : microcopies sur des écrans peu utilisés, fiches avec une forte dépendance réseau/social (trop d'effets), modifications nécessitant une formation prolongée des utilisateurs.
Formulation de l'hypothèse
Modèle :- Si nous changeons [X dans l'interface] pour [segment Y/tous], alors [métrique Z] changera pour [direction/grandeur] parce que [cause comportementale].
Exemple : Si vous déplacez le CTA principal au-dessus de la ligne de pliage et réduisez la forme de 6 à 3 champs, le CR de l'action primaire augmentera de + 3-5 % en réduisant le frottement.
Métriques : cibles et protections
Primaire (principal) : une chose clé est, par exemple, l'achèvement du scénario cible/conversion.
Secondaire : profondeur du scroll, CTR, temps avant l'action, erreurs, vitesse de la page.
Guardrails (protection) : stabilité des performances (TTFB, LCP), retours/refus, réclamations/retours, respect des limites de notification, disponibilité.
Il est recommandé de fixer à l'avance le MDE (effet détectable minimum), la fenêtre d'observation et les critères de succès.
Conception de l'expérience
Randomisation et unité d'analyse
Unité de randomisation : utilisateur (user_id), parfois session ou organisation (cluster).
Stratification/verrouillage : par périphériques/canaux s'il y a de fortes différences.
Débordement (interférence) : éviter lorsque le comportement d'un groupe affecte un autre groupe (p. ex. listes/bandes partagées). Dans de tels cas, des tests groupés.
Taille de l'échantillon et EMI (simplifié)
Approximativement : plus la conversion de base est faible et plus l'effet est faible, plus l'échantillon est grand.
Les CR ~ 10 % et les MDE ~ + 5 % de l'effet relatif nécessitent souvent des dizaines de milliers d'observations par variante.
Durée
Orientez-vous vers un cycle de comportement hebdomadaire complet + stock (généralement de 2 à 4 semaines) ou avant d'atteindre la puissance prévue. N'arrêtez pas le test prématurément.
Ramp-up (retrait progressif)
1-5 % du trafic (canary) → 10-25 % → 50 % → 100 %, avec surveillance des guardrails.
Qualité et validation des données
SRM (Sample Ratio Mismatch)
Assurez-vous que la distribution réelle du trafic (A/B) correspond à celle prévue (p. ex. 50/50). Écarts significatifs = problème d'inclusion/drapeaux/bots.
Identité et cross device
Utilisez un user_id stable ; tenez compte des appareils croisés, cookie-decay, autorisation plus tard dans l'entonnoir.
Bots et anomalies
Filtrez les modèles non naturels (clics ultra-rapides, agents user manquants, référentiels non valides).
Saisonnalité et événements
Ne lancez pas de tests pour de fortes périodes « anormales » (vacances/soldes) si ce n'est pas le but du test.
Analyse statistique
Approche fréquentielle (classique)
Fixez l'alpha (généralement 0,05) et la puissance (généralement 80 %).
Ne pas « regarder » toutes les heures sans ajustements - le risque de faux positifs.
Pour les métriques/variantes multiples, appliquer des ajustements (Bonferroni/Holm/Hochberg) ou une hiérarchie de métriques.
Approche bayésienne
Évalue la distribution de la probabilité d'effet et la probabilité de supériorité de l'option.
Facile à surveiller en temps réel et à prendre des décisions « assez bien ».
CUPED/covariables
La réduction de la variance due aux covariables prétestées (par exemple, l'activité de la semaine dernière) est → plus rapide.