A/B teste de interface

Introdução

A/B teste é uma experiência controlada, onde duas (ou mais) versões da interface são comparadas em usuários reais para entender qual versão leva a melhores métricas de alimentos. O objetivo é reduzir a incerteza na tomada de decisões e melhorar a UX através de mudanças verificáveis, em vez de opiniões.

Quando o teste A/B for apropriado

Há um objetivo mensurável (conversão, tempo de ação, retenção, NPS, velocidade de tarefa).
O efeito esperado não é claro ou pode variar em segmentos.
O risco de mudança é alto o suficiente para justificar a experiência.
O tráfego permite uma amostra estatisticamente significativa.

Quando é melhor não testar: microcópias em telas pouco utilizadas, fichas com forte dependência da rede/social (redesenhando efeitos), edições que exigem treinamento prolongado dos usuários.

Formulação de hipótese

Modelo:

Se mudarmos [X na interface] para [o segmento Y/todos], [a métrica Z] mudará para [a direção/o valor] porque [a causa comportamental].

Exemplo: se você transferir o CTA principal acima da linha de dobradura e reduzir a forma de 6 para 3 campos, o CR de ação primária aumentará em + 3-5%, reduzindo a fricção.

Métricas: destino e proteção

Primary (principal): uma chave - por exemplo, a conclusão do cenário de destino/conversão.
Segundary: profundidade do scroll, CTR, tempo até a ação, erros, velocidade da página.
Guardrails (proteção): estabilidade de desempenho (TTFB, LCP), devoluções/falhas, queixas/retrocessos, cumprimento de limites de notificação, disponibilidade.

É recomendado que o MDE (efeito mínimo de detecção), a janela de observação e os critérios de sucesso sejam fixados com antecedência.

Design da experiência

Randomização e unidade de análise

Unidade de randomização: usuário (user _ id), às vezes, sessão ou organização (cluster).
Rateio/bloqueio: por dispositivos/canais, se houver diferenças fortes.
Substituindo (interference): evite que o comportamento de um grupo afete o outro (por exemplo, listas gerais/fitas). Nestes casos, testes de cluster.

Tamanho de amostra e MDE (simplificado)

Próximo, quanto menor a conversão básica e menor o efeito, maior a amostra.
Para CR £10% e MDE £ + 5% de efeito relativo, muitas vezes você precisa de dezenas de milhares de observações por opção.

Duração

Fique focado em um ciclo completo de comportamento de uma semana + reserva (normalmente de 2 a 4 semanas) ou até atingir a capacidade prevista. Não pare o teste prematuramente.

Rampo-up (saída gradual)

1-5% do tráfego (canary) → 10-25% → 50% → 100%, monitorado por guardas.

Qualidade e validade dos dados

SRM (Sample Ratio Mismatch)

Verifique se a distribuição real de tráfego (A/B) corresponde ao programado (por exemplo, 50/50). Desvios significativos = problema de inclusão/bandeiras/bots.

Identidade e Cross-device

Use um usuário _ id estável; leve em conta os dispositivos cruzados, cookies-decay, permissão mais tarde no vórtice.

Bots e anomalias

Filtre patterns não naturais (cliques de alta velocidade, agentes de user ausentes, refereres de nevalida).

Sazonalidade e eventos

Não inicie testes para períodos «anormais» (feriados/vendas) se este não for o objetivo do teste.

Análise estatística

Abordagem de frequência (clássico)

Fixe alfa (normalmente 0,05) e potência (normalmente 80%).
Não «olhem» a cada hora, sem ajustes - risco de falsidade.
Para várias métricas/opções, aplique ajustes (Bonferroni/Holm/Hochberg) ou uma hierarquia de métricas.

Abordagem Baiesa

Avalia a distribuição da probabilidade de efeito e a probabilidade de superação.
Fácil de monitorar em tempo real e tomar decisões «bastante bem».

CUPED/tapetes

A redução da dispersão através de cobiçados pré-eleitorais (por exemplo, atividade na semana passada) é mais rápida.