12 erros de teste A / B que vejo o tempo todo
Publicados: 2021-07-22O teste A / B é divertido. Com tantas ferramentas fáceis de usar, qualquer pessoa pode - e deve - fazer isso. No entanto, há mais do que apenas configurar um teste. Toneladas de empresas estão perdendo tempo e dinheiro.
Aqui estão os 12 erros de teste A / B que vejo as pessoas cometem repetidas vezes.
- Chamar testes A / B mais cedo;
- Não executando testes por semanas inteiras;
- Fazer testes A / B sem tráfego suficiente (ou conversões);
- Não basear os testes em uma hipótese;
- Não enviar dados de teste para o Google Analytics;
- Perder tempo e tráfego em testes estúpidos;
- Desistir após o primeiro teste falhar;
- Falha em entender falsos positivos;
- Executar vários testes ao mesmo tempo em tráfego sobreposto;
- Ignorando pequenos ganhos;
- Não executando testes o tempo todo;
- Não estar ciente das ameaças de validade.
Você é culpado de cometer esses erros? Leia mais para descobrir.
1. Chamada de testes A / B antecipadamente
A significância estatística é a melhor evidência de que a versão A é realmente melhor do que a versão B - se o tamanho da amostra for grande o suficiente. A significância estatística de cinquenta por cento é um sorteio. Se você está chamando os testes a 50%, deve mudar de profissão. E não, 75% de confiança estatística também não é bom o suficiente.
Qualquer testador experiente teve muitas experiências nas quais uma variação "vencedora" com 80% de confiança acaba perdendo muito depois de ser colocado ao vivo em um site e exposto a mais tráfego.
Que tal 90%? Isso é muito bom, certo? Não. Não esta bom o suficiente. Você está realizando um experimento científico. Sim, você quer que seja verdade. Você quer que 90% ganhem, mas saber a verdade é mais importante do que declarar um vencedor.
Verdade> “ganhando”
Como otimizador, seu trabalho é descobrir a verdade. Você tem que colocar seu ego de lado. É humano se apegar à sua hipótese ou tratamento do projeto, e pode doer quando suas melhores hipóteses deixam de ser significativamente diferentes. Já estive lá, fiz isso. Verdade acima de tudo, ou tudo perde sentido.
Planejamento de teste A / B: como construir um processo que funcione
Um plano de teste A / B forte permitirá que você aumente sua receita e aprenda informações valiosas sobre seus clientes.

Este é um cenário comum, mesmo para empresas que testam muito: elas executam um teste após o outro por 12 meses, declaram vários vencedores e os distribuem. Um ano depois, a taxa de conversão do site é a mesma de quando eles começaram. Acontece o tempo todo.
Por quê? Porque os testes são chamados muito cedo e / ou os tamanhos das amostras são muito pequenos. Aqui está uma explicação mais longa sobre quando interromper um teste A / B, mas em poucas palavras, você precisa atender a três critérios antes de declarar um teste concluído:
- Tamanho de amostra suficiente. Temos dados suficientes para fazer uma chamada. Você precisa pré-calcular o tamanho da amostra com uma calculadora de tamanho de amostra de teste A / B.
- Vários ciclos de vendas (2 a 4 semanas). Se você interromper o teste dentro de alguns dias (mesmo depois de atingir o tamanho de amostra exigido), estará colhendo uma amostra conveniente , não uma amostra representativa .
- Significância estatística de pelo menos 95% (valor de p de 0,05 ou menos) . Nota: O valor p não nos diz a probabilidade de que B seja melhor do que A. Aprenda tudo sobre valores p aqui.
Aqui está um exemplo antigo para ilustrar meu ponto. Dois dias depois de iniciar um teste, estes foram os resultados:

A variação que construí estava perdendo muito - em mais de 89% (sem sobreposição na margem de erro). Algumas ferramentas já o chamariam e diriam que a significância estatística era de 100%. O software que usei disse que a variação 1 tinha 0% de chance de vencer o controle. Meu cliente estava pronto para encerrar.
No entanto, como o tamanho da amostra era muito pequeno (pouco mais de 100 visitas por variação), persisti. Os resultados pareciam assim 10 dias depois:

Isso mesmo, a variação que tinha “0%” de chance de bater o controle agora estava ganhando com 95% de confiança.
Cuidado com as ferramentas de teste A / B que “acertam mais cedo”. Sempre verifique os números. A pior coisa que você pode fazer é confiar em dados imprecisos. Você perderá dinheiro e poderá perder meses de trabalho.
Qual o tamanho da amostra que você precisa?
Você não quer tirar conclusões com base em um tamanho de amostra pequeno. Uma boa estimativa é ter como objetivo pelo menos 350–400 conversões por variação .
Pode ser menor em certas circunstâncias - como quando a discrepância entre o controle e o tratamento é muito grande - mas os números mágicos não existem. Não fique preso a um número. Isso é ciência, não mágica.
Você deve calcular o tamanho da amostra necessário com antecedência usando calculadoras de tamanho de amostra como esta ou outras semelhantes.
E se a confiança ainda estiver abaixo de 95%?
Depois de atingir o tamanho de amostra necessário e testar um ciclo de negócios completo (ou dois), isso significa que não há diferença significativa entre as variações.
Verifique os resultados do teste em todos os segmentos para ver se a significância foi alcançada em um determinado segmento. Grandes insights estão nos segmentos, mas você também precisa de tamanho de amostra suficiente para cada segmento.

Em qualquer caso, você precisará melhorar sua hipótese e fazer um novo teste.
2. Sem fazer testes por semanas inteiras
Digamos que você tenha um site de alto tráfego. Você atinge 98% de confiança e 350 conversões por variação em três dias. O teste está feito? Não.
Precisamos descartar sazonalidade e testar semanas inteiras. Você começou o teste na segunda-feira? Depois, você também precisa encerrá-lo na segunda-feira. Por quê? Porque sua taxa de conversão pode variar muito dependendo do dia da semana.
Se você não testar uma semana inteira de cada vez, estará distorcendo seus resultados. Gere um relatório de “conversões por dia da semana” em seu site para ver quanta flutuação existe.
Aqui está um exemplo:

O que você vê aqui? As quintas-feiras ganham duas vezes mais dinheiro do que os sábados e domingos, e a taxa de conversão às quintas-feiras é quase duas vezes melhor do que aos sábados.
Se não testássemos por semanas inteiras, os resultados seriam imprecisos. Você deve executar testes por sete dias por vez. Se a confiança não for alcançada nos primeiros sete dias, execute-o por mais sete dias. Se não for alcançado em 14 dias, execute-o até o dia 21.
Claro, você precisa executar seus testes por no mínimo duas semanas. (Meu mínimo pessoal é de quatro semanas, já que duas semanas costuma ser impreciso.) Em seguida, aplique a regra de sete dias se precisar estendê-la.
A única vez em que você pode quebrar essa regra é quando seus dados históricos dizem - com confiança - que a taxa de conversão é a mesma todos os dias. Mas, mesmo assim, é melhor testar uma semana inteira de cada vez.
Preste atenção aos fatores externos
É natal? Seu teste de vitória durante as férias pode não ser um vencedor em janeiro. Se você tem testes que ganham durante as temporadas de compras, como o Natal, definitivamente deseja repetir os testes após o término da temporada de compras.
Você está fazendo muitos anúncios na TV ou outras campanhas massivas? Isso também pode distorcer seus resultados. Você precisa estar ciente do que sua empresa está fazendo. Fatores externos definitivamente afetam os resultados do teste. Em caso de dúvida, faça um teste de acompanhamento.
3. Fazer testes A / B sem tráfego (ou conversões) suficiente
Se você obtiver uma ou duas vendas por mês e executar um teste em que B converte 15% melhor do que A, como você saberia? Nada muda!
Adoro o teste de divisão A / B tanto quanto qualquer outro, mas não é algo que você deva usar para otimização de conversão se tiver muito pouco tráfego. A razão é que mesmo que a versão B seja muito melhor, pode levar meses para atingir significância estatística.
Se o seu teste levou 5 meses para ser executado - e não foi um vencedor - você desperdiçou muito dinheiro. Em vez disso, você deve buscar mudanças radicais e massivas. Apenas mude para B. Sem testes, apenas mude - e observe sua conta bancária.
A ideia aqui é que você está indo para elevações massivas, como 50% ou 100%. Você deve notar esse tipo de impacto em sua conta bancária (ou no número de leads recebidos) imediatamente. Tempo é dinheiro. Não perca tempo esperando um resultado de teste que levará meses.
4. Não basear os testes em uma hipótese
Eu gosto de espaguete. Mas testar o espaguete - jogar contra a parede para ver se gruda? Não muito. O teste de ideias aleatórias tem um custo enorme. Você está perdendo tempo e tráfego preciosos. Nunca faça isso. Você precisa ter uma hipótese. O que é uma hipótese?
Uma hipótese é uma declaração proposta feita com base em evidências limitadas que podem ser provadas ou refutadas e é usada como um ponto de partida para uma investigação posterior.
Isso também não deve ser uma “hipótese espaguete” (ou seja, elaborar uma declaração aleatória). Você precisa de uma pesquisa de conversão adequada para descobrir onde estão os problemas e, em seguida, apresentar uma hipótese para superá-los.
Se você testar A vs. B sem uma hipótese clara, e B ganhar por 15%, isso é bom, mas o que você aprendeu ? Nada. Queremos aprender sobre nosso público. Isso nos ajuda a melhorar nossa teoria do cliente e a criar testes ainda melhores.
5. Não enviar dados de teste para o Google Analytics
As médias mentem. Sempre lembrar que. Se A bater B em 10%, esse não é o quadro completo. Você precisa segmentar os dados de teste. Muitas ferramentas de teste têm segmentação integrada de resultados, mas ainda não é páreo para o que você pode fazer no Google Analytics.
Com dimensões ou eventos personalizados, você pode enviar seus dados de teste para o Google Analytics e segmentá-los da maneira que desejar. Você pode executar segmentos avançados e relatórios personalizados nele. É muito útil e é como você realmente aprende com os testes A / B (incluindo testes de perda e sem diferença).
Resumindo: sempre envie seus dados de teste para o Google Analytics. E segmentar a porcaria dos resultados. Aqui está um post sobre como fazer isso.
6. Perder tempo e tráfego em testes estúpidos
Então você está testando cores, hein? Pare.
Não existe a melhor cor. É sempre uma questão de hierarquia visual. Claro, você pode encontrar testes online onde alguém encontrou ganhos testando cores, mas todos eles não têm cérebro. Não perca tempo testando usuários simples; apenas implemente.
Você não tem tráfego suficiente para testar tudo. Ninguém faz. Use seu tráfego em coisas de alto impacto. Teste as hipóteses baseadas em dados.
7. Desistir após o primeiro teste falhar
Você configurou um teste e ele falhou em produzir um elevador. Ah bem. Vamos tentar executar testes em outra página?
Não tão rápido! A maioria dos primeiros testes falham. É verdade. Eu sei que você está impaciente, eu também, mas a verdade é que o teste iterativo é onde ele está. Você executa um teste, aprende com ele e melhora a teoria e as hipóteses do cliente. Faça um teste de acompanhamento, aprenda com ele e melhore suas hipóteses. Execute um teste de acompanhamento e assim por diante.
Aqui está um estudo de caso em que foram necessários seis testes (na mesma página) para alcançar um aumento que nos deixou satisfeitos. É assim que são os testes da vida real. As pessoas que aprovam orçamentos de teste - seus chefes, seus clientes - precisam saber disso.
Se a expectativa é de que o primeiro teste irá derrubá-lo do limite, o dinheiro será desperdiçado e as pessoas serão demitidas. Não tem que ser assim. Em vez disso, pode ser muito dinheiro para todos. Basta executar testes iterativos. É aí que está o dinheiro.
8. Falha em entender falsos positivos
A significância estatística não é a única coisa a que devemos prestar atenção. Você também precisa entender os falsos positivos. Testadores impacientes querem pular o teste A / B e passar para o teste A / B / C / D / E / F / G / H. Sim, agora estamos conversando!
Por que parar aí? O Google testou 41 tons de azul! Mas isso não é uma boa ideia. Quanto mais variações você testar, maior será a chance de um falso positivo. No caso de 41 tons de azul, mesmo com um nível de confiança de 95%, a chance de um falso positivo é de 88%.
Assista esse video. Você aprenderá uma ou três coisas:
A lição principal: não teste muitas variações de uma vez. É melhor fazer um teste A / B simples de qualquer maneira. Você obterá resultados mais rapidamente e aprenderá mais rápido - melhorando sua hipótese mais cedo.
9. Executar vários testes ao mesmo tempo no tráfego sobreposto
Você encontrou uma maneira de economizar ao executar vários testes ao mesmo tempo: um na página do produto, um na página do carrinho, um na página inicial (enquanto avalia o mesmo objetivo). Isso economiza tempo, certo?
Isso pode distorcer os resultados se você não tomar cuidado. Provavelmente está bem, a menos que:
- Você suspeita de fortes interações entre os testes.
- Há uma grande sobreposição de tráfego entre os testes.
As coisas ficam mais complicadas se houver probabilidade de haver interações e sobreposição de tráfego.
Se você quiser testar uma nova versão de vários layouts no mesmo fluxo ao mesmo tempo - por exemplo, executar testes em todas as três etapas do checkout - talvez seja melhor usar experimentos de várias páginas ou testes multivariados para medir as interações e atribuir os resultados de maneira adequada .
Se você decidir executar testes A / B com tráfego sobreposto, lembre-se de que o tráfego sempre deve ser dividido igualmente. Se você testar a página A vs. B do produto e verificar a página C. vs. D, certifique-se de que o tráfego de B seja dividido 50/50 entre C e D (não, digamos, 25/75).
10. Ignorando pequenos ganhos
Seu tratamento superou o controle em 4%. “Bhh, isso é um ganho muito pequeno! Não vou nem me preocupar em implementá-lo ”, ouvi pessoas dizerem.
Aqui está a coisa. Se o seu site for muito bom, você não obterá ganhos massivos o tempo todo. Na verdade, elevadores enormes são muito raros. Se o seu site for uma porcaria, é fácil executar testes que obtêm um aumento de 50% o tempo todo. Mas mesmo isso vai acabar.
A maioria dos testes vencedores dará pequenos ganhos - 1%, 5%, 8%. Às vezes, um aumento de 1% pode significar milhões em receita. Tudo depende dos números absolutos com os quais estamos lidando. Mas o ponto principal é o seguinte: você precisa olhar para isso de uma perspectiva de 12 meses.
Um teste é apenas um teste. Você vai fazer muitos, muitos testes. Se você aumentar sua taxa de conversão em 5% a cada mês, isso representará um aumento de 80% em 12 meses. Isso é juros compostos. É assim que a matemática funciona. Oitenta por cento é muito.
Portanto, continue obtendo essas pequenas vitórias. Tudo vai se somar no final.
11. Não executar testes o tempo todo
Todo dia sem teste é um dia perdido. Testar é aprender - aprender sobre seu público, aprender o que funciona e por quê. Todos os insights que você obtém podem ser usados em seu marketing (por exemplo, anúncios PPC).
Você não sabe o que funciona até testar. Os testes precisam de tempo e tráfego (muito). Ter um teste instalado e em execução o tempo todo não significa que você deva fazer testes de lixo. Absolutamente não. Você ainda precisa de uma pesquisa adequada, uma boa hipótese e assim por diante.
Mas nunca pare de otimizar.
12. Não estar ciente das ameaças de validade
Só porque você tem um tamanho de amostra decente, nível de confiança e duração do teste, não significa que os resultados do teste foram válidos. Existem várias ameaças à validade do seu teste.
Efeito de instrumentação
Este é o problema mais comum. É quando as ferramentas (ou instrumentos) de teste causam falhas nos dados do teste. Muitas vezes é devido à implementação de código errado no site, o que distorce todos os resultados
Você realmente tem que prestar atenção nisso. Ao configurar um teste, observe cada meta e métrica que está sendo registrada. Se uma métrica não estiver enviando dados (por exemplo, dados de clique de “adicionar ao carrinho”), pare o teste, encontre e corrija o problema e recomece reiniciando os dados.
Efeito de história
Algo acontece no mundo externo que causa dados incorretos no teste. Isso pode ser um escândalo sobre sua empresa ou um de seus executivos. Pode ser uma época festiva especial (Natal, Dia das Mães, etc.). Talvez uma história da mídia influencie as pessoas contra uma variação em seu teste. Qualquer que seja. Preste atenção ao que está acontecendo no mundo.
Efeito de seleção
Isso ocorre quando assumimos erroneamente que alguma parte do tráfego representa a totalidade do tráfego.
Por exemplo, você envia tráfego promocional de sua lista de e-mail para uma página na qual está executando um teste. As pessoas que se inscrevem na sua lista gostam muito mais de você do que o visitante médio. Mas agora você otimiza a página para trabalhar com seu tráfego fiel, pensando que eles representam o tráfego total. Raramente é o caso!
Efeito de código quebrado
Você cria um tratamento e o empurra ao vivo. No entanto, não ganha ou não resulta em nenhuma diferença. O que você não sabe é que seu tratamento foi exibido mal em alguns navegadores e / ou dispositivos.
Sempre que você criar um ou dois novos tratamentos, certifique-se de realizar testes de garantia de qualidade para garantir que eles sejam exibidos corretamente em todos os navegadores e dispositivos. Caso contrário, você está julgando sua variação com base em dados falhos.
Conclusão
Existem tantas ferramentas excelentes disponíveis que facilitam o teste, mas não pensam por você. Estatística pode não ter sido sua matéria favorita na faculdade, mas é hora de se atualizar.
Aprenda com esses 12 erros. Se você puder evitá-los, começará a fazer um progresso real nos testes.
Crédito de imagem em destaque