Poder estatístico: o que você precisa saber para o teste A / B
Publicados: 2021-07-22Anos atrás, quando comecei o teste de divisão pela primeira vez, pensei que cada teste valia a pena ser executado. Não importava se era uma mudança na cor de um botão ou no título - eu queria fazer esse teste.
Minha crença entusiástica, embora equivocada, era que eu simplesmente precisava encontrar aspectos para otimizar, configurar a ferramenta e iniciar o teste. Depois disso, pensei, era só esperar a infame significância estatística de 95%.
Eu estava errado.
Depois de implementar variações "estatisticamente significativas", não observei aumento nas vendas porque não houve aumento real - "foi imaginário". Muitos desses testes foram condenados no início. Eu estava cometendo erros estatísticos comuns, como não testar um ciclo de negócios completo ou deixar de levar em consideração o tamanho do efeito.
Eu também deixou de considerar uma outra possibilidade: que um teste “underpowered” poderia me causar a mudanças perder que geraria um “verdadeiro elevador.”
Entender o poder estatístico, ou a “sensibilidade” de um teste, é uma parte essencial do planejamento do pré-teste e ajudará você a implementar mais mudanças geradoras de receita em seu site.
O que é poder estatístico?
O poder estatístico é a probabilidade de observar um resultado estatisticamente significativo no nível alfa (α) se um efeito verdadeiro de certa magnitude estiver presente. É a sua capacidade de detectar uma diferença entre as variações do teste quando uma diferença realmente existe .
O poder estatístico é o coroamento do trabalho árduo que você coloca na pesquisa de conversão e prioriza adequadamente o (s) tratamento (s) em relação a um controle. É por isso que o poder é tão importante - ele aumenta sua capacidade de encontrar e medir as diferenças quando elas estão realmente presentes.
O poder estatístico (1 - β) mantém uma relação inversa com os erros do Tipo II (β). É também como controlar a possibilidade de falsos negativos. Queremos diminuir o risco de erros do Tipo I a um nível aceitável, ao mesmo tempo que retemos energia suficiente para detectar melhorias se os tratamentos de teste forem realmente melhores.
Encontrar o equilíbrio certo, conforme detalhado posteriormente, é arte e ciência. Se uma de suas variações for melhor, um teste devidamente alimentado torna provável que a melhoria seja detectada. Se o seu teste for insuficiente, você terá um risco inaceitavelmente alto de não rejeitar um falso nulo.
Antes de entrarmos nos componentes do poder estatístico, vamos revisar os erros que estamos tentando contabilizar.
Erros tipo I e tipo II
Erros tipo I
Um erro Tipo I, ou falso positivo, rejeita uma hipótese nula que é realmente verdadeira. Seu teste mede a diferença entre variações que, na realidade, não existem. A diferença observada - que o tratamento de teste superou o controle - é ilusória e devida ao acaso ou erro.
A probabilidade de um erro Tipo I, denotada pelo alfa grego (α), é o nível de significância para seu teste A / B. Se você testar com um nível de confiança de 95%, significa que tem 5% de probabilidade de um erro Tipo I (1,0 - 0,95 = 0,05).
Se 5% for muito alto, você pode diminuir sua probabilidade de um falso positivo aumentando seu nível de confiança de 95% para 99% - ou ainda mais alto. Isso, por sua vez, reduziria seu alfa de 5% para 1%. Mas essa redução na probabilidade de um falso positivo tem um custo.
Ao aumentar seu nível de confiança, o risco de um falso negativo (erro Tipo II) aumenta. Isso se deve à relação inversa entre alfa e beta - reduzir um aumenta o outro.
Reduzir seu alfa (por exemplo, de 5% para 1%) reduz o poder estatístico do seu teste. À medida que você diminui seu alfa, a região crítica se torna menor, e uma região crítica menor significa uma probabilidade menor de rejeitar o nulo - portanto, um nível de poder mais baixo. Por outro lado, se você precisar de mais poder, uma opção é aumentar seu alfa (por exemplo, de 5% para 10%).
Erros tipo II
Um erro do Tipo II, ou falso negativo , é uma falha em rejeitar uma hipótese nula que é realmente falsa. Um erro Tipo II ocorre quando seu teste não encontra uma melhoria significativa em sua variação que, de fato, existe.
Beta (β) é a probabilidade de cometer um erro do Tipo II e tem uma relação inversa com o poder estatístico (1 - β). Se 20% é o risco de cometer um erro do Tipo II (β), então seu nível de poder é 80% (1,0 - 0,2 = 0,8). Você pode reduzir o risco de um falso negativo para 10% ou 5% - para níveis de potência de 90% ou 95%, respectivamente.
Os erros do tipo II são controlados pelo nível de potência escolhido: quanto maior o nível de potência, menor a probabilidade de um erro do tipo II. Como alfa e beta têm uma relação inversa, executar alfas com níveis extremamente baixos (por exemplo, 0,001%) aumentará enormemente o risco de um erro Tipo II, se todo o resto for igual.
O poder estatístico é um ato de equilíbrio com compensações para cada teste. Como Paul D. Ellis diz: “Um projeto de pesquisa bem pensado é aquele que avalia o risco relativo de cada tipo de erro e, em seguida, atinge um equilíbrio apropriado entre eles”.
Quando se trata de poder estatístico, quais variáveis afetam esse equilíbrio? Vamos dar uma olhada.
As variáveis que afetam o poder estatístico
Ao considerar cada variável que afeta o poder estatístico, lembre-se: O objetivo principal é controlar as taxas de erro. Existem quatro alavancas que você pode puxar:
- Tamanho da amostra
- Efeito mínimo de interesse (MEI ou efeito mínimo detectável)
- Nível de significância (α)
- Nível de potência desejado (taxa de erro Tipo II implícita)
1. Tamanho da amostra
O gorila de 800 libras de poder estatístico é o tamanho da amostra. Você pode acertar muitas coisas tendo um tamanho de amostra grande o suficiente. O truque é calcular um tamanho de amostra que possa alimentar adequadamente seu teste, mas não tão grande a ponto de tornar o teste executado por mais tempo do que o necessário. (Um teste mais longo custa mais e diminui a taxa de teste.)
Você precisa de visitantes suficientes para cada variação , bem como para cada segmento que deseja analisar. O planejamento pré-teste para o tamanho da amostra ajuda a evitar testes de baixa potência; caso contrário, você pode não perceber que está executando muitas variantes ou segmentos até que seja tarde demais, deixando-o com grupos de pós-teste com baixa contagem de visitantes.
Espere um resultado estatisticamente significativo dentro de um período de tempo razoável - geralmente pelo menos uma semana inteira ou ciclo de negócios. Uma diretriz geral é executar testes por no mínimo duas semanas, mas não mais do que quatro, para evitar problemas devido à poluição da amostra e exclusão de cookies.
Estabelecer um tamanho mínimo de amostra e um horizonte de tempo predefinido evita o erro comum de simplesmente executar um teste até que ele gere uma diferença estatisticamente significativa e, em seguida, interrompê-la (espiar).
2. Efeito Mínimo de Juros (MEI)
O efeito mínimo de interesse (MEI) é a magnitude (ou tamanho) da diferença nos resultados que você deseja detectar.
Diferenças menores são mais difíceis de detectar e requerem um tamanho de amostra maior para reter o mesmo poder; efeitos de maior magnitude podem ser detectados de forma confiável com tamanhos de amostra menores. Ainda assim, como Georgi Georgiev observa, essas grandes "melhorias" de tamanhos de amostra pequenos podem não ser confiáveis:
O problema é que, geralmente, não havia regra de parada adequada nem tamanho de amostra fixo, portanto, os valores p nominais e o intervalo de confiança (IC) relatados não fazem sentido. Pode-se dizer que os resultados foram “escolhidos a dedo” em certo sentido.
Se houvesse uma regra de parada adequada ou tamanho de amostra fixo, então uma melhoria observada de 500% de um tamanho de amostra muito pequeno provavelmente viria com um IC de 95% de, digamos, + 5% a + 995%: não muito informativo.
Uma ótima maneira de visualizar a relação entre a potência e o tamanho do efeito é esta ilustração de Georgiev, onde ele compara a potência a uma rede de pesca:
3. Significância estatística
Como Georgiev explicou:
Um resultado de teste observado é considerado estatisticamente significativo se for muito improvável que observemos tal resultado assumindo que a hipótese nula é verdadeira.
Isso nos permite raciocinar de outra maneira e dizer que temos evidências contra a hipótese nula na medida em que tal resultado extremo ou mais extremo não seria observado, se o nulo fosse verdadeiro (o valor p).
Essa definição costuma ser reduzida a uma interpretação mais simples: se o seu teste de divisão para duas páginas de destino tiver 95% de confiança a favor da variação, há apenas 5% de chance de que a melhoria observada resultou por acaso - ou 95% de probabilidade de que a diferença não se deve ao acaso.
“Muitos, entendendo o significado estrito de 'a melhoria observada resultante do acaso', desprezariam tal declaração”, afirmou Georgiev. “Precisamos lembrar que o que nos permite estimar essas probabilidades é a suposição de que o nulo é verdadeiro.”
Cinco por cento é um nível inicial comum de significância em testes online e, conforme mencionado anteriormente, é a probabilidade de cometer um erro Tipo I. Usar um alfa de 5% para o seu teste significa que você está disposto a aceitar uma probabilidade de 5% de ter rejeitado incorretamente a hipótese nula.
Se você diminuir seu alfa de 5% para 1%, estará aumentando simultaneamente a probabilidade de cometer um erro do Tipo II, supondo que todo o resto seja igual. Aumentar a probabilidade de um erro Tipo II reduz o poder do seu teste.
4. Nível de potência desejado
Com 80% de potência, você tem 20% de probabilidade de não ser capaz de detectar uma diferença real para uma dada magnitude de interesse. Se 20% for muito arriscado, você pode diminuir essa probabilidade para 10%, 5% ou mesmo 1%, o que aumentaria seu poder estatístico para 90%, 95% ou 99%, respectivamente.
Antes de pensar que você resolverá todos os seus problemas executando testes a 95% ou 99% da potência, entenda que cada aumento na potência requer um aumento correspondente no tamanho da amostra e na quantidade de tempo que o teste precisa para ser executado (tempo que você poderia desperdício executando um teste de perda - e perda de vendas - apenas por um ou dois pontos percentuais extras de probabilidade estatística).
Então, de quanta energia você realmente precisa? Um ponto de partida comum para o risco aceitável de falsos negativos na otimização de conversão é 20%, que retorna um nível de potência de 80%.
Não há nada definitivo sobre um nível de poder de 80%, mas o estatístico Jacob Cohen sugere que 80% representa um equilíbrio razoável entre o risco alfa e beta. Colocando de outra forma, de acordo com Ellis, “os estudos não devem ter mais do que 20% de probabilidade de cometer um erro do Tipo II”.
Em última análise, é uma questão de:
- Quanto risco você está disposto a correr quando se trata de perder uma melhoria real;
- O tamanho mínimo de amostra necessário para cada variação para atingir o poder desejado.
Como calcular o poder estatístico para o seu teste
Usando uma calculadora de tamanho de amostra ou potência G *, você pode conectar seus valores para descobrir o que é necessário para executar um teste com potência adequada. Se você conhece três das entradas, pode calcular a quarta.
Nesse caso, usando o G * Power, concluímos que precisamos de um tamanho de amostra de 681 visitantes para cada variação . Isso foi calculado usando nossas entradas de potência de 80% e um alfa de 5% (significância de 95%). Sabíamos que nosso controle tinha uma taxa de conversão de 14% e esperávamos que nossa variante tivesse um desempenho de 19%:
Da mesma maneira, se soubéssemos o tamanho da amostra para cada variação, o alfa e o nível de poder desejado (digamos, 80%), poderíamos encontrar o MEI necessário para atingir esse poder - neste caso, 19%:
E se você não puder aumentar o tamanho da amostra?
Chegará o dia em que você precisará de mais potência, mas aumentar o tamanho da amostra não é uma opção. Isso pode ser devido a um pequeno segmento em um teste que você está executando ou ao baixo tráfego para uma página.
Digamos que você conecte seus parâmetros a uma calculadora de teste A / B e ela requeira um tamanho de amostra de mais de 8.000:
Se você não conseguir atingir esse mínimo - ou levaria meses para fazê-lo -, uma opção é aumentar o MEI. Neste exemplo, aumentar o MEI de 10% para 25% reduz o tamanho da amostra para 1.356 por variante:
Mas com que frequência você conseguirá atingir um MEI de 25%? E quanto valor você perderá procurando apenas por um impacto massivo? A melhor opção é geralmente diminuir o nível de confiança para 90% - contanto que você se sinta confortável com uma chance de 10% de um erro Tipo I:
Então, por onde você começa? Georgiev admitiu que, muitas vezes, os analistas de CRO "começam com o tamanho da amostra (o teste deve ser feito por <número semiatribirário> de semanas) e, em seguida, empurram as alavancas aleatoriamente até que a saída se encaixe".
Alcançando o equilíbrio certo:
- Requer um processo cuidadoso quanto a quais alavancas ajustar;
- Benefícios da medição da mudança potencial no ROI para qualquer mudança nas variáveis de teste.
Conclusão
O poder estatístico ajuda a controlar erros, oferece maior confiança nos resultados dos testes e aumenta muito a chance de detectar efeitos praticamente significativos.
Aproveite o poder estatístico seguindo estas sugestões:
- Execute seus testes por duas a quatro semanas.
- Use uma calculadora de teste (ou G * Power) para garantir testes com alimentação adequada.
- Atender aos requisitos mínimos de tamanho de amostra.
- Se necessário, teste as mudanças maiores no efeito.
- Use a significância estatística somente após atender aos requisitos mínimos de tamanho da amostra.
- Planeje a potência adequada para todas as variações e segmentos de pós-teste.