Potenza statistica: cosa devi sapere per il test A/B Test

Pubblicato: 2021-07-22

Anni fa, quando ho iniziato a fare lo split test, ho pensato che valesse la pena eseguire ogni test. Non importava se stava cambiando il colore di un pulsante o un titolo: volevo eseguire quel test.

La mia convinzione entusiasta, ma sbagliata, era che dovevo semplicemente trovare gli aspetti per ottimizzare, impostare lo strumento e iniziare il test. Dopodiché, pensai, si trattava solo di attendere la famigerata significatività statistica del 95%.

Mi sbagliavo.

Dopo aver implementato variazioni "statisticamente significative", non ho riscontrato alcun aumento delle vendite perché non c'era un vero aumento: "era immaginario". Molti di questi test erano condannati all'inizio. Stavo commettendo errori statistici comuni, come non testare un ciclo economico completo o trascurare di prendere in considerazione la dimensione dell'effetto.

Non ho nemmeno preso in considerazione un'altra possibilità: che un test "sottodimensionato" potesse farmi perdere le modifiche che avrebbero generato un "vero sollevamento".

Comprendere il potere statistico, o la "sensibilità" di un test, è una parte essenziale della pianificazione pre-test e ti aiuterà a implementare modifiche più redditizie al tuo sito.

Che cos'è il potere statistico?

La potenza statistica è la probabilità di osservare un risultato statisticamente significativo al livello alfa (α) se è presente un effetto reale di una certa entità. È la tua capacità di rilevare una differenza tra le varianti del test quando esiste effettivamente una differenza .

Il potere statistico è il coronamento del duro lavoro che metti nella ricerca di conversione e nel trattamento o nei trattamenti adeguatamente prioritari rispetto a un controllo. Questo è il motivo per cui il potere è così importante: aumenta la tua capacità di trovare e misurare le differenze quando sono effettivamente presenti.

La potenza statistica (1 – β) ha una relazione inversa con gli errori di tipo II (β). È anche come controllare la possibilità di falsi negativi. Vogliamo ridurre il rischio di errori di tipo I a un livello accettabile mantenendo una potenza sufficiente per rilevare miglioramenti se i trattamenti di prova sono effettivamente migliori.

Trovare il giusto equilibrio, come dettagliato in seguito, è sia arte che scienza. Se una delle tue varianti è migliore, un test correttamente alimentato rende probabile che venga rilevato il miglioramento. Se il tuo test è sottodimensionato, hai un rischio inaccettabilmente alto di non riuscire a rifiutare un falso nullo.

Prima di entrare nei componenti del potere statistico, esaminiamo gli errori di cui stiamo cercando di tenere conto.

Errori di tipo I e di tipo II

Errori di tipo I

Un errore di tipo I, o falso positivo, rifiuta un'ipotesi nulla che è effettivamente vera. Il tuo test misura una differenza tra le variazioni che, in realtà, non esiste. La differenza osservata, ovvero che il trattamento di prova ha superato il controllo, è illusoria e dovuta al caso o all'errore.

La probabilità di un errore di tipo I, indicata dall'alfa greca (α), è il livello di significatività per il tuo test A/B. Se esegui il test con un livello di confidenza del 95%, significa che hai una probabilità del 5% di un errore di tipo I (1,0 – 0,95 = 0,05).

Se il 5% è troppo alto, puoi ridurre la probabilità di un falso positivo aumentando il livello di confidenza dal 95% al ​​99% o anche più alto. Questo, a sua volta, farebbe scendere il tuo alfa dal 5% all'1%. Ma questa riduzione della probabilità di un falso positivo ha un costo.

Aumentando il livello di confidenza, aumenta il rischio di un falso negativo (errore di tipo II). Ciò è dovuto alla relazione inversa tra alfa e beta: abbassare l'uno aumenta l'altro.

Abbassare l'alfa (ad es. dal 5% all'1%) riduce la potenza statistica del test. Quando abbassi l'alfa, la regione critica diventa più piccola e una regione critica più piccola significa una minore probabilità di rifiutare il valore nullo, quindi un livello di potenza inferiore. Al contrario, se hai bisogno di più potenza, un'opzione è aumentare il tuo alfa (ad esempio dal 5% al ​​10%).

grafico della regione critica per il test a/b

Errori di tipo II

Un errore di tipo II, o falso negativo , è un fallimento nel rifiutare un'ipotesi nulla che in realtà è falsa. Un errore di tipo II si verifica quando il test non trova un miglioramento significativo nella variazione che, in effetti, esiste.

Beta (β) è la probabilità di commettere un errore di tipo II e ha una relazione inversa con la potenza statistica (1 – β). Se il 20% è il rischio di commettere un errore di tipo II (β), allora il tuo livello di potenza è 80% (1,0 – 0,2 = 0,8). Puoi ridurre il rischio di un falso negativo al 10% o al 5%, rispettivamente per livelli di potenza del 90% o del 95%.

Gli errori di tipo II sono controllati dal livello di potenza scelto: maggiore è il livello di potenza, minore è la probabilità di un errore di tipo II. Poiché alfa e beta hanno una relazione inversa, l'esecuzione di valori alfa estremamente bassi (ad es. 0,001%) aumenterà notevolmente il rischio di un errore di tipo II, se tutto il resto è uguale.

Il potere statistico è un atto di bilanciamento con compromessi per ogni test. Come dice Paul D. Ellis, "Un progetto di ricerca ben congegnato è quello che valuta il rischio relativo di commettere ogni tipo di errore, quindi trova un equilibrio appropriato tra di loro".

Quando si tratta di potere statistico, quali variabili influenzano tale equilibrio? Diamo un'occhiata.

Le variabili che influenzano il potere statistico

Quando si considera ogni variabile che influisce sulla potenza statistica, ricordare: l'obiettivo principale è controllare i tassi di errore. Ci sono quattro leve che puoi tirare:

  1. Misura di prova
  2. Effetto minimo di interesse (MEI, o effetto minimo rilevabile)
  3. Livello di significatività (α)
  4. Livello di potenza desiderato (tasso di errore di tipo II implicito)

1. Dimensione del campione

Il gorilla di 800 libbre di potere statistico è la dimensione del campione. Puoi ottenere molte cose giuste avendo una dimensione del campione abbastanza grande. Il trucco è calcolare una dimensione del campione che possa alimentare adeguatamente il tuo test, ma non così grande da far durare il test più a lungo del necessario. (Un test più lungo costa di più e rallenta la velocità del test.)

Hai bisogno di un numero sufficiente di visitatori per ogni variazione e per ogni segmento che desideri analizzare.   La pianificazione pre-test per la dimensione del campione aiuta a evitare test sottodimensionati; in caso contrario, potresti non renderti conto che stai eseguendo troppe varianti o segmenti fino a quando non è troppo tardi, lasciandoti con gruppi post-test con un basso numero di visitatori.

Aspettati un risultato statisticamente significativo entro un ragionevole lasso di tempo, di solito almeno una settimana intera o un ciclo economico. Una linea guida generale è quella di eseguire test per un minimo di due settimane ma non più di quattro per evitare problemi dovuti all'inquinamento del campione e alla cancellazione dei cookie.

Stabilire una dimensione minima del campione e un orizzonte temporale prestabilito evita l'errore comune di eseguire semplicemente un test fino a quando non genera una differenza statisticamente significativa, quindi interromperlo (sbirciando).

2. Effetto minimo di interesse (MEI)

L'effetto minimo di interesse (MEI) è l'entità (o dimensione) della differenza nei risultati che si desidera rilevare.

Differenze più piccole sono più difficili da rilevare e richiedono una dimensione del campione più grande per mantenere la stessa potenza; effetti di maggiore entità possono essere rilevati in modo affidabile con campioni di dimensioni inferiori. Tuttavia, come osserva Georgi Georgiev, quei grandi "miglioramenti" da campioni di piccole dimensioni potrebbero essere inaffidabili:

Il problema è che, di solito, non esisteva una regola di arresto adeguata né una dimensione del campione fissa, quindi i valori p nominali e l'intervallo di confidenza (CI) riportati sono privi di significato. Si può dire che i risultati sono stati "raccolti con cura" in un certo senso.

Se esistesse una regola di arresto adeguata o una dimensione del campione fissa, è probabile che un miglioramento osservato del 500% da una dimensione del campione molto piccola venga con un IC del 95%, ad esempio da +5% a +995%: non molto informativo.

Un ottimo modo per visualizzare la relazione tra potenza e dimensione dell'effetto è questa illustrazione di Georgiev, in cui paragona il potere a una rete da pesca:

potere statistico come sensibilità

3. Significato statistico

Come ha spiegato Georgiev:

Si dice che un risultato di un test osservato è statisticamente significativo se è molto improbabile che osserviamo un tale risultato assumendo che l'ipotesi nulla sia vera.

Questo ci permette quindi di ragionare in un altro modo e dire che abbiamo prove contro l'ipotesi nulla nella misura in cui un risultato così estremo o uno più estremo non sarebbe osservato, se il nulla fosse vero (il p-value).

Questa definizione viene spesso ridotta a un'interpretazione più semplice: se il test diviso per due pagine di destinazione ha una confidenza del 95% a favore della variazione, c'è solo un 5% di probabilità che il miglioramento osservato sia stato casuale o una probabilità del 95% che la differenza non è dovuta a casualità.

"Molti, assumendo il significato stretto di 'il miglioramento osservato è il risultato di un caso casuale', disprezzerebbero tale affermazione", ha affermato Georgiev. "Dobbiamo ricordare che ciò che ci consente di stimare queste probabilità è l'assunzione che il nulla sia vero".

Il cinque percento è un livello di importanza iniziale comune nei test online e, come accennato in precedenza, è la probabilità di commettere un errore di tipo I. Usare un alfa del 5% per il tuo test significa che sei disposto ad accettare una probabilità del 5% di aver rifiutato erroneamente l'ipotesi nulla.

Se abbassi l'alfa dal 5% all'1%, aumenti contemporaneamente la probabilità di commettere un errore di tipo II, supponendo che tutto il resto sia uguale. Aumentare la probabilità di un errore di tipo II riduce la potenza del test.

4. Livello di potenza desiderato

Con l'80% di potenza, hai una probabilità del 20% di non essere in grado di rilevare una differenza effettiva per una data grandezza di interesse. Se il 20% è troppo rischioso, puoi abbassare questa probabilità al 10%, 5% o addirittura 1%, il che aumenterebbe il tuo potere statistico rispettivamente al 90%, 95% o 99%.

Prima di pensare che risolverai tutti i tuoi problemi eseguendo i test al 95% o al 99% di potenza, comprendi che ogni aumento di potenza richiede un corrispondente aumento della dimensione del campione e la quantità di tempo necessaria per eseguire il test (tempo che potresti spreco eseguendo un test perdente e perdendo vendite solo per uno o due punti percentuali in più di probabilità statistica).

Quindi quanta potenza ti serve davvero ? Un punto di partenza comune per il rischio accettabile di falsi negativi nell'ottimizzazione della conversione è il 20%, che restituisce un livello di potenza dell'80%.

Non c'è nulla di definitivo su un livello di potenza dell'80%, ma lo statistico Jacob Cohen suggerisce che l'80% rappresenta un ragionevole equilibrio tra rischio alfa e beta. Per dirla in altro modo, secondo Ellis, "gli studi non dovrebbero avere più del 20% di probabilità di commettere un errore di tipo II".

In definitiva si tratta di:

  • Quanto rischio sei disposto a correre quando si tratta di perdere un miglioramento reale;
  • La dimensione minima del campione necessaria per ogni variazione per ottenere la potenza desiderata.

Come calcolare la potenza statistica per il tuo test

Utilizzando un calcolatore della dimensione del campione o G*power, puoi collegare i tuoi valori per scoprire cosa è necessario per eseguire un test adeguatamente alimentato. Se conosci tre degli input, puoi calcolare il quarto.

In questo caso, utilizzando G*Power, abbiamo concluso che abbiamo bisogno di un campione di 681 visitatori per ogni variazione . Questo è stato calcolato utilizzando i nostri input dell'80% di potenza e un 5% alfa (significatività 95%). Sapevamo che il nostro controllo aveva un tasso di conversione del 14% e ci aspettavamo che la nostra variante avesse un rendimento del 19%:

g*calcolatrice di potenza

Allo stesso modo, se conoscessimo la dimensione del campione per ogni variazione, l'alfa e il livello di potenza desiderato (diciamo, 80%), potremmo trovare il MEI necessario per raggiungere tale potenza, in questo caso il 19%:

g*calcolatore di potenza per MEI

Cosa succede se non è possibile aumentare la dimensione del campione?

Verrà un giorno in cui avrai bisogno di più potenza, ma aumentare la dimensione del campione non è un'opzione. Ciò potrebbe essere dovuto a un piccolo segmento all'interno di un test che stai eseguendo o a un basso traffico verso una pagina.

Supponiamo che tu inserisca i tuoi parametri in un calcolatore di test A/B e che richieda una dimensione del campione di oltre 8.000:

calcolatore di test a/b


Se non riesci a raggiungere quel minimo, o ci vorrebbero mesi per farlo, un'opzione è aumentare il MEI. In questo esempio, aumentando il MEI dal 10% al 25% si riduce la dimensione del campione a 1.356 per variante:

calcolatore di test a/b con grande MEI

Ma quante volte sarai in grado di raggiungere un MEI del 25%? E quanto valore ti mancherà cercando solo un impatto massiccio? Un'opzione migliore è solitamente quella di abbassare il livello di confidenza al 90%, a patto che tu sia a tuo agio con una probabilità del 10% di un errore di tipo I:

Calcolatore di test a/b con 90% di alfa

Allora da dove inizi? Georgiev ha ammesso che, troppo spesso, gli analisti CRO "iniziano con la dimensione del campione (il test deve essere eseguito entro <numero semi-arbitrario> di settimane) e poi spingono le leve in modo casuale fino a quando l'output non si adatta".

Trovare il giusto equilibrio:

  • Richiede un processo ponderato su quali leve regolare;
  • Trae vantaggio dalla misurazione della potenziale variazione del ROI per qualsiasi modifica alle variabili di test.

Conclusione

La potenza statistica ti aiuta a controllare gli errori, ti dà maggiore fiducia nei risultati dei tuoi test e migliora notevolmente le tue possibilità di rilevare effetti praticamente significativi.

Approfitta del potere statistico seguendo questi suggerimenti:

  1. Esegui i test per due o quattro settimane.
  2. Utilizzare un calcolatore di test (o G*Power) per garantire test correttamente alimentati.
  3. Soddisfare i requisiti di dimensione minima del campione.
  4. Se necessario, testare le modifiche più grandi in vigore.
  5. Utilizzare la significatività statistica solo dopo aver soddisfatto i requisiti di dimensione minima del campione.
  6. Pianificare una potenza adeguata per tutte le varianti e i segmenti post-test.