12 errori di test A/B che vedo sempre

Pubblicato: 2021-07-22

Il test A/B è divertente. Con così tanti strumenti facili da usare, chiunque può e dovrebbe farlo. Tuttavia, c'è molto di più che impostare un test. Tantissime aziende stanno sprecando tempo e denaro.

Ecco i 12 errori del test A/B che vedo le persone commettere ancora e ancora.

  1. Chiamare in anticipo i test A/B;
  2. Non eseguire test per settimane intere;
  3. Fare test A/B senza abbastanza traffico (o conversioni);
  4. Non basare i test su un'ipotesi;
  5. Non inviare dati di test a Google Analytics;
  6. Perdere tempo e traffico in test stupidi;
  7. Rinunciare dopo il primo test fallisce;
  8. Non riuscire a capire i falsi positivi;
  9. Esecuzione di più test contemporaneamente sul traffico sovrapposto;
  10. Ignorando piccoli guadagni;
  11. Non eseguire sempre i test;
  12. Non essere a conoscenza delle minacce alla validità.

Sei colpevole di questi errori? Continuate a leggere per scoprirlo.

1. Chiamare in anticipo i test A/B

La significatività statistica è la migliore prova che la versione A è effettivamente migliore della versione B, se la dimensione del campione è sufficientemente ampia. Il cinquanta per cento di significatività statistica è il lancio di una moneta. Se stai chiamando i test al 50%, dovresti cambiare la tua professione. E no, anche la fiducia statistica del 75% non è abbastanza buona.

Qualsiasi tester esperto ha avuto molte esperienze in cui una variazione "vincente" all'80% di confidenza finisce per perdere gravemente dopo essere stata inviata dal vivo a un sito ed esposta a più traffico.

E il 90%? È abbastanza buono, giusto? No. Non buono abbastanza. Stai eseguendo un esperimento scientifico. Sì, vuoi che sia vero. Vuoi che il 90% vinca, ma ottenere la verità è più importante che dichiarare un vincitore.

Verità > “vincere”

In qualità di ottimizzatore, il tuo compito è scoprire la verità. Devi mettere da parte il tuo ego. È umano attaccarsi alla tua ipotesi o al trattamento di progettazione, e può ferire quando le tue migliori ipotesi non riescono a essere significativamente diverse. Ci sono stato, l'ho fatto. La verità prima di tutto, o tutto perde significato.

Pianificazione dei test A/B: come creare un processo che funzioni

di Jaan Matti-Saul

Un solido piano di test A/B ti consentirà di aumentare le tue entrate e apprendere preziose informazioni sui tuoi clienti.

  • Questo campo è a scopo di convalida e dovrebbe essere lasciato invariato.

Ecco uno scenario comune, anche per le aziende che testano molto: eseguono un test dopo l'altro per 12 mesi, dichiarano un gruppo di vincitori e li lanciano. Un anno dopo, il tasso di conversione del loro sito è lo stesso di quando hanno iniziato. Succede tutte le maledette volte.

Perché? Perché i test vengono chiamati troppo presto e/o le dimensioni dei campioni sono troppo piccole. Ecco una spiegazione più lunga su quando interrompere un test A/B, ma in poche parole devi soddisfare tre criteri prima di poter dichiarare un test completato:

  1. Dimensione del campione sufficiente. Abbiamo dati sufficienti per effettuare una chiamata. È necessario pre-calcolare la dimensione del campione con un calcolatore della dimensione del campione del test A/B.
  2. Cicli di vendita multipli (24 settimane). Se interrompi il test entro pochi giorni (anche dopo aver raggiunto la dimensione del campione richiesta), stai prelevando un campione conveniente , non un campione rappresentativo .
  3. Significatività statistica di almeno il 95% (p-value di 0,05 o meno) . Nota: il p-value non ci dice la probabilità che B sia migliore di A. Scopri tutto sui p-value qui.

Ecco un vecchio esempio per illustrare il mio punto. Due giorni dopo aver iniziato un test, questi erano i risultati:

la variazione si comporta male con una dimensione del campione molto piccola.

La variazione che ho costruito stava perdendo gravemente, di oltre l'89% (senza sovrapposizioni nel margine di errore). Alcuni strumenti lo avrebbero già chiamato e direbbero che la significatività statistica era del 100%. Il software che ho usato ha detto che la Variazione 1 aveva una probabilità dello 0% di battere il controllo. Il mio cliente era pronto a farla finita.

Tuttavia, poiché la dimensione del campione era troppo piccola (poco più di 100 visite per variazione), ho insistito. Ecco come apparivano i risultati 10 giorni dopo:

la variazione del test diventa vincente dopo aver raggiunto la dimensione del campione.

Esatto, la variazione che aveva una probabilità dello "0%" di battere il controllo ora stava vincendo con una confidenza del 95%.

Fai attenzione agli strumenti di test A/B che "chiamano presto". Ricontrolla sempre i numeri. La cosa peggiore che puoi fare è avere fiducia in dati imprecisi. Perderai denaro e potresti sprecare mesi di lavoro.

Quanto è grande la dimensione del campione di cui hai bisogno?

Non vuoi trarre conclusioni basate su una piccola dimensione del campione. Un buon campo da baseball è puntare ad almeno 350-400 conversioni per variazione .

Può essere inferiore in determinate circostanze, come quando la discrepanza tra il controllo e il trattamento è molto ampia, ma i numeri magici non esistono. Non rimanere bloccato con un numero. Questa è scienza, non magia.

È necessario calcolare in anticipo la dimensione del campione necessaria utilizzando calcolatori della dimensione del campione come questo o altri simili.

E se la fiducia fosse ancora al di sotto del 95%?

Una volta raggiunta la dimensione del campione necessaria e testata per un intero ciclo economico (o due), significa che non c'è alcuna differenza significativa tra le variazioni.

Controllare i risultati del test tra i segmenti per vedere se la significatività è stata raggiunta in un particolare segmento. Le grandi intuizioni si trovano nei segmenti, ma hai anche bisogno di una dimensione del campione sufficiente per ogni segmento.

In ogni caso, dovrai migliorare la tua ipotesi ed eseguire un nuovo test.

2. Non eseguire test per settimane intere

Supponiamo che tu abbia un sito ad alto traffico. Ottieni il 98% di fiducia e 350 conversioni per variazione in tre giorni. Il test è fatto? No.

Dobbiamo escludere la stagionalità e testare per settimane intere. Hai iniziato il test lunedì? Quindi devi terminarlo anche di lunedì. Perché? Perché il tuo tasso di conversione può variare notevolmente a seconda del giorno della settimana.

Se non esegui il test per un'intera settimana alla volta, stai distorcendo i risultati. Esegui un rapporto "conversioni per giorno della settimana" sul tuo sito per vedere quanta fluttuazione c'è.

Ecco un esempio:

esempio di tassi di conversione per giorno della settimana.

cosa vedi qui? Il giovedì guadagna il doppio rispetto al sabato e alla domenica e il tasso di conversione del giovedì è quasi il doppio rispetto al sabato.

Se non eseguissimo il test per settimane intere, i risultati sarebbero imprecisi. È necessario eseguire i test per sette giorni alla volta. Se la fiducia non viene raggiunta entro i primi sette giorni, eseguila per altri sette giorni. Se non viene raggiunto entro 14 giorni, eseguilo fino al giorno 21.

Ovviamente, devi comunque eseguire i test per un minimo di due settimane. (Il mio minimo personale è di quattro settimane, poiché due settimane sono spesso imprecise.) Quindi, applica la regola dei sette giorni se hai bisogno di estenderla.

L'unica volta che puoi infrangere questa regola è quando i tuoi dati storici dicono, con sicurezza, che il tasso di conversione è lo stesso ogni singolo giorno. Ma, anche in questo caso, è meglio testare un'intera settimana alla volta.

Attenzione ai fattori esterni

È Natale? Il tuo test vincente durante le vacanze potrebbe non essere vincente a gennaio. Se hai test che vincono durante le stagioni dello shopping come il Natale, sicuramente vorrai eseguire test ripetuti dopo la fine della stagione dello shopping.

Stai facendo molta pubblicità televisiva o gestendo altre campagne massicce? Anche questo potrebbe distorcere i tuoi risultati. Devi essere consapevole di ciò che sta facendo la tua azienda. I fattori esterni influenzano sicuramente i risultati del test. In caso di dubbio, eseguire un test di follow-up.

3. Fare test A/B senza abbastanza traffico (o conversioni)

Se ottieni una o due vendite al mese ed esegui un test in cui B converte il 15% meglio di A, come fai a saperlo? Niente cambia!

Adoro il test diviso A/B tanto quanto il prossimo ragazzo, ma non è qualcosa che dovresti usare per l'ottimizzazione della conversione se hai pochissimo traffico. Il motivo è che anche se la versione B è molto migliore, potrebbero volerci mesi per raggiungere la significatività statistica.

Se il test ha richiesto 5 mesi per essere eseguito e non è stato vincente, hai sprecato un sacco di soldi. Invece, dovresti optare per cambiamenti massicci e radicali. Basta passare a B. Nessun test, basta passare e guardare il tuo conto in banca.

L'idea qui è che stai andando per enormi sollevamenti, come il 50% o il 100%. Dovresti notare subito questo tipo di impatto sul tuo conto bancario (o sul numero di lead in entrata). Il tempo è denaro. Non sprecarlo in attesa di un risultato del test che richiederà mesi.

4. Non basare i test su un'ipotesi

Mi piacciono gli spaghetti. Ma il test degli spaghetti: lanciarlo contro il muro per vedere se si attacca? Non così tanto. Testare idee casuali comporta una spesa enorme. Stai perdendo tempo prezioso e traffico. Non farlo mai. Devi avere un'ipotesi. Che cos'è un'ipotesi?

Un'ipotesi è una proposta di affermazione fatta sulla base di prove limitate che possono essere dimostrate o confutate e viene utilizzata come punto di partenza per ulteriori indagini.

Anche questa non dovrebbe essere un'"ipotesi degli spaghetti" (cioè creare un'affermazione casuale). Hai bisogno di un'adeguata ricerca di conversione per scoprire dove si trovano i problemi, quindi elaborare un'ipotesi per superarli.

Se provi A contro B senza un'ipotesi chiara e B vince del 15%, va bene, ma cosa hai imparato ? Niente. Vogliamo conoscere il nostro pubblico. Questo ci aiuta a migliorare la nostra teoria del cliente e a fornire test ancora migliori.

5. Non inviare dati di test a Google Analytics

Le medie mentono. Ricordatelo sempre. Se A batte B del 10%, non è il quadro completo. Devi segmentare i dati del test. Molti strumenti di test hanno una segmentazione dei risultati integrata, ma non è ancora all'altezza di ciò che puoi fare in Google Analytics.

Con Dimensioni personalizzate o Eventi, puoi inviare i dati del tuo test a Google Analytics e segmentarli come preferisci. Puoi eseguire segmenti avanzati e rapporti personalizzati su di esso. È super utile ed è il modo in cui impari effettivamente dai test A/B (compresi i test perdenti e senza differenze).

In conclusione: invia sempre i tuoi dati di test a Google Analytics. E segmenta la merda dai risultati. Ecco un post su come farlo.

6. Perdere tempo e traffico in test stupidi

Quindi stai testando i colori, eh? Fermare.

Non esiste il colore migliore. Si tratta sempre di gerarchia visiva. Certo, puoi trovare test online in cui qualcuno ha riscontrato guadagni testando i colori, ma sono tutti senza scrupoli. Non perdere tempo a testare senza scrupoli; solo implementare.

Non hai abbastanza traffico per testare tutto. Nessuno fa. Usa il tuo traffico su cose ad alto impatto. Testare ipotesi basate sui dati.

7. Rinunciare dopo il primo test fallito

Hai impostato un test e non è riuscito a produrre un ascensore. Oh bene. Proviamo a eseguire i test su un'altra pagina?

Non così in fretta! La maggior parte dei primi test fallisce. È vero. So che sei impaziente, lo sono anch'io, ma la verità è che i test iterativi sono il punto giusto. Esegui un test, impara da esso e migliora la teoria e le ipotesi del cliente. Esegui un test di follow-up, impara da esso e migliora le tue ipotesi. Eseguire un test di follow-up e così via.

Ecco un caso di studio in cui ci sono voluti sei test (nella stessa pagina) per ottenere un aumento di cui eravamo soddisfatti. Ecco come sono i test nella vita reale. Le persone che approvano i budget di test, i tuoi capi, i tuoi clienti, devono saperlo.

Se l'aspettativa è che il primo test lo metta fuori gioco, i soldi verranno sprecati e le persone verranno licenziate. Non deve essere così. Può essere un sacco di soldi per tutti, invece. Basta eseguire test iterativi. Ecco dove stanno i soldi.

8. Non riuscire a capire i falsi positivi

La significatività statistica non è l'unica cosa a cui prestare attenzione. Devi capire anche i falsi positivi. I tester impazienti vogliono saltare i test A/B e passare ai test A/B/C/D/E/F/G/H. Sì, ora stiamo parlando!

Perché fermarsi lì? Google ha testato 41 sfumature di blu! Ma non è una buona idea. Più variazioni esegui, maggiore è la possibilità di un falso positivo. Nel caso di 41 sfumature di blu, anche con un livello di confidenza del 95%, la possibilità di un falso positivo è dell'88%.

Guarda questo video. Imparerai una o tre cose:

La conclusione principale: non testare troppe varianti contemporaneamente. È comunque meglio fare un semplice test A/B. Otterrai risultati più velocemente e imparerai più velocemente, migliorando la tua ipotesi prima.

9. Esecuzione di più test contemporaneamente su traffico sovrapposto

Hai trovato un modo per risparmiare eseguendo più test contemporaneamente: uno sulla pagina del prodotto, uno sulla pagina del carrello, uno sulla home page (misurando lo stesso obiettivo). Risparmia tempo, vero?

Questo potrebbe distorcere i risultati se non stai attento. Probabilmente va bene a meno che:

  • Sospetti forti interazioni tra i test.
  • C'è una grande sovrapposizione di traffico tra i test.

Le cose si complicano se è probabile che ci siano interazioni e sovrapposizioni di traffico.

Se desideri testare una nuova versione di più layout nello stesso flusso contemporaneamente, ad esempio eseguendo test su tutti e tre i passaggi del checkout, potresti fare meglio a utilizzare esperimenti su più pagine o test multivariati per misurare le interazioni e attribuire correttamente i risultati .

Se decidi di eseguire test A/B con traffico sovrapposto, tieni presente che il traffico deve essere sempre suddiviso equamente. Se provi la pagina del prodotto A rispetto a B e la pagina di pagamento C. rispetto a D, assicurati che il traffico da B sia suddiviso 50/50 tra C e D (non, ad esempio, 25/75).

10. Ignorare i piccoli guadagni

Il tuo trattamento ha battuto il controllo del 4%. “Bhh, è un guadagno troppo piccolo! Non mi prenderò nemmeno la briga di implementarlo”, ho sentito dire dalla gente.

Ecco la cosa. Se il tuo sito è abbastanza buono, non otterrai sempre enormi aumenti. In effetti, gli ascensori massicci sono molto rari. Se il tuo sito fa schifo, è facile eseguire test che ottengono sempre un aumento del 50%. Ma anche quello finirà.

La maggior parte dei test vincenti darà piccoli guadagni: 1%, 5%, 8%. A volte, un aumento dell'1% può significare milioni di entrate. Tutto dipende dai numeri assoluti con cui abbiamo a che fare. Ma il punto principale è questo: devi guardarlo da una prospettiva di 12 mesi.

Un test è solo un test. Farai molti, molti test. Se aumenti il ​​tasso di conversione del 5% ogni mese, si otterrà un aumento dell'80% in 12 mesi. Questo è un interesse composto. È così che funziona la matematica. L'ottanta per cento è molto.

Quindi continua a ottenere quelle piccole vittorie. Alla fine tornerà tutto.

11. Non eseguire sempre i test

Ogni giorno senza un test è un giorno perso. Il test è apprendimento: conoscere il tuo pubblico, imparare cosa funziona e perché. Tutte le informazioni che ottieni possono essere utilizzate nel tuo marketing (ad es. annunci PPC).

Non sai cosa funziona finché non lo provi. I test richiedono tempo e traffico (molto). Avere sempre un test attivo e funzionante non significa che dovresti fare dei garbage test. Assolutamente no. Hai ancora bisogno di una ricerca adeguata, una buona ipotesi e così via.

Ma non smettere mai di ottimizzare.

12. Non essere a conoscenza delle minacce alla validità

Solo perché hai una dimensione del campione, un livello di confidenza e una durata del test decenti non significa che i risultati del test fossero validi. Ci sono diverse minacce alla validità del tuo test.

Effetto strumentazione

Questo è il problema più comune. È quando gli strumenti (o gli strumenti) di test causano dati errati nel test. Spesso è dovuto all'implementazione errata del codice sul sito, che distorcerà tutti i risultati

Devi davvero stare attento a questo. Quando imposti un test, osserva ogni singolo obiettivo e metrica che viene registrata. Se una metrica non invia dati (ad es. dati sui clic "aggiungi al carrello"), interrompere il test, individuare e risolvere il problema e ricominciare reimpostando i dati.

Effetto storia

Nel mondo esterno accade qualcosa che causa dati errati nel test. Questo potrebbe essere uno scandalo sulla tua attività o su uno dei suoi dirigenti. Potrebbe essere un periodo festivo speciale (Natale, festa della mamma, ecc.). Forse una storia dei media distorce le persone contro una variazione nel tuo test. Che cosa mai. Presta attenzione a ciò che sta accadendo nel mondo.

Effetto selezione Selection

Ciò si verifica quando assumiamo erroneamente che una parte del traffico rappresenti la totalità del traffico.

Ad esempio, invii traffico promozionale dalla tua lista di e-mail a una pagina su cui stai eseguendo un test. Le persone che si iscrivono alla tua lista ti piacciono molto di più del tuo visitatore medio. Ma ora ottimizzi la pagina per lavorare con il tuo traffico fedele, pensando che rappresenti il ​​traffico totale. Questo è raramente il caso!

Effetto codice rotto Broken

Crei un trattamento e lo spingi dal vivo. Tuttavia, non vince o non fa alcuna differenza. Quello che non sai è che il tuo trattamento viene visualizzato male su alcuni browser e/o dispositivi.

Ogni volta che crei un nuovo trattamento o due, assicurati di condurre test di garanzia della qualità per assicurarti che vengano visualizzati correttamente in tutti i browser e dispositivi. Altrimenti, giudicherai la tua variazione sulla base di dati errati.

Conclusione

Ci sono così tanti ottimi strumenti disponibili che rendono facile il test, ma non fanno il pensiero per te. Le statistiche potrebbero non essere state la tua materia preferita al college, ma è ora di rispolverare.

Impara da questi 12 errori. Se puoi evitarli, inizierai a fare progressi reali con i test.

Credito immagine in primo piano