12 erreurs de test A/B que je vois tout le temps

Publié: 2021-07-22

Les tests A/B sont amusants. Avec autant d'outils faciles à utiliser, tout le monde peut et doit le faire. Cependant, il n'y a pas que la mise en place d'un test. Des tonnes d'entreprises perdent leur temps et leur argent.

Voici les 12 erreurs de test A/B que je vois que les gens font encore et encore.

  1. Appeler les tests A/B tôt ;
  2. Ne pas exécuter de tests pendant des semaines complètes ;
  3. Faire des tests A/B sans assez de trafic (ou de conversions) ;
  4. Ne pas fonder les tests sur une hypothèse ;
  5. Ne pas envoyer de données de test à Google Analytics ;
  6. Perdre du temps et du trafic sur des tests stupides ;
  7. Abandonner après l'échec du premier test ;
  8. Ne pas comprendre les faux positifs ;
  9. Exécuter plusieurs tests en même temps sur le trafic qui se chevauche ;
  10. Ignorer les petits gains ;
  11. Ne pas exécuter de tests tout le temps ;
  12. Ne pas être au courant des menaces de validité.

Êtes-vous coupable d'avoir commis ces erreurs? Continuez à lire pour le découvrir.

1. Appeler les tests A/B tôt

La signification statistique est la meilleure preuve que la version A est réellement meilleure que la version B, si la taille de l'échantillon est suffisamment grande. Cinquante pour cent de signification statistique est un tirage au sort. Si vous appelez des tests à 50%, vous devriez changer de profession. Et non, une confiance statistique de 75 % n'est pas suffisante non plus.

Tout testeur chevronné a eu de nombreuses expériences dans lesquelles une variation « gagnante » à 80 % de confiance finit par perdre gravement après avoir été poussée en direct sur un site et exposée à plus de trafic.

Et 90 % ? C'est plutôt bien, non ? Nan. Pas assez bon. Vous effectuez une expérience scientifique. Oui, vous voulez que ce soit vrai. Vous voulez que 90 % gagnent, mais obtenir la vérité est plus important que de déclarer un gagnant.

Vérité > « gagner »

En tant qu'optimiseur, votre travail consiste à découvrir la vérité. Vous devez mettre votre ego de côté. Il est humain de s'attacher à votre hypothèse ou à votre conception du traitement, et cela peut faire mal lorsque vos meilleures hypothèses ne sont pas significativement différentes. J'y ai été, j'ai fait ça. La vérité avant tout, ou tout cela perd son sens.

Planification des tests A/B : comment créer un processus qui fonctionne

Par Jaan Matti-Saul

Un plan de test A/B solide vous permettra d'augmenter vos revenus et d'obtenir des informations précieuses sur vos clients.

  • Ce champ est à des fins de validation et doit rester inchangé.

Voici un scénario courant, même pour les entreprises qui testent beaucoup : elles effectuent un test après l'autre pendant 12 mois, déclarent un groupe de gagnants et les déploient. Un an plus tard, le taux de conversion de leur site est le même qu'au début. Ça arrive tout le temps.

Pourquoi? Parce que les tests sont appelés trop tôt et/ou que la taille des échantillons est trop petite. Voici une explication plus détaillée du moment où arrêter un test A/B, mais en résumé, vous devez répondre à trois critères avant de pouvoir déclarer un test terminé :

  1. Taille d'échantillon suffisante. Nous avons suffisamment de données pour passer un appel. Vous devez pré-calculer la taille de l'échantillon avec un calculateur de taille d'échantillon de test A/B.
  2. Cycles de vente multiples (2 à 4 semaines). Si vous arrêtez le test dans quelques jours (même après avoir atteint la taille d'échantillon requise), vous prélevez un échantillon pratique , pas un échantillon représentatif .
  3. Signification statistique d'au moins 95 % (valeur p de 0,05 ou moins) . Remarque : La valeur p ne nous dit pas la probabilité que B soit meilleur que A. Apprenez tout sur les valeurs p ici.

Voici un ancien exemple pour illustrer mon propos. Deux jours après avoir commencé un test, voici les résultats :

la variation fonctionne mal avec une très petite taille d'échantillon.

La variation que j'ai construite perdait gravement, de plus de 89 % (sans chevauchement dans la marge d'erreur). Certains outils l'appelleraient déjà et diraient que la signification statistique était de 100 %. Le logiciel que j'ai utilisé disait que la Variation 1 avait 0% de chance de battre le contrôle. Mon client était prêt à arrêter.

Cependant, comme la taille de l'échantillon était trop petite (un peu plus de 100 visites par variation), j'ai persisté. Voici à quoi ressemblaient les résultats 10 jours plus tard :

la variation de test devient gagnante après avoir atteint la taille de l'échantillon.

C'est vrai, la variation qui avait une chance de « 0 % » de battre le contrôle gagnait maintenant avec une confiance de 95 %.

Méfiez-vous des outils de test A/B qui « l'appellent tôt ». Vérifiez toujours les chiffres. La pire chose que vous puissiez faire est de faire confiance à des données inexactes. Vous perdrez de l'argent et pourriez perdre des mois de travail.

De quelle taille d'échantillon avez-vous besoin ?

Vous ne voulez pas tirer de conclusions sur la base d'un petit échantillon. Une bonne approximation consiste à viser au moins 350 à 400 conversions par variation .

Il peut être moindre dans certaines circonstances, comme lorsque l'écart entre le contrôle et le traitement est très important, mais les nombres magiques n'existent pas. Ne restez pas coincé avec un numéro. C'est de la science, pas de la magie.

Vous devez calculer à l'avance la taille de l'échantillon nécessaire à l'aide de calculateurs de taille d'échantillon comme celui-ci ou d'autres similaires.

Et si la confiance est toujours inférieure à 95 % ?

Une fois que vous avez atteint la taille d'échantillon nécessaire et testé pour un cycle économique complet (ou deux), cela signifie qu'il n'y a pas de différence significative entre les variations.

Vérifiez les résultats du test à travers les segments pour voir si la signification a été atteinte pour un segment particulier. De bonnes informations résident dans les segments, mais vous avez également besoin d'une taille d'échantillon suffisante pour chaque segment.

Dans tous les cas, vous devrez améliorer votre hypothèse et effectuer un nouveau test.

2. Ne pas exécuter de tests pendant des semaines complètes

Disons que vous avez un site à fort trafic. Vous obtenez une confiance de 98 % et 350 conversions par variation en trois jours. Le test est-il fait ? Nan.

Nous devons exclure la saisonnalité et tester pendant des semaines complètes. Avez-vous commencé le test lundi? Ensuite, vous devez également le terminer un lundi. Pourquoi? Car votre taux de conversion peut varier considérablement selon le jour de la semaine.

Si vous ne testez pas une semaine complète à la fois, vous faussez vos résultats. Exécutez un rapport « conversions par jour de la semaine » sur votre site pour voir l'ampleur des fluctuations.

Voici un exemple :

exemple de taux de conversion par jour de la semaine.

Que voyez-vous ici? Les jeudis rapportent 2 fois plus d'argent que les samedis et dimanches, et le taux de conversion le jeudi est presque 2 fois meilleur que le samedi.

Si nous ne testions pas pendant des semaines complètes, les résultats seraient inexacts. Vous devez exécuter des tests pendant sept jours à la fois. Si la confiance n'est pas atteinte dans les sept premiers jours, exécutez-la encore sept jours. S'il n'est pas atteint en 14 jours, exécutez-le jusqu'au jour 21.

Bien sûr, vous devez de toute façon exécuter vos tests pendant au moins deux semaines. (Mon minimum personnel est de quatre semaines, car deux semaines sont souvent inexactes.) Ensuite, appliquez la règle des sept jours si vous devez la prolonger.

La seule fois où vous pouvez enfreindre cette règle, c'est lorsque vos données historiques indiquent - avec certitude - que le taux de conversion est le même chaque jour. Mais, même dans ce cas, il vaut mieux tester une semaine complète à la fois.

Faites attention aux facteurs externes

C'est Noël ? Votre test gagnant pendant les vacances pourrait ne pas être gagnant en janvier. Si vous avez des tests qui gagnent pendant les saisons de magasinage comme Noël, vous devez absolument répéter les tests après la fin de la saison de magasinage.

Faites-vous beaucoup de publicité télévisée ou menez-vous d'autres campagnes massives ? Cela peut aussi fausser vos résultats. Vous devez être conscient de ce que fait votre entreprise. Les facteurs externes affectent certainement les résultats de vos tests. En cas de doute, effectuez un test de suivi.

3. Faire des tests A/B sans assez de trafic (ou de conversions)

Si vous réalisez une ou deux ventes par mois et effectuez un test où B convertit 15 % mieux que A, comment le sauriez-vous ? Rien ne change!

J'aime autant les tests fractionnés A/B que les autres, mais ce n'est pas quelque chose que vous devriez utiliser pour l'optimisation des conversions si vous avez très peu de trafic. La raison en est que même si la version B est bien meilleure, cela peut prendre des mois pour atteindre une signification statistique.

Si votre test a duré 5 mois et n'a pas été un gagnant, vous avez gaspillé beaucoup d'argent. Au lieu de cela, vous devriez opter pour des changements massifs et radicaux. Passez simplement à B. Pas de test, changez simplement et surveillez votre compte bancaire.

L'idée ici est que vous optez pour des ascenseurs massifs, comme 50% ou 100%. Vous devriez remarquer ce genre d'impact sur votre compte bancaire (ou sur le nombre de prospects entrants) tout de suite. Le temps, c'est de l'argent. Ne le gaspillez pas à attendre un résultat de test qui prendra des mois.

4. Ne pas fonder les tests sur une hypothèse

J'aime les spaghettis. Mais tester des spaghettis, le jeter contre le mur pour voir s'il colle ? Pas tellement. Tester des idées aléatoires coûte très cher. Vous perdez un temps précieux et du trafic. Ne fais jamais ça. Il faut avoir une hypothèse. Qu'est-ce qu'une hypothèse ?

Une hypothèse est une proposition de déclaration faite sur la base de preuves limitées qui peuvent être prouvées ou réfutées et qui est utilisée comme point de départ pour une enquête plus approfondie.

Cela ne devrait pas non plus être une « hypothèse spaghetti » (c'est-à-dire l'élaboration d'une déclaration aléatoire). Vous avez besoin d'une recherche de conversion appropriée pour découvrir où se trouvent les problèmes, puis proposer une hypothèse pour les surmonter.

Si vous testez A contre B sans hypothèse claire, et que B gagne de 15%, c'est bien, mais qu'avez-vous appris ? Rien. Nous voulons en savoir plus sur notre public. Cela nous aide à améliorer notre théorie client et à proposer des tests encore meilleurs.

5. Ne pas envoyer de données de test à Google Analytics

Les moyennes mentent. Souvenez-vous toujours de cela. Si A bat B de 10 %, ce n'est pas une image complète. Vous devez segmenter les données de test. De nombreux outils de test ont une segmentation des résultats intégrée, mais cela ne correspond toujours pas à ce que vous pouvez faire dans Google Analytics.

Avec les dimensions personnalisées ou les événements, vous pouvez envoyer vos données de test à Google Analytics et les segmenter comme vous le souhaitez. Vous pouvez y exécuter des segments avancés et des rapports personnalisés. C'est super utile, et c'est ainsi que vous apprenez réellement des tests A/B (y compris les tests perdants et sans différence).

Conclusion : envoyez toujours vos données de test à Google Analytics. Et segmentez la merde des résultats. Voici un article sur la façon de le faire.

6. Perdre du temps et du trafic sur des tests stupides

Alors tu testes les couleurs, hein ? Arrêter.

Il n'y a pas de meilleure couleur. Il s'agit toujours de hiérarchie visuelle. Bien sûr, vous pouvez trouver des tests en ligne où quelqu'un a trouvé des gains en testant les couleurs, mais ils sont tous évidents. Ne perdez pas de temps à tester des évidences ; il suffit de mettre en œuvre.

Vous n'avez pas assez de trafic pour tout tester . Personne ne le fait. Utilisez votre trafic sur des contenus à fort impact. Testez des hypothèses basées sur les données.

7. Abandonner après l'échec du premier test

Vous avez mis en place un test, et il n'a pas réussi à produire un ascenseur. Tant pis. Essayons d'exécuter des tests sur une autre page ?

Pas si vite! La plupart des premiers tests échouent. C'est vrai. Je sais que vous êtes impatient, moi aussi, mais la vérité est que les tests itératifs sont là où ils en sont. Vous effectuez un test, en tirez des enseignements et améliorez la théorie et les hypothèses de votre client. Exécutez un test de suivi, apprenez-en et améliorez vos hypothèses. Exécutez un test de suivi, et ainsi de suite.

Voici une étude de cas où il a fallu six tests (sur la même page) pour obtenir un ascenseur dont nous étions satisfaits. C'est à cela que ressemblent les tests en conditions réelles. Les personnes qui approuvent les budgets de test (vos patrons, vos clients) doivent le savoir.

Si l'on s'attend à ce que le premier test le fasse sortir des sentiers battus, de l'argent sera gaspillé et des gens seront licenciés. Il ne doit pas en être ainsi. Cela peut être beaucoup d'argent pour tout le monde à la place. Exécutez simplement des tests itératifs. C'est là que se trouve l'argent.

8. Ne pas comprendre les faux positifs

La signification statistique n'est pas la seule chose à laquelle il faut prêter attention. Vous devez également comprendre les faux positifs. Les testeurs impatients veulent sauter les tests A/B et passer aux tests A/B/C/D/E/F/G/H. Ouais, maintenant on parle !

Pourquoi s'arrêter là ? Google a testé 41 nuances de bleu ! Mais ce n'est pas une bonne idée. Plus vous testez de variations, plus le risque d'un faux positif est élevé. Dans le cas de 41 nuances de bleu, même à un niveau de confiance de 95 %, la probabilité d'un faux positif est de 88 %.

Regarde cette video. Vous apprendrez une chose ou trois :

Le principal à retenir : ne testez pas trop de variantes à la fois. Il est préférable de faire des tests A/B simples de toute façon. Vous obtiendrez des résultats plus rapidement et vous apprendrez plus rapidement, en améliorant votre hypothèse plus tôt.

9. Exécuter plusieurs tests en même temps sur le trafic qui se chevauche

Vous avez trouvé un moyen de réduire les coûts en exécutant plusieurs tests en même temps : un sur la page du produit, un sur la page du panier, un sur la page d'accueil (tout en mesurant le même objectif). Ça fait gagner du temps, non ?

Cela peut fausser les résultats si vous ne faites pas attention. C'est probablement bien à moins que :

  • Vous suspectez de fortes interactions entre les tests.
  • Il y a un grand chevauchement de trafic entre les tests.

Les choses se compliquent si des interactions et des chevauchements de trafic sont susceptibles d'être présents.

Si vous souhaitez tester une nouvelle version de plusieurs mises en page dans le même flux à la fois, par exemple en exécutant des tests sur les trois étapes de votre paiement, vous feriez peut-être mieux d'utiliser des expériences multipages ou des tests multivariés pour mesurer les interactions et attribuer correctement les résultats. .

Si vous décidez d'exécuter des tests A/B avec un trafic qui se chevauche, gardez à l'esprit que le trafic doit toujours être réparti de manière égale. Si vous testez la page de produit A par rapport à B et la page de paiement C par rapport à D, assurez-vous que le trafic de B est réparti 50/50 entre C et D (pas, disons, 25/75).

10. Ignorer les petits gains

Votre traitement a battu le contrôle de 4%. « Bhh, c'est bien trop petit comme gain ! Je ne prendrai même pas la peine de le mettre en œuvre », ai-je entendu des gens dire.

Voici la chose. Si votre site est plutôt bon, vous n'obtiendrez pas des ascenseurs massifs tout le temps. En fait, les ascenseurs massifs sont très rares. Si votre site est de la merde, il est facile d'exécuter des tests qui obtiennent une augmentation de 50 % tout le temps. Mais même cela s'épuisera.

La plupart des tests gagnants vont donner de petits gains : 1 %, 5 %, 8 %. Parfois, une augmentation de 1% peut signifier des millions de revenus. Tout dépend des nombres absolus auxquels nous avons affaire. Mais le point principal est le suivant : vous devez l'examiner dans une perspective de 12 mois.

Un test n'est qu'un test. Vous allez faire beaucoup, beaucoup de tests. Si vous augmentez votre taux de conversion de 5 % chaque mois, cela représentera une augmentation de 80 % sur 12 mois. C'est l'intérêt composé. C'est juste comme ça que les maths fonctionnent. Quatre-vingt pour cent, c'est beaucoup.

Alors continuez à obtenir ces petites victoires. Tout finira par s'additionner.

11. Ne pas exécuter de tests tout le temps

Chaque jour sans examen est une journée perdue. Tester, c'est apprendre : connaître votre public, savoir ce qui fonctionne et pourquoi. Toutes les informations que vous obtenez peuvent être utilisées dans l'ensemble de votre marketing (par exemple, les annonces PPC).

Vous ne savez pas ce qui fonctionne jusqu'à ce que vous l'ayez testé. Les tests nécessitent du temps et du trafic (beaucoup). Avoir un test opérationnel à tout moment ne signifie pas que vous devez mettre en place des tests de déchets. Absolument pas. Vous avez toujours besoin d'une recherche appropriée, d'une bonne hypothèse, et ainsi de suite.

Mais n'arrêtez jamais d'optimiser.

12. Ne pas être au courant des menaces de validité

Ce n'est pas parce que vous avez une taille d'échantillon, un niveau de confiance et une durée de test décents que vos résultats de test étaient valides. Il existe plusieurs menaces à la validité de votre test.

Effet d'instrumentation

C'est le problème le plus courant. C'est lorsque les outils de test (ou instruments) provoquent des données erronées dans le test. C'est souvent dû à une mauvaise implémentation du code sur le site, ce qui faussera tous les résultats

Vous devez vraiment surveiller cela. Lorsque vous configurez un test, observez chaque objectif et chaque métrique enregistré. Si une métrique n'envoie pas de données (par exemple, les données de clic « ajouter au panier »), arrêtez le test, recherchez et résolvez le problème, puis recommencez en réinitialisant les données.

Effet d'histoire

Quelque chose se produit dans le monde extérieur qui provoque des données erronées dans le test. Cela pourrait être un scandale pour votre entreprise ou l'un de ses dirigeants. Cela pourrait être une période spéciale des fêtes (Noël, fête des mères, etc.). Peut-être qu'une histoire médiatique biaise les gens contre une variation de votre test. Peu importe. Faites attention à ce qui se passe dans le monde.

Effet de sélection

Cela se produit lorsque nous supposons à tort qu'une partie du trafic représente la totalité du trafic.

Par exemple, vous envoyez du trafic promotionnel depuis votre liste de diffusion vers une page sur laquelle vous effectuez un test. Les personnes qui s'abonnent à votre liste vous aiment bien plus que votre visiteur moyen. Mais maintenant, vous optimisez la page pour qu'elle fonctionne avec votre trafic fidèle, en pensant qu'il représente le trafic total. C'est rarement le cas !

Effet de code cassé

Vous créez un traitement et le poussez en direct. Cependant, il ne gagne pas ou n'entraîne aucune différence. Ce que vous ne savez pas, c'est que votre traitement s'affiche mal sur certains navigateurs et/ou appareils.

Chaque fois que vous créez un ou deux nouveaux traitements, assurez-vous d'effectuer des tests d'assurance qualité pour vous assurer qu'ils s'affichent correctement dans tous les navigateurs et appareils. Sinon, vous jugez votre variation sur la base de données erronées.

Conclusion

Il y a tellement d'excellents outils disponibles qui facilitent les tests, mais ils ne réfléchissent pas à votre place. Les statistiques n'étaient peut-être pas votre matière préférée à l'université, mais il est temps de réviser.

Apprenez de ces 12 erreurs. Si vous pouvez les éviter, vous commencerez à faire de réels progrès avec les tests.

Crédit image en vedette