Prédire les tests A/B gagnants à l'aide de modèles reproductibles

Publié: 2021-09-02

Si vous avez déjà effectué un test a/b très fiable et positif, il y a de fortes chances que vous vous en souveniez avec une envie de le réessayer à l'avenir - à juste titre. Les tests sont un travail difficile avec de nombreuses expériences qui échouent ou finissent par être insignifiantes. Il semblerait seulement optimal d'essayer d'exploiter toute connaissance existante pour plus de succès et moins d'échecs. Dans notre propre pratique, nous avons commencé à faire exactement cela.

En 2017, nous avons systématiquement commencé à classer les résultats de tests similaires en tant que modèles pour nous aider à mieux prédire plus de tests gagnants. En 2017, nous avons effectué 51 tests a/b qui étaient purement basés sur des modèles et 71% de ces tests étaient positifs au moment de l'arrêt. Il devient maintenant plus clair pour nous que les modèles sont un outil puissant pour prédire les résultats des tests et je souhaite partager notre approche avec vous. Voici le processus que nous suivons pour identifier et utiliser des modèles pour un taux de victoire plus élevé.

L'objectif : mieux que 50/50 aléatoire

Tout d'abord, si nous visons à améliorer notre taux de prédiction des résultats des tests a/b, alors nous devons mettre en place un bâton de mesure pour ce que signifie réellement une prédiction réussie. La réponse la plus simple à cette question est binaire – c'est-à-dire si un test qui aurait dû être positif ou négatif, a fini par être positif ou négatif comme prévu.

En d'autres termes, nous essayons simplement de faire mieux que le hasard. En supposant que nous ayons mené des expériences complètement aléatoires, nous pourrions nous attendre à ce qu'environ la moitié de nos résultats soient positifs et que l'autre moitié soit négative. De ce point de vue, notre objectif de départ est modeste : pour faire preuve de force prédictive, nos modèles doivent nous aider à vaincre le hasard et à obtenir un meilleur taux de gains/pertes que 50/50.

Le modèle : éléments de base pour la prédiction

Je définis les modèles de conversion comme des changements d'interface utilisateur facilement reproductibles qui nous permettent de prédire et de répéter les effets rapidement. Étant donné un modèle, nous pouvons tactiquement repérer une opportunité (un titre faible, trop de champs de formulaire, une photo non authentique, une mauvaise visibilité des choix cachés dans un menu déroulant, etc.) et prendre des mesures rapides pour exploiter leurs effets probables. La force prédictive de tels modèles provient d'une hypothèse simple : plus un changement donné est performant avec des effets similaires, plus il se produira à nouveau à l'avenir avec un effet similaire. Par conséquent, les modèles obtiennent en fin de compte leur force prédictive à partir de plusieurs résultats de tests - le plus sera le mieux. Les éléments d'un modèle qui rendent ces prédictions possibles comprennent :

  • Le(s) changement(s) – un ensemble de propriétés (une ou plusieurs) qui définissent le modèle et sont suffisamment abstraites pour les rendre reproductibles. En règle générale, les modifications peuvent impliquer la suppression, le remplacement ou l'ajout de quelque chose de nouveau à l'interface utilisateur. Souvent, le changement est représenté à l'aide de deux captures d'écran : A (avant, ou le contrôle) et B (après, ou la variation).
  • Résultat(s) du test – chaque modèle tire sa force prédictive des résultats du test (plus il y en a, mieux c'est). Les tests, à leur tour, nous fournissent deux mesures clés : la répétabilité et les effets médians.
  • Degré de répétabilité - il s'agit d'une mesure de la fréquence à laquelle un modèle a été testé avec des résultats gagnants (positifs), moins le nombre de résultats de test négatifs. Plus ce score est élevé (positif ou négatif), plus il est probable que le modèle gagnera ou perdra à plusieurs reprises dans les expériences futures. Pour les motifs qui n'ont pas de données de test, leur score de répétabilité est un 0 neutre.
  • Effet médian - l'effet médian nous indique quel effet nous pourrions attendre d'un changement similaire sur un futur test. Il est calculé à partir des effets les plus profonds de chaque test lié à un modèle (ex : mesures les plus significatives telles qu'une inscription, un prospect ou des ventes). Plus nous avons de tests pour un modèle donné, plus les effets médians devraient devenir précis.

Voici un exemple de modèle de champs sans coupon et comment nous relions tous ces éléments ensemble :

NOTE TECHNIQUE: pour compenser les résultats des tests avec différents degrés de confiance que nous attribuons un point de répétabilité 1 complète pour un résultat de test très significatif (p <0,03), un point 0,5 pour aucun résultat suggestifs (valeur p <0,25), et 0,25 point pour tout résultat non significatif (valeur p > 0,25) ou résultats de test sans données complètes sur la taille de l'échantillon.

Bons, mauvais et meilleurs modèles

Au fur et à mesure que les modèles accumulent les résultats des tests, ils s'éloignent rapidement de la neutralité innocente. Ces modèles qui fonctionnent plus positivement qu'autrement, gagnent en degré de répétabilité (avec une probabilité plus élevée de gagner à nouveau). D'autres modèles peuvent gagner et perdre de la même manière, en restant proche de 0 et en laissant entrevoir une probabilité de succès plus faible. Enfin, ces modèles qui ont tendance à perdre le plus souvent, auront une répétabilité négative suggérant qu'ils ne sont pas de si bonnes idées après tout.

Les meilleurs modèles peuvent donc être définis par deux critères : ils contiennent un degré élevé de répétabilité et un effet médian élevé.

Générer de nouveaux modèles

Les idées de motifs peuvent venir de n'importe où. La source d'une idée de motif, cependant, n'est pas si importante car tous les nouveaux motifs sont créés égaux (avec une répétabilité neutre de 0). Au lieu de cela, ce sont les résultats des tests qui fournissent aux modèles leur pouvoir prédictif, les chargeant négativement ou positivement. Compte tenu de ce qui précède, voici quelques moyens par lesquels nous générons de nouveaux modèles :

  • Imagination, Pen & Paper – votre expérience et votre processus créatif peuvent être une source précieuse d'idées de motifs intéressantes. Parfois, nous prenons simplement un morceau de papier et esquissons nos idées. Nous ne nous soucions pas trop de nous forcer à trouver des idées parfaites. Nous savons que, aussi exploratoires que soient les modèles, leur potentiel finira par se révéler au fur et à mesure qu'ils seront testés.
  • Vos propres tests A/B – lorsque vous avez terminé d'exécuter un test a/b, c'est l'occasion idéale de capturer le changement (ou l'ensemble de changements) en tant que modèle. Quel que soit l'effet, ni le degré de confiance, chaque test a/b contient des données précieuses qui ont le potentiel de se répéter à l'avenir. Dans ce cas, vous pouvez concevoir un nouveau modèle et avoir déjà des données initiales pour ou contre votre modèle, ce qui donne un avantage à votre modèle.
  • Tests A/B d'autres personnes - il existe des tests a/b que les entreprises partagent publiquement et ceux-ci peuvent être un autre point de départ précieux pour un modèle. Certes, il est plus difficile de se fier au résultat des autres étant donné la présence de biais de publication (tendance à rapporter plus les positifs que les négatifs). À d'autres moments, les résultats publiés manquent également de tailles d'échantillon détaillées ou de données de conversion, ce qui rend plus difficile l'évaluation de leur qualité. Dans ce cas, nous attribuons un score de répétabilité plus faible (seulement 0,25) pour compenser le manque de données complètes.
  • Recherche client - toute recherche qualitative où de vrais clients ou utilisateurs expriment leurs besoins peut être une source d'inspiration précieuse pour de nouvelles idées de modèles. Cela inclut toutes les méthodes telles que les enquêtes, les études d'utilisabilité, les entretiens, les enregistrements d'écran, etc.
  • Copier des sites qui optimisent – enfin, il vaut toujours la peine de prêter attention aux sites Web dont vous savez qu'ils effectuent des expériences et optimisent activement. Il y a de fortes chances que, quels que soient les changements qu'ils ont mis en œuvre, ils ont fait l'objet d'une sorte d'expérimentation et peuvent donc avoir des chances légèrement plus élevées de réussir à l'avenir.

Utiliser des modèles pour optimiser un site Web

ÉTAPE 1 : Trouver des opportunités

Lorsque nous nous efforçons d'optimiser un ensemble d'écrans à l'aide de modèles, notre objectif est d'identifier autant d'opportunités d'optimisation que possible. Pour ce faire, nous définissons un ensemble d'écrans et de métriques à améliorer. Dans le même temps, nous nous rappelons tous les modèles existants pour nous inspirer d'un large éventail de changements communs. Nous pouvons également rechercher des types de modèles plus spécifiques par type de page (par exemple : modèles de paiement) ou par métrique (par exemple : modèles de génération de leads). Peu importe dans quel ordre vous commencez le processus. Ce qui compte, c'est d'avoir les écrans, les métriques d'objectifs et les modèles visibles devant vous afin que vous puissiez voir et saisir les opportunités - plus il y en a, mieux c'est.

En pratique, nous pouvons utiliser Adobe Illustrator (n'importe quel logiciel d'annotation d'écran convient) pour répertorier les captures d'écran pertinentes et les annoter avec des idées sur les côtés comme ceci :

Si nous avons une idée pour laquelle nous n'avons pas encore de modèle, nous la capturons quand même (sans aucune référence de données bien sûr).

ÉTAPE 2 : Priorisation avec répétabilité et effets médians

Une fois que nous avons répertorié suffisamment d'idées (généralement 10 à 100), nous les pesons ensuite pour voir lesquelles ont la plus grande probabilité de succès et le plus grand impact. Pour ce faire, pour chaque idée basée sur un modèle, nous recherchons sa répétabilité et son effet médian et l'écrivons à côté de l'idée. En faisant cela, nous faisons officiellement une prédiction en utilisant des données réelles, tandis que nos idées prioritaires peuvent commencer à ressembler à ce qui suit :

En option, nous pourrions également ajouter une confiance subjective pour chaque idée. Si nous choisissons de le faire, nous limitons notre confiance à une plage comprise entre -3 (confiance la plus élevée que l'idée sera négative) et +3 (confiance la plus élevée que l'idée sera positive). Et si plusieurs membres de l'équipe expriment leur confiance subjective, nous faisons la moyenne de ces valeurs pour exploiter l'intelligence de la foule.

ÉTAPE 3 : Concevoir des tests et explorer des variantes

Une fois que nos idées sont priorisées et que nous commençons à voir ce qui a le plus de potentiel, nous continuons avec une conception plus détaillée. En regardant un motif et en voyant un A et un B, nous ne voulons pas être induits en erreur sur le fait que c'est la seule façon d'appliquer un motif donné. Pour chaque A et B, il y a un C, D, E et F juste au coin de la rue à découvrir. C'est ici que nous faisons preuve de créativité et générons des alternatives visuelles. Nous pourrions même examiner les tests passés pour rechercher des exemples plus spécifiques où un modèle a fonctionné et où il a échoué.

Toutes les idées esquissées ne sont pas sélectionnées dans un test, mais nous aimons certainement avoir plus de choix. Notre visuel final est un concept de test solide contenant une série de variantes (1 ou plusieurs) avec les changements exacts (1 ou plusieurs) qui entreront dans le test, ressemblant à :

REMARQUE : Vous avez toujours la possibilité de tester une idée ou de la mettre en œuvre directement à ce stade. Avec une confiance suffisante (subjective ou à partir de tests suffisamment positifs), nous respectons la décision de sauter les tests et de déployer directement les changements sur la production (mise en œuvre). Exploiter les connaissances de cette manière, malgré le risque carieux, est une démarche d'optimisation valable (selon le contexte métier : sensibilité statistique, trafic du site, impact prévu, degré de confiance, etc.).

ÉTAPE 4: Boucles de rétroaction et correction des données

Lorsque nous décidons d'exécuter un test basé sur un modèle, un dernier élément est essentiel pour terminer le processus : nous mettons à jour le modèle avec le nouveau résultat. Plus précisément, à la fois le score de répétabilité est mis à jour (positivement ou négativement) et l'effet médian change également pour le meilleur ou pour le pire.

Cela se produit pour tout résultat de test indépendant de l'effet et du degré de signification. Il est important de se souvenir et d'apprendre de tous les résultats, quel que soit le résultat (à moins qu'il n'y ait eu un problème de configuration de test technique qui invalide l'expérience). Ce mécanisme de rétroaction est ce qui rend les prédictions futures de plus en plus précises avec chaque nouveau résultat de test, séparant davantage les meilleurs modèles des plus faibles.

Les modèles fonctionnent-ils ? Résultats prometteurs de 51 prédictions de test A/B

Mais comment une telle approche se comporte-t-elle sur des projets réels ? Afin d'évaluer si les modèles ont un pouvoir prédictif, en 2017, nous avons commencé à suivre nos propres prédictions sur de nombreux projets d'optimisation. Nous avons effectué et suivi 51 tests a/b de ce type qui étaient strictement axés sur les modèles et voici les résultats passionnants que nous avons trouvés.

Sur 51 expériences qui étaient toutes prédites comme positives (avec des scores de répétabilité positifs), 36 de ces expériences se sont avérées positives au moment de l'arrêt. Cela a placé le taux de prédiction de ces modèles à 71%. L'utilisation de modèles de cette manière nous a clairement aidés à nous éloigner d'un taux de réussite de 50/50 suggéré par le hasard. Par conséquent, nous avons une vision très positive des modèles (basés sur des expériences) comme moyen très efficace d'exécuter plus de tests a/b gagnants tout en minimisant l'effort en général. Ceci est conforme aux attentes commerciales des clients qui visent les résultats d'impact les plus élevés avec le moins d'effort possible (ROI maximal).

Des tests plus reproductibles conduisent-ils à un taux de prédiction plus élevé ?

Il y a une autre question clé que nous pouvons nous poser afin de vérifier si la répétabilité est un prédicteur fiable des résultats des tests : un score de répétabilité plus élevé conduit-il à des prédictions de test plus positives ? En d'autres termes, si un modèle fonctionne positivement plus fréquemment, cela signifie-t-il qu'il a de meilleures chances de fonctionner à nouveau positivement dans les expériences futures ? Pour répondre à cette question, nous avons organisé nos prédictions par trois ensembles de scores de répétabilité (rappel : plus le score est élevé, plus nous avons de preuves positives en faveur d'un modèle). Voici ce que nous avons trouvé :

Nous voyons une indication claire que plus nous avons de preuves en faveur d'un modèle, plus notre taux de prédiction est élevé. Notre taux de prédiction augmente linéairement avec le degré de répétabilité. Il s'agit de notre conclusion la plus prometteuse de 2017 en faveur de la poursuite de l'identification et de la mesure des modèles de conversion de cette manière. C'est également très rassurant car cela suggère que les modèles de conversion peuvent être généralisables (effectuer sur différents sites Web).

À partir de ces résultats, nous étions plus à l'aise pour ajouter une couche de sens à notre score de répétabilité. Nous pouvons toujours l'ajuster à l'avenir au fur et à mesure que nous collectons plus de données et évaluons l'exactitude de nos prévisions, mais pour l'instant, voici par quoi nous commençons :

  • Répétabilité de 0 = peut gagner ou perdre
  • Répétabilité de 0 < 0,99 = Peut-être gagnera-t-il
  • Répétabilité de 1 < 2,99 = Probablement gagnera
  • Répétabilité de 3 < 4,99 = très probablement gagnera
  • Répétabilité de 5 < = Presque certain de gagner

Conclusion

L'analyse des seuls tests a/b individuels est limitative. Nous voyons maintenant la valeur de regarder plusieurs expériences à la place. L'utilisation de modèles de la manière que nous avons décrite ci-dessus est l'une des nombreuses façons qui rend ce saut possible. Les modèles sont devenus pour nous un moyen puissant de se souvenir de plusieurs expériences passées, ce qui est essentiel pour faire des prédictions plus précises. Le taux de réussite de 71% de l'année dernière n'est qu'un début. Au fur et à mesure que nous exécutons et mémorisons plus d'expériences, notre travail devrait devenir plus facile. Et tirer les probabilités d'expériences passées nous permettra en fin de compte d'effectuer des tests plus gagnants et plus impactants.

Ce qui fonctionne pour un site peut ne pas toujours fonctionner pour un autre, comme certains sceptiques aiment le dire. Mais ce qui fonctionne pour un site, un autre et un autre, fonctionnera probablement à nouveau ailleurs - souvenez-vous-en et exploitez-le.