12 A/B-Testfehler, die ich ständig sehe

Veröffentlicht: 2021-07-22

A/B-Tests machen Spaß. Mit so vielen einfach zu bedienenden Tools kann – und sollte – jeder es tun. Es geht jedoch um mehr als nur einen Test einzurichten. Tonnen von Unternehmen verschwenden ihre Zeit und ihr Geld.

Hier sind die 12 A/B-Testfehler, die ich immer wieder sehe.

  1. Frühzeitiges Aufrufen von A/B-Tests;
  2. Keine Tests für ganze Wochen;
  3. Durchführung von A/B-Tests ohne genügend Traffic (oder Conversions);
  4. Tests nicht auf einer Hypothese aufbauen;
  5. Keine Testdaten an Google Analytics senden;
  6. Zeit und Verkehr mit dummen Tests verschwenden;
  7. Aufgeben, nachdem der erste Test fehlgeschlagen ist;
  8. Falsches Positives nicht verstehen;
  9. Ausführen mehrerer Tests gleichzeitig bei überlappendem Datenverkehr;
  10. Ignorieren kleiner Gewinne;
  11. Nicht ständig Tests ausführen;
  12. Keine Kenntnis von Gültigkeitsbedrohungen.

Sind Sie schuldig, diese Fehler zu machen? Lesen Sie weiter, um es herauszufinden.

1. Frühzeitiges Aufrufen von A/B-Tests

Statistische Signifikanz ist der beste Beweis dafür, dass Version A tatsächlich besser ist als Version B – wenn die Stichprobengröße groß genug ist. Fünfzig Prozent statistische Signifikanz ist ein Münzwurf. Wenn Sie Tests bei 50% nennen, sollten Sie Ihren Beruf wechseln. Und nein, auch 75% statistisches Vertrauen sind nicht gut genug.

Jeder erfahrene Tester hat viele Erfahrungen gemacht, bei denen eine „gewinnende“ Variante mit 80 % Vertrauen am Ende stark verliert, nachdem sie live auf eine Website gepusht wurde und mehr Traffic ausgesetzt war.

Was ist mit 90%? Das ist ziemlich gut, oder? Nee. Nicht gut genug. Sie führen ein wissenschaftliches Experiment durch. Ja, Sie wollen, dass es wahr ist. Sie wollen, dass 90% gewinnen, aber die Wahrheit zu erfahren ist wichtiger, als einen Gewinner zu erklären.

Wahrheit > „gewinnen“

Als Optimierer ist es Ihre Aufgabe, die Wahrheit herauszufinden. Du musst dein Ego beiseite legen. Es ist menschlich, an Ihrer Hypothese oder Designbehandlung festzuhalten, und es kann wehtun, wenn Ihre besten Hypothesen nicht wesentlich anders sind. Kenne ich schon. Wahrheit über alles, oder alles verliert an Bedeutung.

A/B-Testplanung: So bauen Sie einen funktionierenden Prozess auf

Von Jaan Matti-Saul

Mit einem starken A/B-Testplan können Sie Ihren Umsatz steigern und wertvolle Erkenntnisse über Ihre Kunden gewinnen.

  • Dieses Feld dient zu Validierungszwecken und sollte unverändert bleiben.

Hier ist ein gängiges Szenario, selbst für Unternehmen, die viel testen: Sie führen 12 Monate lang einen Test nach dem anderen durch, geben eine Reihe von Gewinnern an und führen sie aus. Ein Jahr später ist die Conversion-Rate ihrer Website dieselbe wie beim Start. Passiert die ganze verdammte Zeit.

Warum? Weil Tests zu früh aufgerufen werden und/oder die Stichprobengrößen zu klein sind. Hier ist eine längere Erklärung, wann ein A/B-Test abgebrochen werden sollte, aber kurz gesagt, Sie müssen drei Kriterien erfüllen, bevor Sie einen Test für erledigt erklären können:

  1. Ausreichende Stichprobengröße. Wir haben genug Daten, um einen Anruf zu tätigen. Sie müssen die Stichprobengröße mit einem A/B-Test-Stichprobengrößenrechner im Voraus berechnen.
  2. Mehrere Verkaufszyklen (24 Wochen). Wenn Sie den Test innerhalb weniger Tage abbrechen (auch nach Erreichen der erforderlichen Stichprobengröße), nehmen Sie eine geeignete Probe, keine repräsentative Probe.
  3. Statistische Signifikanz von mindestens 95 % (p-Wert von 0,05 oder weniger) . Hinweis: Der p-Wert sagt uns nicht die Wahrscheinlichkeit, dass B besser als A ist. Erfahren Sie hier alles über p-Werte.

Hier ist ein altes Beispiel, um meinen Standpunkt zu veranschaulichen. Zwei Tage nach Beginn eines Tests waren dies die Ergebnisse:

Variation schneidet bei sehr kleiner Stichprobengröße schlecht ab.

Die von mir erstellte Variante verlor stark – um mehr als 89 % (ohne Überlappung der Fehlerquote). Einige Tools würden es bereits nennen und sagen, die statistische Signifikanz sei 100 %. Die von mir verwendete Software sagte, dass Variante 1 eine Chance von 0% hat, die Kontrolle zu übertreffen. Mein Klient war bereit, es zu beenden.

Da die Stichprobengröße jedoch zu klein war (etwas mehr als 100 Besuche pro Variante), blieb ich bestehen. So sah das Ergebnis 10 Tage später aus:

Testvariation wird ein Gewinner, nachdem die Stichprobengröße erreicht wurde.

Das ist richtig, die Variante, die eine Chance von „0%“ hatte, die Kontrolle zu schlagen, gewann jetzt mit 95-prozentiger Sicherheit.

Achten Sie auf A/B-Testtools, die „frühzeitig anrufen“. Überprüfen Sie immer die Zahlen. Das Schlimmste, was Sie tun können, ist, auf ungenaue Daten zu vertrauen. Sie verlieren Geld und können monatelange Arbeit verschwenden.

Wie groß ist die Stichprobengröße, die Sie benötigen?

Sie möchten keine Schlussfolgerungen aufgrund einer kleinen Stichprobengröße ziehen. Ein guter Standard ist, mindestens 350–400 Conversions pro Variante anzustreben .

Unter bestimmten Umständen kann es weniger sein – etwa wenn die Diskrepanz zwischen Kontrolle und Behandlung sehr groß ist – aber magische Zahlen existieren nicht. Bleiben Sie nicht bei einer Zahl hängen. Das ist Wissenschaft, keine Magie.

Sie müssen die erforderliche Stichprobengröße im Voraus mit Stichprobenrechnern wie diesem oder ähnlichen berechnen.

Was ist, wenn das Vertrauen immer noch unter 95 % liegt?

Sobald Sie die erforderliche Stichprobengröße erreicht und für einen vollständigen Geschäftszyklus (oder zwei) getestet haben, bedeutet dies, dass es keinen signifikanten Unterschied zwischen den Variationen gibt.

Überprüfen Sie die Testergebnisse segmentübergreifend, um zu sehen, ob in einem bestimmten Segment Signifikanz erreicht wurde. Große Erkenntnisse liegen in Segmenten, aber Sie benötigen auch genügend Stichprobengröße für jedes Segment.

In jedem Fall müssen Sie Ihre Hypothese verbessern und einen neuen Test durchführen.

2. Keine Tests für ganze Wochen durchführen

Angenommen, Sie haben eine stark frequentierte Website. In drei Tagen erreichen Sie eine Zuverlässigkeit von 98 % und 350 Conversions pro Variante. Ist der Test gemacht? Nee.

Wir müssen Saisonalität ausschließen und ganze Wochen lang testen. Hast du am Montag mit dem Test begonnen? Dann müssen Sie es auch an einem Montag beenden. Warum? Denn Ihre Conversion-Rate kann je nach Wochentag stark variieren.

Wenn Sie nicht eine ganze Woche am Stück testen, verfälschen Sie Ihre Ergebnisse. Führen Sie einen Bericht "Conversions pro Wochentag" auf Ihrer Website aus, um zu sehen, wie hoch die Fluktuation ist.

Hier ist ein Beispiel:

Beispiel für Conversion-Raten nach Wochentag.

Was siehst du hier? Donnerstags verdienen Sie 2x mehr Geld als samstags und sonntags, und der Umrechnungskurs ist donnerstags fast 2x besser als an einem Samstag.

Wenn wir nicht ganze Wochen lang testen würden, wären die Ergebnisse ungenau. Sie müssen die Tests jeweils sieben Tage lang ausführen. Wenn das Vertrauen innerhalb der ersten sieben Tage nicht erreicht wird, führen Sie es weitere sieben Tage aus. Wenn es nach 14 Tagen nicht erreicht wird, führen Sie es bis Tag 21 durch.

Natürlich müssen Sie Ihre Tests sowieso mindestens zwei Wochen lang durchführen. (Mein persönliches Minimum beträgt vier Wochen, da zwei Wochen oft ungenau sind.) Wenden Sie dann die Sieben-Tage-Regel an, wenn Sie sie verlängern müssen.

Sie können diese Regel nur dann brechen, wenn Ihre historischen Daten mit Zuversicht sagen, dass die Conversion-Rate jeden Tag gleich ist. Aber selbst dann ist es besser, jeweils eine ganze Woche lang zu testen.

Achten Sie auf externe Faktoren

Ist es Weihnachten? Ihr Siegertest während der Ferien wird im Januar möglicherweise kein Sieger sein. Wenn Sie Tests haben, die während der Einkaufssaison wie Weihnachten gewinnen, möchten Sie auf jeden Fall Wiederholungstests nach dem Ende der Einkaufssaison durchführen.

Machen Sie viel TV-Werbung oder führen Sie andere massive Kampagnen durch? Das kann auch Ihre Ergebnisse verzerren. Sie müssen wissen, was Ihr Unternehmen tut. Externe Faktoren beeinflussen definitiv Ihre Testergebnisse. Führen Sie im Zweifelsfall einen Folgetest durch.

3. Durchführung von A/B-Tests ohne genügend Traffic (oder Conversions)

Wenn Sie ein oder zwei Verkäufe pro Monat erzielen und einen Test durchführen, bei dem B 15 % besser konvertiert als A, woher würden Sie das wissen? Nichts verändert sich!

Ich liebe A/B-Split-Tests genauso wie die anderen, aber es ist nichts, was Sie zur Conversion-Optimierung verwenden sollten, wenn Sie sehr wenig Traffic haben. Der Grund dafür ist, dass es Monate dauern kann, bis die statistische Signifikanz erreicht ist, selbst wenn Version B viel besser ist.

Wenn Ihr Test 5 Monate dauerte – und kein Gewinner war – haben Sie viel Geld verschwendet. Stattdessen sollten Sie massive, radikale Veränderungen anstreben. Wechseln Sie einfach zu B. Kein Testen, wechseln Sie einfach – und beobachten Sie Ihr Bankkonto.

Die Idee hier ist, dass Sie massive Steigerungen anstreben, etwa 50 % oder 100 %. Sie sollten diese Auswirkungen auf Ihr Bankkonto (oder die Anzahl der eingehenden Leads) sofort bemerken. Zeit ist Geld. Vergeuden Sie es nicht, auf ein Testergebnis zu warten, das Monate dauern wird.

4. Tests nicht auf Hypothesen aufbauen

Ich mag Spaghetti. Aber Spaghettitesten – gegen die Wand werfen, um zu sehen, ob es klebt? Nicht so viel. Das Testen von zufälligen Ideen ist mit enormen Kosten verbunden. Sie verschwenden wertvolle Zeit und Verkehr. TU das niemals. Sie müssen eine Hypothese haben. Was ist eine Hypothese?

Eine Hypothese ist eine vorgeschlagene Aussage, die auf der Grundlage begrenzter Beweise gemacht wird, die bewiesen oder widerlegt werden können und als Ausgangspunkt für weitere Untersuchungen verwendet werden.

Dies sollte auch keine „Spaghetti-Hypothese“ sein (dh eine zufällige Aussage erstellen). Sie benötigen eine angemessene Konversionsforschung, um herauszufinden, wo die Probleme liegen, und dann eine Hypothese zu entwickeln, um sie zu überwinden.

Wenn Sie A gegen B ohne eine klare Hypothese testen und B mit 15% gewinnt, ist das schön, aber was haben Sie gelernt ? Nichts. Wir wollen unser Publikum kennenlernen. Das hilft uns, unsere Kundentheorie zu verbessern und noch bessere Tests zu entwickeln.

5. Keine Testdaten an Google Analytics senden

Durchschnitte lügen. Denken Sie immer daran. Wenn A B um 10 % schlägt, ist das nicht das vollständige Bild. Sie müssen die Testdaten segmentieren. Viele Testtools verfügen über eine integrierte Segmentierung der Ergebnisse, aber sie ist immer noch nicht mit dem, was Sie in Google Analytics tun können, vergleichbar.

Mit benutzerdefinierten Dimensionen oder Ereignissen können Sie Ihre Testdaten an Google Analytics senden und nach Belieben segmentieren. Sie können erweiterte Segmente und benutzerdefinierte Berichte darauf ausführen. Es ist sehr nützlich, und so lernt man tatsächlich aus A/B-Tests (einschließlich Verlust- und Nicht-Differenz-Tests).

Fazit: Senden Sie Ihre Testdaten immer an Google Analytics. Und segmentiere den Mist aus den Ergebnissen. Hier ist ein Beitrag, wie es geht.

6. Zeit und Verkehr mit dummen Tests verschwenden

Sie testen also Farben, oder? Halt.

Es gibt keine beste Farbe. Es geht immer um visuelle Hierarchie. Sicher, Sie können online Tests finden, bei denen jemand durch das Testen von Farben Gewinne erzielt hat, aber sie sind alle kinderleicht. Verschwenden Sie keine Zeit mit dem Testen von No-Brainern; einfach umsetzen.

Sie haben nicht genug Verkehr, um alles zu testen . Niemand tut. Verwenden Sie Ihren Datenverkehr für wichtige Inhalte. Testen Sie datengetriebene Hypothesen.

7. Aufgeben, nachdem der erste Test fehlgeschlagen ist

Sie haben einen Test eingerichtet, der keinen Lift erzeugt hat. Naja. Versuchen wir, Tests auf einer anderen Seite auszuführen?

Nicht so schnell! Die meisten ersten Tests scheitern. Es ist wahr. Ich weiß, Sie sind ungeduldig, ich bin es auch, aber die Wahrheit ist, dass iteratives Testen der Punkt ist . Sie führen einen Test durch, lernen daraus und verbessern Ihre Kundentheorie und -hypothesen. Führen Sie einen Folgetest durch, lernen Sie daraus und verbessern Sie Ihre Hypothesen. Führen Sie einen Folgetest durch und so weiter.

Hier ist eine Fallstudie, bei der sechs Tests (auf derselben Seite) erforderlich waren, um eine Steigerung zu erreichen, mit der wir zufrieden waren. So sieht es mit realen Tests aus. Personen, die Testbudgets genehmigen – Ihre Chefs, Ihre Kunden – müssen dies wissen.

Wenn die Erwartung ist, dass der erste Test es aus dem Stadion werfen wird, wird Geld verschwendet und Leute werden gefeuert. Es muss nicht so sein. Es kann stattdessen viel Geld für alle sein. Führen Sie einfach iterative Tests durch. Da ist das Geld.

8. Falschmeldungen nicht verstehen

Dabei ist nicht nur die statistische Signifikanz zu beachten. Sie müssen auch False Positives verstehen. Ungeduldige Tester möchten A/B-Tests überspringen und zu A/B/C/D/E/F/G/H-Tests übergehen. Ja, jetzt reden wir!

Warum hier aufhören? Google hat 41 Blautöne getestet! Aber das ist keine gute Idee. Je mehr Varianten Sie testen, desto höher ist die Wahrscheinlichkeit eines Fehlalarms. Bei 41 Blautönen beträgt die Wahrscheinlichkeit eines Fehlalarms selbst bei einem Konfidenzniveau von 95 % 88 %.

Schau dieses Video an. Sie werden ein oder drei Dinge lernen:

Die wichtigste Erkenntnis: Testen Sie nicht zu viele Variationen auf einmal. Es ist sowieso besser, einfache A/B-Tests durchzuführen. Sie erhalten schneller Ergebnisse und lernen schneller – wodurch Sie Ihre Hypothese schneller verbessern können.

9. Gleichzeitiges Ausführen mehrerer Tests bei überlappendem Datenverkehr

Sie haben einen Weg gefunden, Abstriche zu machen, indem Sie mehrere Tests gleichzeitig durchführen: einen auf der Produktseite, einen auf der Warenkorbseite, einen auf der Homepage (während das gleiche Ziel gemessen wird). Das spart Zeit, oder?

Dies kann die Ergebnisse verfälschen, wenn Sie nicht aufpassen. Es ist wahrscheinlich in Ordnung, es sei denn:

  • Sie vermuten starke Wechselwirkungen zwischen den Tests.
  • Es gibt große Überschneidungen des Datenverkehrs zwischen den Tests.

Schwieriger wird es, wenn Interaktionen und Verkehrsüberschneidungen wahrscheinlich sind.

Wenn Sie eine neue Version mehrerer Layouts im selben Ablauf gleichzeitig testen möchten – zum Beispiel Tests für alle drei Schritte Ihres Checkouts ausführen – sollten Sie mehrseitige Tests oder multivariate Tests verwenden, um Interaktionen richtig zu messen und Ergebnisse richtig zuzuordnen .

Wenn Sie sich entscheiden, A/B-Tests mit überlappendem Datenverkehr durchzuführen, denken Sie daran, dass der Datenverkehr immer gleichmäßig aufgeteilt werden sollte. Wenn Sie Produktseite A vs. B und Checkout-Seite C vs. D testen, stellen Sie sicher, dass der Traffic von B 50/50 zwischen C und D aufgeteilt wird (nicht beispielsweise 25/75).

10. Ignorieren kleiner Gewinne

Ihre Behandlung schlug die Kontrolle um 4%. „Bhh, das ist viel zu wenig Gewinn! Ich werde mir nicht einmal die Mühe machen, es umzusetzen“, habe ich die Leute sagen hören.

Hier ist das Ding. Wenn Ihre Website ziemlich gut ist, werden Sie nicht die ganze Zeit massive Steigerungen erzielen. Tatsächlich sind massive Aufzüge sehr selten. Wenn Ihre Website beschissen ist, ist es einfach, Tests durchzuführen, die die ganze Zeit über eine Steigerung von 50 % erzielen. Aber auch das wird ausgehen.

Die meisten siegreichen Tests werden kleine Gewinne bringen – 1 %, 5 %, 8 %. Manchmal kann eine Steigerung um 1 % Millionenumsätze bedeuten. Es hängt alles von den absoluten Zahlen ab, mit denen wir es zu tun haben. Aber die Hauptsache ist: Sie müssen es aus einer 12-Monats-Perspektive betrachten.

Ein Test ist nur ein Test. Sie werden viele, viele Tests machen. Wenn Sie Ihre Conversion-Rate jeden Monat um 5 % steigern, bedeutet dies eine Steigerung von 80 % über 12 Monate. Das ist Zinseszins. So funktioniert die Mathematik. Achtzig Prozent sind viel.

Holen Sie sich also weiterhin diese kleinen Gewinne. Es wird sich am Ende alles summieren.

11. Nicht ständig Tests durchführen tests

Jeder Tag ohne Test ist ein verschwendeter Tag. Testen ist Lernen – lernen Sie Ihr Publikum kennen, lernen Sie, was funktioniert und warum. Alle Erkenntnisse, die Sie erhalten, können für Ihr gesamtes Marketing (zB PPC-Anzeigen) verwendet werden.

Sie wissen nicht, was funktioniert, bis Sie es testen. Tests brauchen Zeit und Verkehr (viel davon). Einen Test zu haben, der immer ausgeführt wird, bedeutet nicht, dass Sie Mülltests durchführen sollten. Absolut nicht. Sie brauchen noch ordentliche Forschung, eine gute Hypothese und so weiter.

Aber hören Sie nie auf zu optimieren.

12. Sich der Bedrohungen der Gültigkeit nicht bewusst sein

Nur weil Sie eine anständige Stichprobengröße, Vertrauensstufe und Testdauer haben, bedeutet dies nicht, dass Ihre Testergebnisse gültig waren. Es gibt mehrere Bedrohungen für die Gültigkeit Ihres Tests.

Instrumentierungseffekt

Dies ist das häufigste Problem. Dies ist der Fall, wenn die Testtools (oder -instrumente) fehlerhafte Daten im Test verursachen. Dies liegt oft an der falschen Codeimplementierung auf der Website, die alle Ergebnisse verzerrt

Darauf musst du wirklich aufpassen. Beobachten Sie beim Einrichten eines Tests jedes einzelne Ziel und jeden Messwert, der aufgezeichnet wird. Wenn eine Metrik keine Daten sendet (z. B. Klickdaten „in den Warenkorb“), stoppen Sie den Test, finden und beheben Sie das Problem und beginnen Sie von vorne, indem Sie die Daten zurücksetzen.

Verlaufseffekt

In der Außenwelt passiert etwas, das im Test fehlerhafte Daten verursacht. Dies könnte ein Skandal um Ihr Unternehmen oder einen seiner Führungskräfte sein. Es könnte eine besondere Ferienzeit sein (Weihnachten, Muttertag usw.). Vielleicht verzerrt eine Mediengeschichte die Leute gegen eine Variation in Ihrem Test. Was auch immer. Achte darauf, was in der Welt passiert.

Selektionseffekt

Dies tritt auf, wenn wir fälschlicherweise annehmen, dass ein Teil des Datenverkehrs die Gesamtheit des Datenverkehrs darstellt.

Sie senden beispielsweise Werbe-Traffic von Ihrer E-Mail-Liste an eine Seite, auf der Sie einen Test durchführen. Menschen, die Ihre Liste abonnieren, mögen Sie viel mehr als Ihr durchschnittlicher Besucher. Aber jetzt optimieren Sie die Seite, um mit Ihrem treuen Verkehr zu arbeiten, da Sie denken, dass sie den Gesamtverkehr darstellen. Das ist selten der Fall!

Broken-Code-Effekt

Sie erstellen eine Behandlung und pushen sie live. Es gewinnt jedoch nicht oder führt zu keinem Unterschied. Was Sie nicht wissen, ist, dass Ihre Behandlung in einigen Browsern und/oder Geräten schlecht angezeigt wurde.

Wenn Sie ein oder zwei neue Behandlungen erstellen, stellen Sie sicher, dass Sie Qualitätssicherungstests durchführen, um sicherzustellen, dass sie in allen Browsern und Geräten richtig angezeigt werden. Andernfalls beurteilen Sie Ihre Variation anhand fehlerhafter Daten.

Fazit

Es gibt so viele großartige Tools, die das Testen vereinfachen, aber sie übernehmen nicht das Denken für Sie. Statistik war vielleicht nicht dein Lieblingsfach im College, aber es ist Zeit, aufzufrischen.

Lernen Sie aus diesen 12 Fehlern. Wenn Sie sie vermeiden können, werden Sie beim Testen echte Fortschritte machen.

Bildnachweis für ausgewählte Bilder