12 błędów w testach A/B, które widzę cały czas

Opublikowany: 2021-07-22

Testy A/B to świetna zabawa. Przy tak wielu łatwych w użyciu narzędziach każdy może – i powinien – to zrobić. Jednak chodzi o coś więcej niż tylko przygotowanie testu. Mnóstwo firm marnuje swój czas i pieniądze.

Oto 12 błędów w testach A/B, które ludzie popełniają raz za razem.

  1. Wywoływanie testów A/B wcześnie;
  2. Nieprzeprowadzanie testów przez całe tygodnie;
  3. Wykonywanie testów A/B bez wystarczającego ruchu (lub konwersji);
  4. Nie opieranie testów na hipotezie;
  5. Nie wysyłanie danych testowych do Google Analytics;
  6. Marnowanie czasu i ruchu na głupie testy;
  7. Rezygnacja po niepowodzeniu pierwszego testu;
  8. niezrozumienie fałszywych alarmów;
  9. Uruchamianie wielu testów w tym samym czasie na nakładającym się ruchu;
  10. Ignorowanie małych zysków;
  11. Nieprzeprowadzanie testów przez cały czas;
  12. Brak świadomości zagrożeń dla ważności.

Czy jesteś winny popełnienia tych błędów? Czytaj dalej, aby się dowiedzieć.

1. Wywoływanie testów A/B wcześnie

Istotność statystyczna jest najlepszym dowodem na to, że wersja A jest rzeczywiście lepsza niż wersja B — jeśli wielkość próby jest wystarczająco duża. Pięćdziesiąt procent istotności statystycznej to rzut monetą. Jeśli nazywasz testy na 50%, powinieneś zmienić zawód. I nie, 75% statystycznej pewności też nie jest wystarczająco dobre.

Każdy doświadczony tester miał wiele doświadczeń, w których „wygrywająca” odmiana z 80% pewnością kończy się fatalnie po przeniesieniu na żywo do witryny i narażeniu na większy ruch.

A co z 90%? To całkiem nieźle, prawda? Nie. Nie wystarczająco dobre. Przeprowadzasz eksperyment naukowy. Tak, chcesz, żeby to była prawda. Chcesz, żeby te 90% wygrało, ale poznanie prawdy jest ważniejsze niż ogłoszenie zwycięzcy.

Prawda > „wygrywanie”

Twoim zadaniem jako optymalizatora jest dociekanie prawdy. Musisz odłożyć swoje ego na bok. Przywiązanie do swojej hipotezy lub projektu jest rzeczą ludzką, i może zaboleć, gdy twoje najlepsze hipotezy nie różnią się znacząco. Byłem tam, zrobiłem to. Prawda przede wszystkim albo wszystko traci sens.

Planowanie testów A/B: jak zbudować działający proces

Autor: Jaan Matti-Saul

Silny plan testów A/B pozwoli Ci zwiększyć przychody i zdobyć cenne informacje o Twoich klientach.

  • To pole służy do celów walidacji i należy je pozostawić bez zmian.

Oto typowy scenariusz, nawet dla firm, które dużo testują: przeprowadzają jeden test za drugim przez 12 miesięcy, ogłaszają grupę zwycięzców i wprowadzają ich. Rok później współczynnik konwersji ich witryny jest taki sam, jak na początku. Zdarza się cały czas.

Dlaczego? Ponieważ testy są wywoływane zbyt wcześnie i/lub rozmiary próbek są zbyt małe. Oto dłuższe wyjaśnienie, kiedy należy przerwać test A/B, ale w skrócie musisz spełnić trzy kryteria, zanim będziesz mógł zadeklarować wykonanie testu:

  1. Wystarczająca wielkość próbki. Mamy wystarczająco dużo danych, żeby zadzwonić. Musisz wstępnie obliczyć wielkość próbki za pomocą kalkulatora wielkości próbki testowej A/B.
  2. Wiele cykli sprzedaży (24 tygodnie). Jeśli przerwiesz test w ciągu kilku dni (nawet po osiągnięciu wymaganej wielkości próbki), wybierasz wygodną próbkę, a nie próbkę reprezentatywną .
  3. Istotność statystyczna co najmniej 95% (wartość p 0,05 lub mniej) . Uwaga: Wartość p nie mówi nam prawdopodobieństwa, że ​​B jest lepsze niż A. Dowiedz się wszystkiego o wartościach p tutaj.

Oto stary przykład ilustrujący mój punkt widzenia. Dwa dni po rozpoczęciu testu były to wyniki:

zmienność działa słabo przy bardzo małej wielkości próbki.

Zbudowana przeze mnie odmiana mocno traciła — o ponad 89% (bez nakładania się marginesu błędu). Niektóre narzędzia już to nazwały i stwierdziły, że istotność statystyczna wynosi 100%. Oprogramowanie, którego użyłem, powiedziało, że Wariant 1 miał 0% szans na pokonanie kontroli. Mój klient był gotowy, aby to zakończyć.

Jednakże, ponieważ wielkość próby była zbyt mała (nieco ponad 100 wizyt na odmianę), nalegałem. Tak wyglądały wyniki 10 dni później:

odmiana testowa wygrywa po trafieniu na wielkość próbki.

Zgadza się, odmiana, która miała „0%” szansy na pokonanie kontroli, teraz wygrywała z 95% pewnością.

Uważaj na narzędzia do testowania A/B, które „wywołaj to wcześnie”. Zawsze dokładnie sprawdzaj liczby. Najgorsze, co możesz zrobić, to mieć zaufanie do niedokładnych danych. Stracisz pieniądze i możesz zmarnować miesiące pracy.

Jak duży rozmiar próbki potrzebujesz?

Nie chcesz wyciągać wniosków na podstawie małej wielkości próby. Dobrym planem jest dążenie do co najmniej 350-400 konwersji na odmianę .

W pewnych okolicznościach może być mniej — na przykład, gdy rozbieżność między kontrolą a leczeniem jest bardzo duża — ale magiczne liczby nie istnieją. Nie utknąć z liczbą. To jest nauka, nie magia.

Musisz obliczyć niezbędną wielkość próbki z wyprzedzeniem za pomocą przykładowych kalkulatory wielkości lubię tego lub podobnych.

Co się stanie, jeśli zaufanie jest nadal poniżej 95%?

Po osiągnięciu wymaganej wielkości próbki i przetestowaniu pełnego cyklu biznesowego (lub dwóch) oznacza to, że nie ma znaczącej różnicy między odmianami.

Sprawdź wyniki testu w poszczególnych segmentach, aby sprawdzić, czy w danym segmencie osiągnięto istotność. Wspaniałe statystyki leżą w segmentach, ale potrzebujesz też odpowiedniej wielkości próbki dla każdego segmentu.

W każdym razie musisz poprawić swoją hipotezę i przeprowadzić nowy test.

2. Nieprzeprowadzanie testów przez całe tygodnie

Załóżmy, że masz witrynę o dużym ruchu. Osiągasz 98% pewności i 350 konwersji na odmianę w ciągu trzech dni. Czy test został wykonany? Nie.

Musimy wykluczyć sezonowość i testować przez całe tygodnie. Rozpocząłeś test w poniedziałek? Następnie musisz to zakończyć również w poniedziałek. Dlaczego? Ponieważ współczynnik konwersji może się znacznie różnić w zależności od dnia tygodnia.

Jeśli nie testujesz za każdym razem przez cały tydzień, zaburzasz swoje wyniki. Wygeneruj w witrynie raport „konwersje dziennie”, aby zobaczyć, jak duże są wahania.

Oto przykład:

przykład współczynników konwersji według dnia tygodnia.

Co tu widzisz? Czwartki zarabiają 2X więcej niż soboty i niedziele, a współczynnik konwersji w czwartki jest prawie 2X lepszy niż w sobotę.

Gdybyśmy nie testowali przez całe tygodnie, wyniki byłyby niedokładne. Musisz przeprowadzać testy przez siedem dni na raz. Jeśli zaufanie nie zostanie osiągnięte w ciągu pierwszych siedmiu dni, uruchom go przez kolejne siedem dni. Jeśli nie zostanie to osiągnięte w ciągu 14 dni, uruchom go do dnia 21.

Oczywiście i tak musisz przeprowadzać testy na minimum dwa tygodnie. (Moje osobiste minimum to cztery tygodnie, ponieważ dwa tygodnie są często niedokładne). Następnie zastosuj zasadę siedmiu dni, jeśli musisz ją przedłużyć.

Jedynym momentem, w którym możesz złamać tę zasadę, jest sytuacja, gdy Twoje dane historyczne z pewnością mówią, że współczynnik konwersji jest taki sam każdego dnia. Ale nawet wtedy lepiej jest testować cały tydzień na raz.

Zwróć uwagę na czynniki zewnętrzne

Czy to Boże Narodzenie? Twój zwycięski test podczas wakacji może nie być zwycięzcą w styczniu. Jeśli masz testy, które wygrywają w sezonach zakupowych, takich jak Boże Narodzenie, zdecydowanie chcesz przeprowadzić testy powtórne po zakończeniu sezonu zakupowego.

Czy dużo reklamujesz w telewizji lub prowadzisz inne masowe kampanie? To również może wypaczyć twoje wyniki. Musisz być świadomy tego, co robi Twoja firma. Czynniki zewnętrzne zdecydowanie wpływają na wyniki testu. W razie wątpliwości przeprowadź test uzupełniający.

3. Wykonywanie testów A/B bez wystarczającego ruchu (lub konwersji)

Jeśli uzyskasz jedną lub dwie transakcje miesięcznie i przeprowadzisz test, w którym B konwertuje o 15% lepiej niż A, skąd możesz wiedzieć? Nic się nie zmienia!

Uwielbiam testy podziału A/B tak samo jak każdy inny facet, ale nie jest to coś, czego powinieneś używać do optymalizacji konwersji, jeśli masz bardzo mały ruch. Powodem jest to, że nawet jeśli wersja B jest znacznie lepsza, osiągnięcie istotności statystycznej może zająć miesiące.

Jeśli Twój test trwał 5 miesięcy – i nie był zwycięzcą – zmarnowałeś dużo pieniędzy. Zamiast tego powinieneś wybrać masowe, radykalne zmiany. Po prostu przełącz się na B. Bez testowania, po prostu przełącz się i obserwuj swoje konto bankowe.

Pomysł polega na tym, że idziesz na masywne windy, takie jak 50% lub 100%. Powinieneś od razu zauważyć taki wpływ na Twoje konto bankowe (lub liczbę przychodzących leadów). Czas to pieniądz. Nie marnuj czasu na czekanie na wynik testu, który potrwa miesiące.

4. Nieopieranie testów na hipotezie

Lubię spaghetti. Ale testowanie spaghetti — rzucanie nim o ścianę, żeby sprawdzić, czy się przyklei? Nie tak bardzo. Testowanie przypadkowych pomysłów wiąże się z ogromnym kosztem. Marnujesz cenny czas i ruch. Nigdy tego nie rób. Musisz mieć hipotezę. Jaka jest hipoteza?

Hipoteza jest propozycją twierdzenia sformułowaną na podstawie ograniczonych dowodów, które można udowodnić lub obalić, i jest wykorzystywana jako punkt wyjścia do dalszych badań.

To również nie powinno być „hipotezą spaghetti” (tj. tworzeniem losowych stwierdzeń). Potrzebujesz odpowiednich badań konwersji, aby odkryć, gdzie leżą problemy, a następnie postawić hipotezę, aby je rozwiązać.

Jeśli testujesz A vs. B bez jasnej hipotezy, a B wygrywa o 15%, to fajnie, ale czego się nauczyłeś ? Nic. Chcemy poznać naszą publiczność. To pomaga nam ulepszać naszą teorię klienta i opracowywać jeszcze lepsze testy.

5. Nie wysyłanie danych testowych do Google Analytics

Średnie kłamią. Zawsze pamiętaj że. Jeśli A pokonuje B o 10%, to nie jest pełny obraz. Musisz posegmentować dane testowe. Wiele narzędzi testowych ma wbudowaną segmentację wyników, ale nadal nie dorównuje ona temu, co możesz zrobić w Google Analytics.

Dzięki niestandardowym wymiarom lub zdarzeniom możesz wysyłać dane testowe do Google Analytics i segmentować je w dowolny sposób. Możesz na nim uruchomić zaawansowane segmenty i niestandardowe raporty. Jest to bardzo przydatne i tak naprawdę uczysz się z testów A/B (w tym testów przegrywania i bez różnicy).

Konkluzja: zawsze wysyłaj dane testowe do Google Analytics. I segmentuj bzdury z wyników. Oto post, jak to zrobić.

6. Marnowanie czasu i ruchu na głupie testy

Więc testujesz kolory, co? Zatrzymać.

Nie ma najlepszego koloru. Zawsze chodzi o hierarchię wizualną. Jasne, możesz znaleźć testy online, w których ktoś znalazł zyski poprzez testowanie kolorów, ale wszystkie są oczywiste. Nie trać czasu na testowanie bez myślenia; po prostu zaimplementuj.

Nie masz wystarczającego ruchu, aby wszystko przetestować . Nikt tego nie robi. Wykorzystaj ruch na treści o dużym wpływie. Testuj hipotezy oparte na danych.

7. Rezygnacja po nieudanym pierwszym teście

Skonfigurowałeś test i nie udało się go podnieść. No cóż. Spróbujmy uruchomić testy na innej stronie?

Nie tak szybko! Większość pierwszych testów kończy się niepowodzeniem. To prawda. Wiem, że jesteś niecierpliwy, ja też, ale prawda jest taka, że ​​jest to testowanie iteracyjne. Przeprowadzasz test, uczysz się z niego i ulepszasz swoją teorię i hipotezy klienta. Przeprowadź test uzupełniający, ucz się z niego i popraw swoje hipotezy. Uruchom test uzupełniający i tak dalej.

Oto studium przypadku, w którym sześć testów (na tej samej stronie) pozwoliło uzyskać efekt, z którego byliśmy zadowoleni. Tak wygląda testowanie w prawdziwym życiu. Osoby, które zatwierdzają budżety testowe — Twoi szefowie, Twoi klienci — muszą o tym wiedzieć.

Jeśli oczekuje się, że pierwszy test wybije go z boiska, pieniądze zostaną zmarnowane, a ludzie zostaną zwolnieni. Nie musi tak być. Zamiast tego może to być dużo pieniędzy dla wszystkich. Po prostu uruchom testy iteracyjne. Tam są pieniądze.

8. Niezrozumienie fałszywych alarmów

Znaczenie statystyczne nie jest jedyną rzeczą, na którą należy zwrócić uwagę. Musisz także zrozumieć fałszywe alarmy. Niecierpliwi testerzy chcą pominąć testy A/B i przejść do testów A/B/C/D/E/F/G/H. Tak, teraz rozmawiamy!

Dlaczego na tym poprzestać? Google przetestowało 41 odcieni niebieskiego! Ale to nie jest dobry pomysł. Im więcej odmian przetestujesz, tym większa szansa na fałszywie pozytywny wynik. W przypadku 41 odcieni niebieskiego, nawet przy 95% poziomie ufności, szansa na fałszywie pozytywny wynik wynosi 88%.

Obejrzyj ten film. Nauczysz się kilku rzeczy:

Główny wniosek: nie testuj zbyt wielu odmian na raz. Tak czy inaczej, lepiej wykonać proste testy A/B. Szybciej uzyskasz wyniki i szybciej się nauczysz — szybciej poprawiając swoją hipotezę.

9. Uruchamianie wielu testów w tym samym czasie na nakładającym się ruchu

Znalazłeś sposób na pójście na skróty, przeprowadzając wiele testów w tym samym czasie: jeden na stronie produktu, jeden na stronie koszyka, jeden na stronie głównej (podczas pomiaru tego samego celu). Oszczędza czas, prawda?

Może to zniekształcić wyniki, jeśli nie będziesz ostrożny. Prawdopodobnie jest w porządku, chyba że:

  • Podejrzewasz silne interakcje między testami.
  • Między testami występuje duże nakładanie się ruchu.

Sprawy stają się trudniejsze, jeśli prawdopodobne jest, że interakcje i ruch się nakładają.

Jeśli chcesz przetestować jednocześnie nową wersję kilku układów w tym samym przepływie — na przykład przeprowadzając testy na wszystkich trzech etapach realizacji transakcji — lepiej byłoby użyć wielostronicowych eksperymentów lub testów na wielu odmianach w celu prawidłowego pomiaru interakcji i wyników atrybutów .

Jeśli zdecydujesz się przeprowadzić testy A/B z nakładającym się ruchem, pamiętaj, że ruch zawsze powinien być dzielony równomiernie. Jeśli testujesz stronę produktu A i B oraz stronę płatności C i D, upewnij się, że ruch z B jest podzielony w stosunku 50/50 między C i D (nie powiedzmy 25/75).

10. Ignorowanie małych zysków

Twoje leczenie pobiło kontrolę o 4%. „Bhh, to o wiele za mały zysk! Nawet nie zawracam sobie głowy jego wdrażaniem”, słyszałem, jak mówili ludzie.

To jest ta rzecz. Jeśli Twoja witryna jest całkiem dobra, nie będziesz przez cały czas otrzymywać ogromnych wzrostów. W rzeczywistości masywne windy są bardzo rzadkie. Jeśli Twoja witryna jest beznadziejna, możesz łatwo przeprowadzić testy, które cały czas uzyskują 50% wzrost. Ale nawet to się skończy.

Większość zwycięskich testów przyniesie niewielkie zyski – 1%, 5%, 8%. Czasami wzrost o 1% może oznaczać miliony przychodów. Wszystko zależy od liczb bezwzględnych, z którymi mamy do czynienia. Ale najważniejsze jest to, że musisz spojrzeć na to z perspektywy 12 miesięcy.

Jeden test to tylko jeden test. Przeprowadzisz wiele, wiele testów. Jeśli zwiększysz współczynnik konwersji o 5% co miesiąc, będzie to wzrost o 80% w ciągu 12 miesięcy. To są odsetki składane. Tak właśnie działa matematyka. Osiemdziesiąt procent to dużo.

Więc otrzymuj te małe wygrane. W końcu wszystko się zsumuje.

11. Nieprzeprowadzanie testów przez cały czas

Każdy dzień bez testu to dzień zmarnowany. Testowanie to uczenie się — poznawanie odbiorców, dowiadywanie się, co działa i dlaczego. Wszystkie informacje, które uzyskasz, mogą zostać wykorzystane w całym marketingu (np. w reklamach PPC).

Nie wiesz, co działa, dopóki tego nie przetestujesz. Testy wymagają czasu i ruchu (dużo). Posiadanie jednego testu przez cały czas nie oznacza, że ​​powinieneś przeprowadzać testy śmieci. Absolutnie nie. Nadal potrzebujesz odpowiednich badań, dobrej hipotezy i tak dalej.

Ale nigdy nie przestawaj optymalizować.

12. Brak świadomości zagrożeń dla ważności validity

Tylko dlatego, że masz przyzwoitą wielkość próbki, poziom ufności i czas trwania testu, nie oznacza to, że wyniki testu były prawidłowe. Istnieje kilka zagrożeń dla ważności twojego testu.

Efekt oprzyrządowania

To jest najczęstszy problem. Dzieje się tak, gdy narzędzia testowe (lub instrumenty) powodują nieprawidłowe dane w teście. Często jest to spowodowane niewłaściwą implementacją kodu na stronie, co przekrzywi wszystkie wyniki

Naprawdę musisz na to uważać. Kiedy konfigurujesz test, obserwuj każdy rejestrowany cel i metrykę. Jeśli metryka nie przesyła danych (np. dane kliknięcia „dodaj do koszyka”), zatrzymaj test, znajdź i napraw problem i zacznij od nowa, resetując dane.

Efekt historii

W świecie zewnętrznym dzieje się coś, co powoduje błędne dane w teście. Może to być skandal dotyczący Twojej firmy lub jednego z jej kierowników. Może to być specjalny okres świąteczny (Boże Narodzenie, Dzień Matki itp.). Być może historia medialna uprzedza ludzi przeciwko wariacji w twoim teście. Cokolwiek. Zwracaj uwagę na to, co dzieje się na świecie.

Efekt selekcji

Dzieje się tak, gdy błędnie założymy, że część ruchu reprezentuje całość ruchu.

Na przykład, wysyłasz ruch promocyjny ze swojej listy e-mailowej na stronę, na której przeprowadzasz test. Osoby, które subskrybują Twoją listę, lubią Cię o wiele bardziej niż przeciętny użytkownik. Ale teraz optymalizujesz stronę, aby działała z Twoim lojalnym ruchem, myśląc, że reprezentuje on całkowity ruch. Rzadko tak się dzieje!

Efekt zepsutego kodu

Tworzysz zabieg i wprowadzasz go na żywo. Jednak nie wygrywa ani nie daje żadnej różnicy. Nie wiesz, że Twoje leczenie wyświetla się słabo w niektórych przeglądarkach i/lub urządzeniach.

Za każdym razem, gdy tworzysz nowe leczenie lub dwa, upewnij się, że przeprowadzasz testy kontroli jakości, aby upewnić się, że wyświetlają się poprawnie we wszystkich przeglądarkach i urządzeniach. W przeciwnym razie oceniasz swoją odmianę na podstawie błędnych danych.

Wniosek

Dostępnych jest wiele wspaniałych narzędzi, które ułatwiają testowanie, ale nie myślą za Ciebie. Statystyki mogą nie być twoim ulubionym przedmiotem na studiach, ale czas odświeżyć.

Ucz się na tych 12 błędach. Jeśli możesz ich uniknąć, zaczniesz robić prawdziwy postęp w testowaniu.

Wyróżniony kredyt na zdjęcie