Moc statystyczna: co musisz wiedzieć o testach A/B
Opublikowany: 2021-07-22Wiele lat temu, kiedy po raz pierwszy zacząłem przeprowadzać split-testy, pomyślałem, że warto przeprowadzić każdy test. Nie miało znaczenia, czy zmieniał kolor przycisku, czy nagłówek — chciałem przeprowadzić ten test.
Moje entuzjastyczne, ale błędne przekonanie było takie, że po prostu muszę znaleźć aspekty do optymalizacji, skonfigurować narzędzie i rozpocząć test. Po tym pomyślałem, że to tylko kwestia oczekiwania na niesławne 95% istotności statystycznej.
Myliłem się.
Po wdrożeniu „istotnych statystycznie” zmian nie odnotowałem wzrostu sprzedaży, ponieważ nie było prawdziwego wzrostu — „to było urojone”. Wiele z tych testów było z góry skazane na niepowodzenie. Popełniałem typowe błędy statystyczne, takie jak nie testowanie pełnego cyklu koniunkturalnego lub zaniedbywanie uwzględniania wielkości efektu.
Nie wziąłem również pod uwagę innej możliwości: że test „niedostateczny” może spowodować, że przegapię zmiany, które wygenerowałyby „prawdziwy wzrost”.
Zrozumienie mocy statystycznej lub „wrażliwości” testu jest istotną częścią planowania przed testem i pomoże wprowadzić w witrynie zmiany generujące więcej przychodów.
Czym jest moc statystyczna?
Moc statystyczna to prawdopodobieństwo zaobserwowania statystycznie istotnego wyniku na poziomie alfa (α), jeśli występuje rzeczywisty efekt o określonej wielkości. To Twoja zdolność do wykrycia różnicy między odmianami testu, gdy różnica rzeczywiście istnieje .
Siła statystyczna jest ukoronowaniem ciężkiej pracy, którą włożyłeś w badania nad konwersją i odpowiednio uszeregowane pod względem priorytetów leczenie(e) w stosunku do kontroli. Właśnie dlatego moc jest tak ważna — zwiększa twoją zdolność do znajdowania i mierzenia różnic, gdy faktycznie istnieją.
Moc statystyczna (1 – β) ma odwrotną zależność z błędami typu II (β). Jest to również sposób kontrolowania możliwości wystąpienia wyników fałszywie negatywnych. Chcemy obniżyć ryzyko błędów typu I do akceptowalnego poziomu, zachowując jednocześnie wystarczającą moc wykrywania ulepszeń, jeśli metody testowe są rzeczywiście lepsze.
Znalezienie właściwej równowagi, jak szczegółowo opisano później, jest zarówno sztuką, jak i nauką. Jeśli któraś z Twoich odmian jest lepsza, prawidłowo zasilany test daje prawdopodobieństwo wykrycia poprawy. Jeśli twój test jest słabszy, istnieje niedopuszczalnie wysokie ryzyko, że nie uda ci się odrzucić fałszywej wartości null.
Zanim przejdziemy do składników mocy statystycznej, przyjrzyjmy się błędom, które próbujemy uwzględnić.
Błędy typu I i typu II
Błędy typu I
Błąd typu I lub fałszywie pozytywny odrzuca hipotezę zerową, która jest rzeczywiście prawdziwa. Twój test mierzy różnicę między odmianami, która w rzeczywistości nie istnieje. Obserwowana różnica – że leczenie testowe przewyższało kontrolę – jest iluzoryczna i wynika z przypadku lub błędu.
Prawdopodobieństwo błędu typu I, oznaczane grecką literą alfa (α), to poziom istotności testu A/B. Jeśli testujesz z 95% poziomem ufności, oznacza to, że masz 5% prawdopodobieństwo błędu typu I (1,0 – 0,95 = 0,05).
Jeśli 5% jest zbyt wysokie, możesz zmniejszyć prawdopodobieństwo fałszywego wyniku poprzez zwiększenie poziomu ufności z 95% do 99% lub nawet więcej. To z kolei obniżyłoby twoją alfę z 5% do 1%. Ale to zmniejszenie prawdopodobieństwa fałszywego trafienia ma swoją cenę.
Zwiększając poziom ufności, zwiększa się ryzyko wystąpienia wyników fałszywie negatywnych (błąd typu II). Wynika to z odwrotnej zależności między alfa i beta – obniżenie jednego zwiększa drugie.
Obniżenie alfa (np. z 5% do 1%) zmniejsza siłę statystyczną testu. Gdy obniżasz alfa, obszar krytyczny staje się mniejszy, a mniejszy obszar krytyczny oznacza mniejsze prawdopodobieństwo odrzucenia wartości zerowej – stąd niższy poziom mocy. I odwrotnie, jeśli potrzebujesz więcej mocy, jedną z opcji jest zwiększenie alfy (np. z 5% do 10%).
Błędy typu II
Błąd typu II lub fałszywie ujemny , to brak odrzucenia hipotezy zerowej, która w rzeczywistości jest fałszywa. Błąd typu II pojawia się, gdy twój test nie wykryje znaczącej poprawy w twojej odmianie, która w rzeczywistości istnieje.
Beta (β) to prawdopodobieństwo popełnienia błędu typu II i ma odwrotną zależność od mocy statystycznej (1 – β). Jeśli 20% to ryzyko popełnienia błędu typu II (β), to twój poziom mocy wynosi 80% (1,0 – 0,2 = 0,8). Możesz obniżyć ryzyko wystąpienia fałszywie negatywnego wyniku do 10% lub 5% — dla poziomów mocy odpowiednio 90% lub 95%.
Błędy typu II są kontrolowane przez wybrany poziom mocy: im wyższy poziom mocy, tym mniejsze prawdopodobieństwo wystąpienia błędu typu II. Ponieważ alfa i beta mają odwrotną zależność, ekstremalnie niskie wartości alfa (np. 0,001%) będą, jeśli wszystko inne będzie równe, znacznie zwiększy ryzyko błędu typu II.
Moc statystyczna jest działaniem równoważącym z kompromisami dla każdego testu. Jak mówi Paul D. Ellis: „Dobrze przemyślany projekt badawczy to taki, który ocenia względne ryzyko popełnienia każdego rodzaju błędu, a następnie zapewnia odpowiednią równowagę między nimi”.
Jeśli chodzi o moc statystyczną, jakie zmienne wpływają na tę równowagę? Spójrzmy.
Zmienne wpływające na moc statystyczną
Rozważając każdą zmienną, która wpływa na moc statystyczną, pamiętaj: Podstawowym celem jest kontrolowanie wskaźników błędów. Istnieją cztery dźwignie, które możesz pociągnąć:
- Wielkość próbki
- Minimalny efekt zainteresowania (MEI lub minimalny wykrywalny efekt)
- Poziom istotności (α)
- Pożądany poziom mocy (domniemany poziom błędów typu II)
1. Wielkość próbki
800-funtowy goryl o mocy statystycznej to wielkość próby. Możesz zrobić wiele rzeczy dobrze, mając wystarczająco dużą próbkę. Sztuczka polega na obliczeniu wielkości próbki, która może odpowiednio zasilać test, ale nie na tyle, aby test był dłuższy niż to konieczne. (Dłuższy test kosztuje więcej i spowalnia tempo testowania).
Potrzebujesz wystarczającej liczby użytkowników do każdej odmiany, a także do każdego segmentu, który chcesz analizować. Planowanie wstępnego testu dla wielkości próbki pomaga uniknąć testów o zbyt małej mocy; w przeciwnym razie możesz nie zdawać sobie sprawy, że używasz zbyt wielu wariantów lub segmentów, dopóki nie będzie za późno, co spowoduje, że po testach pozostaniesz z grupami z niską liczbą odwiedzających.
Oczekuj statystycznie istotnego wyniku w rozsądnym czasie — zwykle co najmniej jednego pełnego tygodnia lub cyklu biznesowego. Ogólną wytyczną jest przeprowadzanie testów przez co najmniej dwa tygodnie, ale nie dłużej niż cztery, aby uniknąć problemów związanych z zanieczyszczeniem próbki i usunięciem plików cookie.
Ustalenie minimalnej wielkości próby i wstępnie ustalonego horyzontu czasowego pozwala uniknąć powszechnego błędu polegającego na prostym przeprowadzaniu testu, dopóki nie wygeneruje statystycznie istotnej różnicy, a następnie zatrzymaniu go (podgląd).
2. Minimalny efekt odsetek (MEI)
Minimalny efekt zainteresowania (MEI) to wielkość (lub rozmiar) różnicy w wynikach, które chcesz wykryć.
Mniejsze różnice są trudniejsze do wykrycia i wymagają większej próbki, aby zachować tę samą moc; efekty o większej sile można niezawodnie wykryć przy mniejszych rozmiarach próbek. Jednak, jak zauważa Georgi Georgiev, te duże „ulepszenia” z małych próbek mogą być zawodne:

Problem polega na tym, że zwykle nie było odpowiedniej reguły zatrzymania ani ustalonej wielkości próby, dlatego podawane nominalne wartości p i przedział ufności (CI) są bez znaczenia. Można powiedzieć, że wyniki były w pewnym sensie „wybrane”.
Gdyby istniała prawidłowa reguła zatrzymania lub ustalona wielkość próby, wówczas 500% zaobserwowana poprawa w porównaniu z bardzo małą próbą prawdopodobnie przyniesie 95% CI powiedzmy od +5% do +995%: mało pouczające.
Świetnym sposobem na zobrazowanie związku między mocą a wielkością efektu jest ta ilustracja autorstwa Georgieva, gdzie porównuje moc do sieci rybackiej:
3. Istotność statystyczna
Jak wyjaśnił Georgiev:
Zaobserwowany wynik testu jest uważany za statystycznie istotny, jeśli jest bardzo mało prawdopodobne, abyśmy zaobserwowali taki wynik, zakładając, że hipoteza zerowa jest prawdziwa.
To pozwala nam następnie rozumować w inny sposób i powiedzieć, że mamy dowody przeciwko hipotezie zerowej w zakresie, w jakim taki skrajny wynik lub bardziej skrajny wynik nie byłby obserwowany, gdyby zerowa prawda (wartość p).
Definicja ta jest często sprowadzana do prostszej interpretacji: jeśli Twój test podziału dla dwóch stron docelowych ma 95% ufność na korzyść odmiany, istnieje tylko 5% szansy, że zaobserwowana poprawa była wynikiem przypadku — lub 95% prawdopodobieństwa, że różnica nie wynika z przypadku losowego.
„Wielu, przyjmując ścisłe znaczenie „zaobserwowanej poprawy spowodowanej przypadkowym przypadkiem”, pogardzałoby takim stwierdzeniem” – twierdził Georgiev. „Musimy pamiętać, że to, co pozwala nam oszacować te prawdopodobieństwa, to założenie, że wartość zero jest prawdziwa”.
Pięć procent to powszechny początkowy poziom istotności w testowaniu online i, jak wspomniano wcześniej, jest to prawdopodobieństwo popełnienia błędu typu I. Użycie w teście 5% alfa oznacza, że zgadzasz się przyjąć 5% prawdopodobieństwo, że niepoprawnie odrzuciłeś hipotezę zerową.
Jeśli obniżysz alfę z 5% do 1%, jednocześnie zwiększasz prawdopodobieństwo popełnienia błędu typu II, zakładając, że wszystko inne jest równe. Zwiększenie prawdopodobieństwa błędu typu II zmniejsza moc twojego testu.
4. Pożądany poziom mocy
Z 80% mocy, masz 20% prawdopodobieństwo, że nie są w stanie wykryć rzeczywistą różnicę dla danej wielkości zainteresowania. Jeśli 20% jest zbyt ryzykowne, możesz obniżyć to prawdopodobieństwo do 10%, 5% lub nawet 1%, co zwiększy twoją moc statystyczną odpowiednio do 90%, 95% lub 99%.
Zanim pomyślisz, że rozwiążesz wszystkie swoje problemy, przeprowadzając testy z mocą 95% lub 99%, zrozum, że każdy wzrost mocy wymaga odpowiedniego zwiększenia wielkości próbki i czasu potrzebnego na wykonanie testu (czas, który mógłbyś marnować przeprowadzanie testu na przegraną — i utratę sprzedaży — tylko o dodatkowy punkt procentowy lub dwa prawdopodobieństwa statystycznego).
Więc ile mocy naprawdę potrzebujesz? Typowym punktem wyjścia dla akceptowalnego ryzyka fałszywych wyników negatywnych w optymalizacji konwersji jest 20%, co daje poziom mocy 80%.
Nie ma nic ostatecznego w 80% poziomie mocy, ale statystyk Jacob Cohen sugeruje, że 80% reprezentuje rozsądną równowagę między ryzykiem alfa i beta. Innymi słowy, według Ellisa „w badaniach nie powinno być więcej niż 20% prawdopodobieństwa popełnienia błędu typu II”.
Ostatecznie chodzi o:
- Ile ryzyka jesteś gotów podjąć, jeśli chodzi o przegapienie prawdziwej poprawy;
- Minimalna wielkość próbki niezbędna dla każdej odmiany, aby osiągnąć pożądaną moc.
Jak obliczyć moc statystyczną dla twojego testu?
Korzystając z kalkulatora wielkości próbki lub G*power, możesz wprowadzić swoje wartości, aby dowiedzieć się, co jest wymagane do przeprowadzenia testu o odpowiedniej mocy. Jeśli znasz trzy dane wejściowe, możesz obliczyć czwarte.
W tym przypadku, korzystając z G*Power, doszliśmy do wniosku, że potrzebujemy próbki o wielkości 681 użytkowników dla każdej odmiany . Zostało to obliczone przy użyciu naszych danych wejściowych 80% mocy i 5% alfa (95% istotności). Wiedzieliśmy, że nasza kontrola ma 14% współczynnik konwersji i spodziewaliśmy się, że nasz wariant osiągnie 19%:
W ten sam sposób, gdybyśmy znali wielkość próbki dla każdej odmiany, wartość alfa i pożądany poziom mocy (powiedzmy 80%), moglibyśmy znaleźć MEI niezbędny do osiągnięcia tej mocy – w tym przypadku 19%:
Co zrobić, jeśli nie możesz zwiększyć wielkości próbki?
Nadejdzie dzień, kiedy będziesz potrzebować większej mocy, ale zwiększenie wielkości próbki nie wchodzi w grę. Może to być spowodowane małym segmentem w ramach testu, który obecnie prowadzisz, lub małym ruchem na stronie.
Załóżmy, że podłączasz swoje parametry do kalkulatora testów A/B i wymaga to wielkości próbki większej niż 8000:
Jeśli nie możesz osiągnąć tego minimum – lub zajęłoby to miesiące – jedną z opcji jest zwiększenie MEI. W tym przykładzie zwiększenie MEI z 10% do 25% zmniejsza wielkość próbki do 1356 na wariant:
Ale jak często będziesz w stanie osiągnąć 25% MEI? A ile wartości będziesz tęsknić, szukając tylko ogromnego wpływu? Lepszą opcją jest zwykle obniżenie poziomu ufności do 90% — o ile czujesz się komfortowo z 10% prawdopodobieństwem błędu typu I:
Więc od czego zaczynasz? Georgiev przyznał, że zbyt często analitycy CRO „zaczynają od wielkości próbki (test musi być wykonany w <pół-dowolnej liczbie> tygodni), a następnie losowo przesuwają dźwignie, aż wynik będzie pasował”.
Osiągnięcie właściwej równowagi:
- Wymaga przemyślanego procesu regulacji dźwigni;
- Korzyści z pomiaru potencjalnej zmiany zwrotu z inwestycji w przypadku każdej zmiany zmiennych testowych.
Wniosek
Moc statystyczna pomaga kontrolować błędy, daje większą pewność wyników testów i znacznie zwiększa szanse wykrycia praktycznie znaczących efektów.
Skorzystaj z mocy statystycznej, postępując zgodnie z następującymi sugestiami:
- Przeprowadzaj testy przez dwa do czterech tygodni.
- Użyj kalkulatora testowego (lub G*Power), aby zapewnić prawidłowe zasilanie testów.
- Spełnij wymagania dotyczące minimalnej wielkości próbki.
- Jeśli to konieczne, przetestuj pod kątem większych zmian.
- Używaj istotności statystycznej dopiero po spełnieniu wymagań dotyczących minimalnej wielkości próby.
- Zaplanuj odpowiednią moc dla wszystkich odmian i segmentów post-testowych.