Her Zaman Gördüğüm 12 A/B Testi Hatası

Yayınlanan: 2021-07-22

A/B testi eğlencelidir. Çok sayıda kullanımı kolay araçla herkes yapabilir ve yapmalıdır. Ancak, sadece bir test ayarlamaktan daha fazlası var. Tonlarca şirket zamanını ve parasını boşa harcıyor.

İşte insanların tekrar tekrar yaptığını gördüğüm 12 A/B testi hatası.

  1. A/B testlerini erken çağırmak;
  2. Tam haftalar boyunca testler yapmamak;
  3. Yeterli trafik (veya dönüşüm) olmadan A/B testleri yapmak;
  4. Testleri bir hipoteze dayandırmamak;
  5. Google Analytics'e test verileri göndermemek;
  6. Aptal testlerle zaman ve trafik harcamak;
  7. İlk test başarısız olduktan sonra vazgeçmek;
  8. Yanlış pozitifleri anlayamamak;
  9. Çakışan trafikte aynı anda birden fazla test çalıştırma;
  10. Küçük kazanımları görmezden gelmek;
  11. Testleri her zaman çalıştırmamak;
  12. Geçerlilik tehditlerinin farkında olmamak.

Bu hataları yapmaktan suçlu musunuz? Öğrenmek için okumaya devam edin.

1. A/B testlerini erken çağırmak

İstatistiksel anlamlılık, A Sürümünün aslında B Sürümünden daha iyi olduğuna dair en iyi kanıttır—eğer örneklem boyutu yeterince büyükse. Yüzde elli istatistiksel anlamlılık yazı turadır. Testleri %50'de arıyorsan, mesleğini değiştirmelisin. Ve hayır, %75 istatistiksel güven de yeterince iyi değil.

Deneyimli herhangi bir test kullanıcısı, bir siteye canlı olarak gönderildikten ve daha fazla trafiğe maruz kaldıktan sonra, %80 güvenle "kazanan" bir varyasyonun kötü bir şekilde kaybedildiği birçok deneyime sahiptir.

%90 ne olacak? Bu oldukça iyi, değil mi? Hayır! Yeterince iyi değil. Bir bilim deneyi yapıyorsunuz. Evet, bunun doğru olmasını istiyorsun. %90'ın kazanmasını istiyorsunuz, ancak gerçeği elde etmek, kazananı ilan etmekten daha önemlidir.

Gerçek > “kazanmak”

Bir optimize edici olarak işiniz gerçeği bulmaktır. Egonuzu bir kenara bırakmalısınız. Hipotezinize veya tasarım tedavinize bağlanmak insan işidir ve en iyi hipotezleriniz önemli ölçüde farklı olmadığında zarar verebilir. Orada bulundum, yaptım. Her şeyden önce gerçek, yoksa her şey anlamını kaybeder.

A/B Test Planlaması: İşe Yarayan Bir Süreç Nasıl Oluşturulur

Jaan Matti-Saul tarafından

Güçlü bir A/B test planı, gelirinizi artırmanıza ve müşterileriniz hakkında değerli bilgiler edinmenize olanak tanır.

  • Bu alan doğrulama amaçlıdır ve değiştirilmeden bırakılmalıdır.

İşte çok fazla test yapan şirketler için bile ortak bir senaryo: 12 ay boyunca birbiri ardına test yapıyorlar, bir grup kazanan ilan ediyorlar ve bunları piyasaya sürüyorlar. Bir yıl sonra, sitelerinin dönüşüm oranı, başladıkları zamankiyle aynı. Her zaman oluyor.

Neden? Çünkü testler çok erken olarak adlandırılıyor ve/veya numune boyutları çok küçük. Burada bir A/B testinin ne zaman durdurulacağına ilişkin daha uzun bir açıklama var, ancak kısaca, bir testin yapıldığını ilan etmeden önce üç kriteri karşılamanız gerekiyor:

  1. Yeterli örneklem büyüklüğü. Arama yapmak için yeterli veriye sahibiz. Bir A/B testi numune boyutu hesaplayıcısı ile numune boyutunu önceden hesaplamanız gerekir.
  2. Çoklu satış döngüleri (24 hafta). Testi birkaç gün içinde durdurursanız (gerekli numune boyutuna ulaştıktan sonra bile), temsili bir numune değil, uygun bir numune alıyorsunuz demektir.
  3. En az %95 istatistiksel anlamlılık (p-değeri 0,05 veya daha az) . Not: p değeri bize B'nin A'dan daha iyi olma olasılığını söylemez. Burada p değerleri hakkında her şeyi öğrenin.

İşte amacımı açıklamak için eski bir örnek. Bir teste başladıktan iki gün sonra sonuçlar şunlardı:

varyasyon, çok küçük örneklem boyutuyla kötü performans gösterir.

Oluşturduğum varyasyon çok kötü bir şekilde kaybediyordu - %89'dan fazla (hata marjında ​​çakışma olmadan). Bazı araçlar zaten bunu arayacak ve istatistiksel anlamlılığın %100 olduğunu söyleyecektir. Kullandığım yazılım, Varyasyon 1'in kontrolü yenme şansının %0 olduğunu söyledi. Müvekkilim işi bırakmaya hazırdı.

Ancak, örnek boyutu çok küçük olduğundan (varyasyon başına 100 ziyaretin biraz üzerinde), ısrar ettim. 10 gün sonra sonuçlar şöyle görünüyordu:

test varyasyonu, numune boyutuna ulaştıktan sonra kazanan olur.

Bu doğru, kontrolü yenme şansı "%0" olan varyasyon şimdi %95 güvenle kazanıyordu.

"Erkenden çağıran" A/B test araçlarına dikkat edin. Rakamları her zaman iki kez kontrol edin. Yapabileceğiniz en kötü şey, yanlış verilere güvenmek. Para kaybedersiniz ve aylarca çalışmayı boşa harcayabilirsiniz.

Ne kadar büyük bir örneklem büyüklüğüne ihtiyacınız var?

Küçük bir örneklem büyüklüğüne dayalı sonuçlar çıkarmak istemezsiniz. İyi bir basketbol sahası, varyasyon başına en az 350–400 dönüşüm hedeflemektir.

Kontrol ve tedavi arasındaki farkın çok büyük olduğu durumlarda olduğu gibi belirli durumlarda daha az olabilir, ancak sihirli sayılar mevcut değildir. Bir numaraya takılıp kalmayın. Bu bilimdir, sihir değil.

Bunun gibi veya benzerleri gibi numune boyutu hesaplayıcılarını kullanarak gerekli numune boyutunu önceden hesaplamanız gerekir .

Ya güven hala %95'in altındaysa?

Gerekli örnek boyutuna ulaştığınızda ve tam bir iş döngüsü (veya iki) için test ettiğinizde, bu, varyasyonlar arasında önemli bir fark olmadığı anlamına gelir.

Belirli bir segmentte anlamlılığa ulaşılıp ulaşılmadığını görmek için segmentler arasındaki test sonuçlarını kontrol edin. Harika bilgiler segmentlerde bulunur, ancak her segment için yeterli örnek boyutuna da ihtiyacınız vardır .

Her durumda, hipotezinizi geliştirmeniz ve yeni bir test yapmanız gerekecek.

2. Tam haftalar boyunca test çalıştırmamak

Diyelim ki yüksek trafikli bir siteniz var. Üç gün içinde %98 güven ve varyasyon başına 350 dönüşüm elde edersiniz. Test yapıldı mı? Hayır!

Mevsimselliği ekarte etmemiz ve tam haftalar boyunca test etmemiz gerekiyor. Pazartesi günü teste mi başladın? O zaman onu da bir Pazartesi günü bitirmelisin. Neden? Çünkü dönüşüm oranınız haftanın gününe bağlı olarak büyük ölçüde değişebilir.

Bir seferde tam bir hafta test yapmazsanız, sonuçlarınızı çarpıtırsınız. Ne kadar dalgalanma olduğunu görmek için sitenizde bir "haftanın günü başına dönüşüm" raporu çalıştırın.

İşte bir örnek:

haftanın gününe göre dönüşüm oranları örneği.

Burada ne görüyorsunuz? Perşembe günleri cumartesi ve pazar günlerinden 2 kat daha fazla para kazanıyor ve perşembe günleri dönüşüm oranı cumartesi gününden neredeyse 2 kat daha iyi.

Tam haftalarca test yapmasaydık, sonuçlar yanlış olurdu. Testleri bir seferde yedi gün boyunca çalıştırmalısınız. İlk yedi gün içinde güven sağlanamazsa, yedi gün daha çalıştırın. 14 gün içinde elde edilemezse, 21. güne kadar çalıştırın.

Tabii yine de testlerinizi en az iki hafta çalıştırmanız gerekiyor. (Kişisel minimum sürem dört haftadır, çünkü iki hafta genellikle yanlıştır.) Ardından, uzatmanız gerekiyorsa yedi gün kuralını uygulayın.

Bu kuralı bozabileceğiniz tek zaman, geçmiş verilerinizin - güvenle - dönüşüm oranının her gün aynı olduğunu söylediği zamandır. Ancak, o zaman bile, her seferinde bir tam hafta test etmek daha iyidir.

Dış etkenlere dikkat

Noel mi? Tatillerde kazandığınız sınav Ocak ayında kazanan olmayabilir. Noel gibi alışveriş mevsimlerinde kazanan testleriniz varsa, kesinlikle alışveriş sezonu bittikten sonra tekrar testleri yapmak istersiniz.

Çok fazla TV reklamı mı yapıyorsunuz yoksa başka büyük kampanyalar mı yürütüyorsunuz? Bu da sonuçlarınızı çarpıtabilir. Şirketinizin ne yaptığının farkında olmalısınız. Dış faktörler kesinlikle test sonuçlarınızı etkiler. Şüphe duyduğunuzda, bir takip testi yapın.

3. Yeterli trafik (veya dönüşüm) olmadan A/B testleri yapmak

Ayda bir veya iki satış yaparsanız ve B'nin A'dan %15 daha iyi dönüşüm sağladığı bir test yaparsanız, bunu nasıl anlarsınız? Hiçbirşey değişmez!

A/B ayırma testini bir sonraki adam kadar seviyorum, ancak çok az trafiğiniz varsa, dönüşüm optimizasyonu için kullanmanız gereken bir şey değil. Bunun nedeni, B versiyonu çok daha iyi olsa bile, istatistiksel anlamlılığın elde edilmesinin aylar alabileceğidir.

Testinizin sonuçlanması 5 ay sürdüyse ve kazanan olmadıysa çok para harcamışsınız demektir. Bunun yerine, büyük, radikal değişikliklere gitmelisiniz. Sadece B'ye geçin. Test yok, sadece geçiş yapın ve banka hesabınızı izleyin.

Buradaki fikir, %50 veya %100 gibi büyük artışlar elde etmenizdir. Banka hesabınızdaki (veya gelen potansiyel müşteri sayısındaki) bu tür bir etkiyi hemen fark etmelisiniz. Vakit nakittir. Aylar sürecek bir test sonucunu bekleyerek boşa harcamayın.

4. Testleri bir hipoteze dayandırmamak

Spagetti severim. Ama spagetti testi - yapışıp yapışmadığını görmek için duvara fırlatmak mı? Çok değil. Rastgele fikirleri test etmek büyük bir masrafa neden olur. Değerli zamanınızı ve trafiğinizi boşa harcıyorsunuz. Bunu asla yapma. Bir hipotezinizin olması gerekir. Hipotez nedir?

Bir hipotez , kanıtlanabilen veya çürütülebilen ve daha ileri araştırmalar için bir başlangıç ​​noktası olarak kullanılan sınırlı kanıtlar temelinde yapılan önerilen bir ifadedir.

Bu da bir “spagetti hipotezi” olmamalıdır (yani rastgele bir ifade oluşturmak). Sorunların nerede yattığını keşfetmek için uygun dönüşüm araştırmasına ihtiyacınız var, ardından bunları aşmak için bir hipotez geliştirin.

Açık bir hipotez olmadan A'ya karşı B'yi test ederseniz ve B %15 kazanırsa, bu güzel, ama ne öğrendiniz ? Hiçbir şey değil. İzleyicilerimiz hakkında bilgi edinmek istiyoruz. Bu, müşteri teorimizi geliştirmemize ve daha da iyi testler bulmamıza yardımcı oluyor.

5. Test verilerini Google Analytics'e göndermemek

Ortalamalar yalan söylüyor. Herzaman bunu hatırla. A, B'yi %10 yenerse, resmin tamamı bu değildir. Test verilerini bölümlere ayırmanız gerekir. Birçok test aracında sonuçların yerleşik olarak segmentasyonu bulunur, ancak yine de Google Analytics'te yapabileceklerinizle eşleşmiyor.

Özel Boyutlar veya Etkinlikler ile test verilerinizi Google Analytics'e gönderebilir ve istediğiniz şekilde bölümlere ayırabilirsiniz. Üzerinde Gelişmiş Segmentler ve Özel Raporlar çalıştırabilirsiniz. Süper kullanışlıdır ve A/B testlerinden (kaybetme ve farksızlık testleri dahil) aslında bu şekilde öğrenirsiniz.

Alt satır: Test verilerinizi her zaman Google Analytics'e gönderin. Ve saçmalıkları sonuçlardan ayırın. İşte nasıl yapılacağına dair bir yazı.

6. Aptalca testlerle zaman ve trafik harcamak

Demek renkleri test ediyorsun, ha? Dur.

En iyi renk yoktur. Her zaman görsel hiyerarşi ile ilgilidir. Elbette, birisinin renkleri test ederek kazanç bulduğu testleri çevrimiçi olarak bulabilirsiniz, ancak hepsi beyinsizdir. Beyinsizleri test etmek için zaman kaybetmeyin; sadece uygula.

Her şeyi test etmek için yeterli trafiğiniz yok . Kimse yapmaz. Trafiğinizi yüksek etkili şeyler üzerinde kullanın. Veriye dayalı hipotezleri test edin.

7. İlk test başarısız olduktan sonra vazgeçmek

Bir test kurdunuz ve bir artış üretemedi. Oh iyi. Testleri başka bir sayfada çalıştırmayı deneyelim mi?

Çok hızlı değil! İlk testlerin çoğu başarısız olur. Bu doğru. Sabırsız olduğunu biliyorum, ben de öyle, ama gerçek şu ki, yinelemeli testler olduğu yerde. Bir test yaparsınız, ondan öğrenirsiniz ve müşteri teorinizi ve hipotezlerinizi geliştirirsiniz. Bir takip testi yapın, ondan öğrenin ve hipotezlerinizi geliştirin. Bir takip testi yapın, vb.

Burada, memnun olduğumuz bir artış elde etmek için altı testin (aynı sayfada) yapıldığı bir örnek olay incelemesi yer almaktadır. Gerçek hayattaki testler böyledir. Test bütçelerini onaylayan kişiler – patronlarınız, müşterileriniz – bunu bilmelidir.

Beklenti, ilk testin oyunu sahadan düşürmesi ise, para boşa gidecek ve insanlar kovulacak. Böyle olmak zorunda değil. Bunun yerine herkes için çok para olabilir. Sadece yinelemeli testler çalıştırın. Paranın olduğu yer orası.

8. Yanlış pozitifleri anlayamamak

İstatistiksel önem, dikkat edilmesi gereken tek şey değildir. Yanlış pozitifleri de anlamanız gerekir. Sabırsız test kullanıcıları A/B testini atlayıp A/B/C/D/E/F/G/H testine geçmek istiyor. Evet, şimdi konuşuyoruz!

Neden orada dursun? Google mavinin 41 tonunu test etti! Ama bu iyi bir fikir değil. Ne kadar çok varyasyonu test ederseniz, yanlış pozitif olma şansı o kadar yüksek olur. 41 mavi tonu durumunda, %95 güven düzeyinde bile yanlış pozitif olma olasılığı %88'dir.

Bu videoyu izle. Bir veya üç şey öğreneceksiniz:

Ana paket servis: Aynı anda çok fazla varyasyonu test etmeyin. Yine de basit A/B testi yapmak daha iyidir. Sonuçları daha hızlı alacaksınız ve daha hızlı öğreneceksiniz - hipotezinizi daha erken geliştireceksiniz.

9. Çakışan trafikte aynı anda birden fazla test çalıştırma

Aynı anda birden fazla test yaparak köşeyi kesmenin bir yolunu buldunuz: biri ürün sayfasında, biri alışveriş sepeti sayfasında, biri ana sayfada (aynı hedefi ölçerken). Zaman kazandırır, değil mi?

Dikkatli değilseniz, bu sonuçları çarpıtabilir. Muhtemelen iyi olmadıkça:

  • Testler arasında güçlü etkileşimlerden şüpheleniyorsunuz.
  • Testler arasında büyük bir trafik çakışması var.

Etkileşimler ve trafik çakışması muhtemelen oradaysa işler daha da zorlaşır.

Aynı akışta birden fazla düzenin yeni bir sürümünü aynı anda test etmek istiyorsanız (örneğin, ödeme işleminizin üç adımında testler çalıştırmak), etkileşimleri ölçmek ve sonuçları doğru bir şekilde değerlendirmek için çok sayfalı deneyler veya çok değişkenli testler kullanmanız daha iyi olabilir. .

Çakışan trafikle A/B testleri çalıştırmaya karar verirseniz, trafiğin her zaman eşit olarak bölünmesi gerektiğini unutmayın. Ürün sayfasını A ve B'yi ve ödeme sayfasını C. ve D'yi test ederseniz, B'den gelen trafiğin 50/50 C ve D arasında bölündüğünden emin olun (örneğin, 25/75 değil).

10. Küçük kazanımları görmezden gelmek

Tedaviniz kontrolü %4 yendi. “Bhh, bu çok küçük bir kazanç! Uygulamaya bile tenezzül etmeyeceğim,” dediğini duydum.

Sorun şu. Siteniz oldukça iyiyse, her zaman büyük artışlar elde edemezsiniz. Aslında, büyük asansörler çok nadirdir. Siteniz berbatsa, her zaman %50 artış sağlayan testler yapmak kolaydır. Ama bu bile tükenecek.

Kazanan testlerin çoğu, %1, %5, %8 gibi küçük kazançlar sağlayacaktır. Bazen %1'lik bir artış milyonlarca gelir anlamına gelebilir. Her şey, uğraştığımız mutlak sayılara bağlı. Ama asıl mesele şu: Olaya 12 aylık bir perspektiften bakmanız gerekiyor.

Bir test sadece bir testtir. Pek çok test yapacaksın. Dönüşüm oranınızı her ay %5 artırırsanız, bu 12 ayda %80'lik bir artış olacaktır. Bu bileşik faiz. İşte matematik böyle işliyor. Yüzde seksen çok fazla.

O yüzden küçük kazançlar elde etmeye devam edin. Hepsi sonunda toplanacak.

11. Testleri her zaman çalıştırmamak

Sınavsız geçen her gün boşa geçmiş bir gündür. Test etmek öğrenmektir; hedef kitleniz hakkında bilgi edinmek, neyin işe yaradığını ve nedenini öğrenmek. Aldığınız tüm bilgiler pazarlamanız genelinde kullanılabilir (örneğin, PPC reklamları).

Test edene kadar neyin işe yaradığını bilemezsiniz. Testler zamana ve trafiğe ihtiyaç duyar (çoğu). Her zaman bir testin hazır ve çalışır durumda olması, çöp testleri yapmanız gerektiği anlamına gelmez. Kesinlikle hayır. Hala uygun araştırmaya, iyi bir hipoteze vb. ihtiyacınız var.

Ama asla optimize etmeyi bırakmayın.

12. Geçerlilik tehditlerinin farkında olmamak

İyi bir örneklem büyüklüğünüz, güven seviyeniz ve test sürenizin olması, test sonuçlarınızın geçerli olduğu anlamına gelmez. Testinizin geçerliliğine yönelik çeşitli tehditler vardır.

enstrümantasyon etkisi

Bu en yaygın sorundur. Test araçlarının (veya aletlerinin) testte hatalı verilere neden olduğu zamandır. Bunun nedeni genellikle sitedeki tüm sonuçları çarpıtacak yanlış kod uygulamasıdır.

Bunun için gerçekten izlemelisiniz. Bir test oluşturduğunuzda, kaydedilen her bir hedefi ve ölçümü gözlemleyin. Bir metrik veri göndermiyorsa (örneğin, "sepete ekle" tıklama verileri), testi durdurun, sorunu bulun ve düzeltin ve verileri sıfırlayarak baştan başlayın.

Geçmiş etkisi

Dış dünyada, testte hatalı verilere neden olan bir şey olur. Bu, işletmeniz veya yöneticilerinden biri hakkında bir skandal olabilir. Özel bir tatil sezonu olabilir (Noel, Anneler Günü vb.). Belki bir medya hikayesi, insanları testinizdeki bir varyasyona karşı önyargılı hale getirir. Her neyse. Dünyada olup bitenlere dikkat edin.

seçim etkisi

Bu, trafiğin bir kısmının trafiğin tamamını temsil ettiğini yanlış bir şekilde varsaydığımızda ortaya çıkar.

Örneğin, e-posta listenizden test yaptığınız bir sayfaya promosyon trafiği gönderirsiniz. Listenize abone olan kişiler, ortalama bir ziyaretçinizden çok daha fazla sizi seviyor. Ancak şimdi, toplam trafiği temsil ettiklerini düşünerek sayfayı sadık trafiğinizle çalışacak şekilde optimize ediyorsunuz. Bu nadiren olur!

Bozuk kod efekti

Bir tedavi yaratır ve onu canlı yayına itersiniz. Ancak, kazanmaz veya hiçbir fark yaratmaz. Bilmediğiniz şey, tedavinizin bazı tarayıcılarda ve/veya cihazlarda kötü görüntülendiğidir.

Yeni bir veya iki tedavi oluşturduğunuzda, bunların tüm tarayıcılarda ve cihazlarda düzgün şekilde görüntülendiğinden emin olmak için kalite güvence testi yaptığınızdan emin olun. Aksi takdirde, kusurlu verilere dayanarak varyasyonunuzu değerlendirirsiniz.

Sonuç

Test etmeyi kolaylaştıran çok sayıda harika araç var, ancak sizin için düşünmeyi yapmıyorlar. İstatistikler, kolejde en sevdiğiniz ders olmayabilir, ancak tazeleme zamanı.

Bu 12 hatadan ders alın. Onlardan kaçınabilirseniz, test etme konusunda gerçek ilerleme kaydetmeye başlayacaksınız.

Öne çıkan resim kredisi