12 Kesalahan Pengujian A/B yang Saya Lihat Sepanjang Waktu
Diterbitkan: 2021-07-22Pengujian A/B menyenangkan. Dengan begitu banyak alat yang mudah digunakan, siapa pun dapat—dan harus—melakukannya. Namun, ada lebih dari sekadar menyiapkan tes. Banyak perusahaan membuang-buang waktu dan uang mereka.
Berikut adalah 12 kesalahan pengujian A/B yang saya lihat dilakukan orang berulang kali.
- Memanggil tes A/B lebih awal;
- Tidak menjalankan tes selama berminggu-minggu penuh;
- Melakukan pengujian A/B tanpa lalu lintas yang cukup (atau konversi);
- Tidak mendasarkan tes pada hipotesis;
- Tidak mengirim data pengujian ke Google Analytics;
- Membuang-buang waktu dan lalu lintas pada tes bodoh;
- Menyerah setelah tes pertama gagal;
- Gagal memahami positif palsu;
- Menjalankan beberapa pengujian sekaligus pada lalu lintas yang tumpang tindih;
- Mengabaikan keuntungan kecil;
- Tidak menjalankan tes sepanjang waktu;
- Tidak menyadari ancaman validitas.
Apakah Anda bersalah karena membuat kesalahan ini? Baca terus untuk mengetahuinya.
1. Memanggil tes A/B lebih awal
Signifikansi statistik adalah bukti terbaik bahwa Versi A sebenarnya lebih baik daripada Versi B—jika ukuran sampelnya cukup besar. Lima puluh persen signifikansi statistik adalah lemparan koin. Jika Anda memanggil tes pada 50%, Anda harus mengubah profesi Anda. Dan tidak, kepercayaan statistik 75% juga tidak cukup baik.
Penguji berpengalaman mana pun telah memiliki banyak pengalaman di mana variasi "pemenang" pada kepercayaan 80% akhirnya kalah parah setelah didorong langsung ke situs dan terkena lebih banyak lalu lintas.
Bagaimana dengan 90%? Itu cukup bagus, kan? Nggak. Tidak cukup baik. Anda sedang melakukan eksperimen sains. Ya, Anda ingin itu benar. Anda ingin 90% itu menang, tetapi mendapatkan kebenaran lebih penting daripada menyatakan pemenang.
Kebenaran > “menang”
Sebagai pengoptimal, tugas Anda adalah mencari tahu kebenarannya. Anda harus mengesampingkan ego Anda. Adalah manusiawi untuk melekat pada hipotesis atau perlakuan desain Anda, dan itu bisa menyakitkan ketika hipotesis terbaik Anda gagal menjadi berbeda secara signifikan. Pernah ke sana, melakukan itu. Kebenaran di atas segalanya, atau semuanya kehilangan makna.
Perencanaan Pengujian A/B: Cara Membangun Proses yang Berfungsi
Rencana pengujian A/B yang kuat akan memungkinkan Anda meningkatkan pendapatan dan mempelajari wawasan berharga tentang pelanggan Anda.
Berikut adalah skenario umum, bahkan untuk perusahaan yang banyak melakukan pengujian: Mereka menjalankan pengujian satu demi satu selama 12 bulan, mengumumkan banyak pemenang, dan meluncurkannya. Setahun kemudian, tingkat konversi situs mereka sama seperti saat mereka memulai. Terjadi sepanjang waktu.
Mengapa? Karena pengujian disebut terlalu dini dan/atau ukuran sampel terlalu kecil. Berikut adalah penjelasan yang lebih panjang tentang kapan harus menghentikan pengujian A/B, tetapi singkatnya Anda harus memenuhi tiga kriteria sebelum Anda dapat mendeklarasikan pengujian selesai:
- Ukuran sampel yang cukup. Kami memiliki cukup data untuk melakukan panggilan. Anda perlu menghitung terlebih dahulu ukuran sampel dengan kalkulator ukuran sampel uji A/B.
- Beberapa siklus penjualan (2 – 4 minggu). Jika Anda menghentikan pengujian dalam beberapa hari (bahkan setelah mencapai ukuran sampel yang diperlukan), Anda mengambil sampel yang sesuai , bukan sampel yang representatif .
- Signifikansi statistik minimal 95% (p-value 0,05 atau kurang) . Catatan: Nilai-p tidak memberi tahu kita probabilitas bahwa B lebih baik dari A. Pelajari semua tentang nilai-p di sini.
Berikut adalah contoh lama untuk mengilustrasikan poin saya. Dua hari setelah memulai tes, inilah hasilnya:
Variasi yang saya buat sangat menurun—lebih dari 89% (tanpa tumpang tindih dalam margin kesalahan). Beberapa alat sudah akan menyebutnya dan mengatakan signifikansi statistik adalah 100%. Perangkat lunak yang saya gunakan mengatakan bahwa Variasi 1 memiliki peluang 0% untuk mengalahkan kontrol. Klien saya sudah siap untuk berhenti.
Namun, karena ukuran sampel terlalu kecil (lebih dari 100 kunjungan per variasi), saya bertahan. Begini hasilnya 10 hari kemudian:
Itu benar, variasi yang memiliki peluang "0%" untuk mengalahkan kontrol sekarang menang dengan kepercayaan 95%.
Perhatikan alat pengujian A/B yang "menyebutnya lebih awal". Selalu periksa nomornya. Hal terburuk yang dapat Anda lakukan adalah percaya pada data yang tidak akurat. Anda akan kehilangan uang dan mungkin menyia-nyiakan pekerjaan selama berbulan-bulan.
Seberapa besar ukuran sampel yang Anda butuhkan?
Anda tidak ingin membuat kesimpulan berdasarkan ukuran sampel yang kecil. Rata-rata yang baik adalah menargetkan setidaknya 350–400 konversi per variasi .
Itu bisa kurang dalam keadaan tertentu — seperti ketika perbedaan antara kontrol dan perlakuan sangat besar — tetapi angka ajaib tidak ada. Jangan terpaku pada angka. Ini adalah ilmu pengetahuan, bukan sihir.
Anda harus menghitung ukuran sampel yang diperlukan sebelumnya menggunakan kalkulator ukuran sampel seperti ini atau yang serupa.
Bagaimana jika kepercayaan diri masih di bawah 95%?
Setelah Anda mencapai ukuran sampel yang diperlukan dan diuji untuk siklus bisnis penuh (atau dua), itu berarti tidak ada perbedaan yang signifikan antara variasi.
Periksa hasil pengujian lintas segmen untuk melihat apakah signifikansi segmen tertentu tercapai. Wawasan hebat terletak pada segmen, tetapi Anda juga membutuhkan ukuran sampel yang cukup untuk setiap segmen.
Bagaimanapun, Anda harus meningkatkan hipotesis Anda dan menjalankan tes baru.
2. Tidak menjalankan tes selama berminggu-minggu penuh
Katakanlah Anda memiliki situs dengan lalu lintas tinggi. Anda mencapai kepercayaan 98% dan 350 konversi per variasi dalam tiga hari. Apakah tes dilakukan? Nggak.
Kita perlu mengesampingkan musim dan menguji selama berminggu-minggu penuh. Apakah Anda memulai tes pada hari Senin? Maka Anda harus mengakhirinya pada hari Senin juga. Mengapa? Karena tingkat konversi Anda dapat sangat bervariasi tergantung pada hari dalam seminggu.
Jika Anda tidak melakukan tes seminggu penuh pada satu waktu, Anda mencondongkan hasil Anda. Jalankan laporan “konversi per hari dalam seminggu” di situs Anda untuk melihat seberapa besar fluktuasi yang terjadi.
Berikut ini contohnya:
apa yang kamu lihat di sini? Hari Kamis menghasilkan uang 2X lebih banyak daripada hari Sabtu dan Minggu, dan tingkat konversi pada hari Kamis hampir 2X lebih baik daripada hari Sabtu.
Jika kami tidak menguji selama berminggu-minggu penuh, hasilnya akan tidak akurat. Anda harus menjalankan tes selama tujuh hari sekaligus. Jika kepercayaan diri tidak tercapai dalam tujuh hari pertama, jalankan tujuh hari lagi. Jika tidak tercapai dengan 14 hari, jalankan hingga hari ke-21.
Tentu saja, Anda perlu menjalankan tes Anda selama minimal dua minggu. (Minimal pribadi saya adalah empat minggu, karena dua minggu sering kali tidak akurat.) Kemudian, terapkan aturan tujuh hari jika Anda perlu memperpanjangnya.
Satu-satunya waktu Anda dapat melanggar aturan ini adalah saat data historis Anda mengatakan—dengan yakin—bahwa rasio konversinya sama setiap hari. Tetapi, meskipun demikian, lebih baik untuk menguji satu minggu penuh pada suatu waktu.
Perhatikan faktor eksternal
Apakah ini Natal? Tes kemenangan Anda selama liburan mungkin tidak menjadi pemenang di bulan Januari. Jika Anda memiliki tes yang menang selama musim belanja seperti Natal, Anda pasti ingin menjalankan tes berulang setelah musim belanja berakhir.
Apakah Anda melakukan banyak iklan TV atau menjalankan kampanye besar-besaran lainnya? Itu juga dapat mengubah hasil Anda. Anda perlu mengetahui apa yang dilakukan perusahaan Anda. Faktor eksternal pasti mempengaruhi hasil tes Anda. Jika ragu, jalankan tes lanjutan.
3. Melakukan pengujian A/B tanpa traffic (atau konversi) yang cukup
Jika Anda mendapatkan satu atau dua penjualan per bulan dan menjalankan tes di mana B mengonversi 15% lebih baik daripada A, bagaimana Anda tahu? Tidak ada yang berubah!
Saya menyukai pengujian A/B split sebanyak orang berikutnya, tetapi itu bukan sesuatu yang harus Anda gunakan untuk pengoptimalan konversi jika Anda memiliki lalu lintas yang sangat sedikit. Alasannya adalah bahwa meskipun versi B jauh lebih baik, mungkin diperlukan waktu berbulan-bulan untuk mencapai signifikansi statistik.
Jika pengujian Anda membutuhkan waktu 5 bulan untuk dijalankan—dan tidak menjadi pemenang—Anda membuang banyak uang. Sebaliknya, Anda harus melakukan perubahan besar-besaran dan radikal. Cukup beralih ke B. Tidak ada pengujian, cukup beralih—dan perhatikan rekening bank Anda.
Idenya di sini adalah Anda akan melakukan pengangkatan besar-besaran, seperti 50% atau 100%. Anda harus segera melihat dampak semacam itu pada rekening bank Anda (atau dalam jumlah prospek yang masuk). Waktu adalah uang. Jangan sia-siakan menunggu hasil tes yang akan memakan waktu berbulan-bulan.
4. Tidak mendasarkan tes pada hipotesis
Saya suka spageti. Tapi pengujian spaghetti — melemparkannya ke dinding untuk melihat apakah itu menempel? Tidak begitu banyak. Menguji ide-ide acak datang dengan biaya besar. Anda membuang-buang waktu dan lalu lintas yang berharga. Jangan pernah lakukan itu. Anda harus memiliki hipotesis. Apa itu hipotesis?
Hipotesis adalah pernyataan yang diajukan berdasarkan bukti terbatas yang dapat dibuktikan atau disangkal dan digunakan sebagai titik awal untuk penyelidikan lebih lanjut.
Ini juga tidak boleh menjadi "hipotesis spageti" (yaitu menyusun pernyataan acak). Anda memerlukan penelitian konversi yang tepat untuk menemukan di mana letak masalahnya, kemudian munculkan hipotesis untuk mengatasinya.
Jika Anda menguji A vs. B tanpa hipotesis yang jelas, dan B menang sebesar 15%, itu bagus, tetapi apa yang telah Anda pelajari ? Tidak ada. Kami ingin belajar tentang audiens kami. Itu membantu kami meningkatkan teori pelanggan kami dan menghasilkan tes yang lebih baik lagi.
5. Tidak mengirim data pengujian ke Google Analytics
Rata-rata berbohong. Selalu ingat itu. Jika A mengalahkan B sebesar 10%, itu bukan gambaran lengkapnya. Anda perlu mengelompokkan data pengujian. Banyak alat pengujian memiliki segmentasi hasil bawaan, tetapi masih belum sebanding dengan apa yang dapat Anda lakukan di Google Analytics.
Dengan Dimensi atau Peristiwa Khusus, Anda dapat mengirim data pengujian ke Google Analytics dan menyegmentasikannya sesuka Anda. Anda dapat menjalankan Segmen Lanjutan dan Laporan Kustom di atasnya. Ini sangat berguna, dan begitulah cara Anda benar-benar belajar dari pengujian A/B (termasuk pengujian kalah dan tanpa perbedaan).
Intinya: selalu kirim data pengujian Anda ke Google Analytics. Dan membagi omong kosong dari hasil. Berikut adalah posting tentang cara melakukannya.
6. Membuang-buang waktu dan lalu lintas untuk tes bodoh
Jadi Anda sedang menguji warna, ya? Berhenti.
Tidak ada warna terbaik. Ini selalu tentang hierarki visual. Tentu, Anda dapat menemukan tes online di mana seseorang menemukan keuntungan melalui pengujian warna, tetapi semuanya tidak perlu dipikirkan. Jangan buang waktu untuk menguji tanpa otak; hanya menerapkan.
Anda tidak memiliki cukup lalu lintas untuk menguji semuanya. Tidak ada yang melakukannya. Gunakan lalu lintas Anda pada hal-hal berdampak tinggi. Uji hipotesis berdasarkan data.
7. Menyerah setelah tes pertama gagal
Anda menyiapkan pengujian, dan gagal menghasilkan peningkatan. Baiklah. Mari kita coba menjalankan tes di halaman lain?
Tidak begitu cepat! Kebanyakan tes pertama gagal. Itu benar. Saya tahu Anda tidak sabar, saya juga, tetapi kenyataannya adalah bahwa pengujian berulang adalah tempatnya. Anda menjalankan tes, belajar darinya, dan meningkatkan teori dan hipotesis pelanggan Anda. Jalankan tes tindak lanjut, pelajari darinya, dan tingkatkan hipotesis Anda. Jalankan tes lanjutan, dan seterusnya.
Berikut adalah studi kasus di mana dibutuhkan enam tes (pada halaman yang sama) untuk mencapai peningkatan yang kami senangi. Seperti itulah pengujian kehidupan nyata. Orang yang menyetujui anggaran pengujian—bos Anda, klien Anda—perlu mengetahui hal ini.
Jika harapannya adalah bahwa tes pertama akan menjatuhkannya dari stadion baseball, uang akan terbuang sia-sia, dan orang-orang akan dipecat. Tidak harus seperti itu. Ini bisa menjadi banyak uang untuk semua orang sebagai gantinya. Jalankan saja tes iteratif. Di situlah uangnya.
8. Gagal memahami positif palsu
Signifikansi statistik bukan satu-satunya hal yang perlu diperhatikan. Anda juga perlu memahami positif palsu. Penguji yang tidak sabar ingin melewati pengujian A/B dan beralih ke pengujian A/B/C/D/E/F/G/H. Ya, sekarang kita sedang berbicara!
Mengapa berhenti di situ? Google menguji 41 warna biru! Tapi itu bukan ide yang bagus. Semakin banyak variasi yang Anda uji, semakin tinggi kemungkinan positif palsu. Dalam kasus 41 warna biru, bahkan pada tingkat kepercayaan 95%, kemungkinan positif palsu adalah 88%.
Tonton video ini. Anda akan belajar satu atau tiga hal:
Takeaway utama: Jangan menguji terlalu banyak variasi sekaligus. Lebih baik melakukan pengujian A/B sederhana. Anda akan mendapatkan hasil lebih cepat, dan Anda akan belajar lebih cepat—meningkatkan hipotesis Anda lebih cepat.
9. Menjalankan beberapa tes sekaligus pada lalu lintas yang tumpang tindih
Anda telah menemukan cara untuk mengambil jalan pintas dengan menjalankan beberapa pengujian secara bersamaan: satu di halaman produk, satu di halaman keranjang, satu di beranda (sambil mengukur tujuan yang sama). Menghemat waktu, bukan?
Ini dapat mengubah hasil jika Anda tidak hati-hati. Mungkin baik-baik saja kecuali:
- Anda menduga interaksi yang kuat antara tes.
- Ada banyak lalu lintas yang tumpang tindih di antara pengujian.
Hal-hal menjadi lebih rumit jika interaksi dan lalu lintas tumpang tindih cenderung ada di sana.
Jika Anda ingin menguji versi baru dari beberapa tata letak dalam alur yang sama sekaligus—misalnya menjalankan pengujian pada ketiga langkah pembayaran Anda—Anda mungkin lebih baik menggunakan eksperimen multi-halaman atau pengujian multivarian untuk mengukur interaksi dan mengatribusikan hasil dengan benar .
Jika Anda memutuskan untuk menjalankan pengujian A/B dengan lalu lintas yang tumpang tindih, perhatikan bahwa lalu lintas harus selalu dibagi secara merata. Jika Anda menguji halaman produk A vs. B dan halaman checkout C. vs. D, pastikan lalu lintas dari B dibagi 50/50 antara C dan D (bukan, katakanlah, 25/75).
10. Mengabaikan keuntungan kecil
Perawatan Anda mengalahkan kontrol sebesar 4%. “Bhh, itu keuntungan yang terlalu kecil! Saya bahkan tidak akan repot-repot menerapkannya,” saya pernah mendengar orang berkata.
Inilah masalahnya. Jika situs Anda cukup bagus, Anda tidak akan mendapatkan peningkatan besar sepanjang waktu. Faktanya, lift besar sangat jarang. Jika situs Anda jelek, mudah untuk menjalankan tes yang mendapatkan peningkatan 50% setiap saat. Tetapi bahkan itu akan habis.
Sebagian besar tes yang menang akan memberikan keuntungan kecil—1%, 5%, 8%. Terkadang, peningkatan 1% dapat berarti jutaan pendapatan. Itu semua tergantung pada angka absolut yang kita hadapi. Tetapi poin utamanya adalah ini: Anda perlu melihatnya dari perspektif 12 bulan.
Satu ujian hanyalah satu ujian. Anda akan melakukan banyak, banyak tes. Jika Anda meningkatkan tingkat konversi Anda 5% setiap bulan, itu akan menjadi peningkatan 80% selama 12 bulan. Itu bunga majemuk. Begitulah cara kerja matematika. Delapan puluh persen itu banyak.
Jadi terus dapatkan kemenangan kecil itu. Semuanya akan bertambah pada akhirnya.
11. Tidak menjalankan tes sepanjang waktu
Setiap hari tanpa ujian adalah hari yang sia-sia. Pengujian adalah pembelajaran—belajar tentang audiens Anda, mempelajari apa yang berhasil, dan mengapa. Semua wawasan yang Anda dapatkan dapat digunakan di seluruh pemasaran Anda (misalnya iklan PPC).
Anda tidak tahu apa yang berhasil sampai Anda mengujinya. Tes membutuhkan waktu dan lalu lintas (banyak). Memiliki satu tes dan berjalan setiap saat tidak berarti Anda harus melakukan tes sampah. Sama sekali tidak. Anda masih membutuhkan penelitian yang tepat, hipotesis yang baik, dan sebagainya.
Tapi jangan pernah berhenti mengoptimalkan.
12. Tidak menyadari ancaman validitas
Hanya karena Anda memiliki ukuran sampel yang layak, tingkat kepercayaan, dan durasi tes tidak berarti bahwa hasil tes Anda valid. Ada beberapa ancaman terhadap validitas tes Anda.
Efek instrumentasi
Ini adalah masalah yang paling umum. Saat itulah alat pengujian (atau instrumen) menyebabkan data yang cacat dalam pengujian. Ini sering terjadi karena penerapan kode yang salah di situs, yang akan membuat semua hasil menjadi miring
Anda harus benar-benar memperhatikan ini. Saat Anda menyiapkan pengujian, amati setiap sasaran dan metrik yang sedang direkam. Jika metrik tidak mengirimkan data (misalnya data klik “tambahkan ke keranjang”), hentikan pengujian, temukan dan perbaiki masalahnya, dan mulai ulang dengan menyetel ulang data.
Efek sejarah
Sesuatu terjadi di dunia luar yang menyebabkan data cacat dalam pengujian. Ini bisa menjadi skandal tentang bisnis Anda atau salah satu eksekutifnya. Ini bisa menjadi musim liburan khusus (Natal, Hari Ibu, dll). Mungkin cerita media membuat orang bias terhadap variasi dalam tes Anda. Masa bodo. Perhatikan apa yang terjadi di dunia.
Efek seleksi
Ini terjadi ketika kita salah menganggap beberapa bagian dari lalu lintas mewakili totalitas lalu lintas.
Misalnya, Anda mengirim lalu lintas promosi dari daftar email ke halaman tempat Anda menjalankan pengujian. Orang-orang yang berlangganan daftar Anda menyukai Anda jauh lebih banyak daripada pengunjung rata-rata Anda. Tapi sekarang Anda mengoptimalkan halaman untuk bekerja dengan lalu lintas setia Anda, berpikir mereka mewakili total lalu lintas. Itu jarang terjadi!
Efek kode rusak
Anda membuat pengobatan dan mendorongnya hidup. Namun, itu tidak menang atau tidak menghasilkan perbedaan. Apa yang tidak Anda ketahui adalah bahwa perawatan Anda ditampilkan dengan buruk di beberapa browser dan/atau perangkat.
Setiap kali Anda membuat satu atau dua perawatan baru, pastikan Anda melakukan pengujian jaminan kualitas untuk memastikan mereka ditampilkan dengan benar di semua browser dan perangkat. Jika tidak, Anda menilai variasi Anda berdasarkan data yang salah.
Kesimpulan
Ada begitu banyak alat hebat yang tersedia yang membuat pengujian menjadi mudah, tetapi mereka tidak memikirkannya untuk Anda. Statistik mungkin bukan mata pelajaran favorit Anda di perguruan tinggi, tetapi inilah saatnya untuk memoles.
Belajarlah dari 12 kesalahan ini. Jika Anda dapat menghindarinya, Anda akan mulai membuat kemajuan nyata dengan pengujian.
Kredit gambar unggulan