Kekuatan Statistik: Yang Perlu Anda Ketahui untuk Pengujian A/B

Diterbitkan: 2021-07-22

Bertahun-tahun yang lalu, ketika saya pertama kali memulai pengujian terpisah, saya pikir setiap pengujian layak untuk dijalankan. Tidak masalah apakah itu mengubah warna tombol atau judul—saya ingin menjalankan tes itu.

Keyakinan saya yang antusias, namun salah arah, adalah bahwa saya hanya perlu menemukan aspek untuk mengoptimalkan, menyiapkan alat, dan memulai pengujian. Setelah itu, saya pikir, itu hanya masalah menunggu signifikansi statistik 95% yang terkenal itu.

Saya salah.

Setelah menerapkan variasi "signifikan secara statistik", saya tidak mengalami peningkatan penjualan karena tidak ada peningkatan yang sebenarnya—"itu hanya imajiner". Banyak dari tes itu gagal pada awal. Saya melakukan kesalahan statistik umum, seperti tidak menguji siklus bisnis penuh atau mengabaikan mempertimbangkan ukuran efek.

Saya juga gagal mempertimbangkan kemungkinan lain: Bahwa pengujian "kurang bertenaga" dapat menyebabkan saya melewatkan perubahan yang akan menghasilkan "peningkatan yang sebenarnya".

Memahami kekuatan statistik, atau "sensitivitas" pengujian, adalah bagian penting dari perencanaan pra-pengujian dan akan membantu Anda menerapkan lebih banyak perubahan yang menghasilkan pendapatan ke situs Anda.

Apa itu kekuatan statistik?

Daya statistik adalah probabilitas untuk mengamati hasil yang signifikan secara statistik pada tingkat alfa (α) jika ada efek sebenarnya dari besaran tertentu. Ini adalah kemampuan Anda untuk mendeteksi perbedaan antara variasi pengujian ketika perbedaan benar-benar ada .

Kekuatan statistik adalah pencapaian puncak dari kerja keras yang Anda lakukan dalam penelitian konversi dan perlakuan yang diprioritaskan dengan tepat terhadap kontrol. Inilah mengapa kekuatan sangat penting—kekuatan meningkatkan kemampuan Anda untuk menemukan dan mengukur perbedaan ketika perbedaan itu benar-benar ada.

Daya statistik (1 – ) memiliki hubungan terbalik dengan kesalahan Tipe II (β). Ini juga bagaimana mengontrol kemungkinan negatif palsu. Kami ingin menurunkan risiko kesalahan Tipe I ke tingkat yang dapat diterima sambil mempertahankan kekuatan yang cukup untuk mendeteksi peningkatan jika perlakuan uji benar-benar lebih baik.

Menemukan keseimbangan yang tepat, sebagaimana dirinci nanti, adalah seni dan sains. Jika salah satu variasi Anda lebih baik, pengujian dengan daya yang tepat memungkinkan peningkatan tersebut terdeteksi. Jika pengujian Anda kurang bertenaga, Anda memiliki risiko yang sangat tinggi untuk gagal menolak false null.

Sebelum kita masuk ke komponen kekuatan statistik, mari kita tinjau kesalahan yang coba kita pertanggungjawabkan.

Kesalahan Tipe I dan Tipe II

Kesalahan tipe I

Kesalahan Tipe I, atau positif palsu, menolak hipotesis nol yang sebenarnya benar. Pengujian Anda mengukur perbedaan antara variasi yang, pada kenyataannya, tidak ada. Perbedaan yang diamati—bahwa perlakuan uji mengungguli kontrol—adalah ilusi dan karena kebetulan atau kesalahan.

Probabilitas kesalahan Tipe I, dilambangkan dengan alfa Yunani (α), adalah tingkat signifikansi untuk pengujian A/B Anda. Jika Anda menguji dengan tingkat kepercayaan 95%, itu berarti Anda memiliki 5% kemungkinan kesalahan Tipe I (1,0 – 0,95 = 0,05).

Jika 5% terlalu tinggi, Anda dapat menurunkan kemungkinan positif palsu dengan meningkatkan tingkat kepercayaan Anda dari 95% menjadi 99%—atau bahkan lebih tinggi. Ini, pada gilirannya, akan menurunkan alfa Anda dari 5% menjadi 1%. Tetapi pengurangan kemungkinan positif palsu itu harus dibayar mahal.

Dengan meningkatkan tingkat kepercayaan Anda, risiko negatif palsu (kesalahan Tipe II) meningkat. Ini karena hubungan terbalik antara alfa dan beta—menurunkan yang satu meningkatkan yang lain.

Menurunkan alfa Anda (misalnya dari 5% menjadi 1%) mengurangi kekuatan statistik pengujian Anda. Saat Anda menurunkan alfa, wilayah kritis menjadi lebih kecil, dan wilayah kritis yang lebih kecil berarti kemungkinan penolakan nol yang lebih rendah—sehingga tingkat daya lebih rendah. Sebaliknya, jika Anda membutuhkan lebih banyak daya, salah satu opsi adalah meningkatkan alfa Anda (misalnya dari 5% menjadi 10%).

bagan wilayah kritis untuk uji a/b

Kesalahan tipe II

Kesalahan Tipe II, atau negatif palsu , adalah kegagalan untuk menolak hipotesis nol yang sebenarnya salah. Kesalahan Tipe II terjadi ketika pengujian Anda tidak menemukan peningkatan signifikan dalam variasi Anda yang sebenarnya ada.

Beta (β) adalah probabilitas membuat kesalahan Tipe II dan memiliki hubungan terbalik dengan kekuatan statistik (1 – ). Jika 20% adalah risiko melakukan kesalahan Tipe II (β), maka tingkat daya Anda adalah 80% (1,0 – 0,2 = 0,8). Anda dapat menurunkan risiko negatif palsu menjadi 10% atau 5%—untuk tingkat daya masing-masing 90% atau 95%.

Kesalahan Tipe II dikendalikan oleh tingkat daya yang Anda pilih: semakin tinggi tingkat daya, semakin rendah kemungkinan kesalahan Tipe II. Karena alfa dan beta memiliki hubungan terbalik, menjalankan alfa yang sangat rendah (misalnya 0,001%), jika semuanya sama, akan sangat meningkatkan risiko kesalahan Tipe II.

Kekuatan statistik adalah tindakan penyeimbangan dengan trade-off untuk setiap tes. Seperti yang dikatakan Paul D. Ellis, “Desain penelitian yang dipikirkan dengan baik adalah desain yang menilai risiko relatif dari membuat setiap jenis kesalahan, kemudian mencapai keseimbangan yang tepat di antara mereka.”

Ketika berbicara tentang kekuatan statistik, variabel mana yang mempengaruhi keseimbangan itu? Mari lihat.

Variabel yang mempengaruhi kekuatan statistik

Ketika mempertimbangkan setiap variabel yang mempengaruhi kekuatan statistik, ingat: Tujuan utamanya adalah untuk mengontrol tingkat kesalahan. Ada empat tuas yang bisa Anda tarik:

  1. Ukuran sampel
  2. Efek Minat Minimum (MEI, atau Efek Minimum yang Dapat Dideteksi)
  3. Tingkat signifikansi (α)
  4. Tingkat daya yang diinginkan (tingkat kesalahan Tipe II tersirat)

1. Ukuran Sampel

Gorila kekuatan statistik seberat 800 pon adalah ukuran sampel. Anda bisa mendapatkan banyak hal dengan benar dengan memiliki ukuran sampel yang cukup besar. Triknya adalah menghitung ukuran sampel yang cukup dapat memberi daya pada pengujian Anda, tetapi tidak terlalu besar untuk membuat pengujian berjalan lebih lama dari yang diperlukan. (Pengujian yang lebih lama membutuhkan biaya lebih banyak dan memperlambat laju pengujian.)

Anda membutuhkan pengunjung yang cukup untuk setiap variasi serta setiap segmen yang ingin Anda analisis.   Perencanaan pra-pengujian untuk ukuran sampel membantu menghindari pengujian yang kurang bertenaga; jika tidak, Anda mungkin tidak menyadari bahwa Anda menjalankan terlalu banyak varian atau segmen hingga terlambat, sehingga Anda memiliki grup pasca-tes yang memiliki jumlah pengunjung rendah.

Harapkan hasil yang signifikan secara statistik dalam jangka waktu yang wajar—biasanya setidaknya satu minggu penuh atau siklus bisnis. Pedoman umum adalah menjalankan tes selama minimal dua minggu tetapi tidak lebih dari empat minggu untuk menghindari masalah karena polusi sampel dan penghapusan cookie.

Menetapkan ukuran sampel minimum dan cakrawala waktu yang telah ditentukan sebelumnya menghindari kesalahan umum hanya dengan menjalankan tes sampai menghasilkan perbedaan yang signifikan secara statistik, lalu menghentikannya (mengintip).

2. Pengaruh Minimum Bunga (MEI)

Minimum Effect of Interest (MEI) adalah besarnya (atau ukuran) perbedaan hasil yang ingin Anda deteksi.

Perbedaan yang lebih kecil lebih sulit untuk dideteksi dan membutuhkan ukuran sampel yang lebih besar untuk mempertahankan kekuatan yang sama; efek yang lebih besar dapat dideteksi secara andal dengan ukuran sampel yang lebih kecil. Namun, seperti yang dicatat Georgi Georgiev, “peningkatan” besar dari ukuran sampel kecil mungkin tidak dapat diandalkan:

Masalahnya adalah, biasanya, tidak ada aturan penghentian yang tepat atau ukuran sampel yang tetap, sehingga nilai p nominal dan interval kepercayaan (CI) yang dilaporkan tidak ada artinya. Orang dapat mengatakan bahwa hasilnya "dipetik ceri" dalam arti tertentu.

Jika ada aturan penghentian yang tepat atau ukuran sampel tetap, maka peningkatan 500% yang diamati dari ukuran sampel yang sangat kecil kemungkinan akan datang dengan CI 95% katakanlah +5% hingga +995%: tidak terlalu informatif.

Cara yang bagus untuk memvisualisasikan hubungan antara kekuatan dan ukuran efek adalah ilustrasi oleh Georgiev ini, di mana ia menyamakan kekuatan dengan jaring ikan:

kekuatan statistik sebagai sensitivitas

3. Signifikansi Statistik

Seperti yang dijelaskan Georgiev:

Hasil tes yang diamati dikatakan signifikan secara statistik jika sangat tidak mungkin kita akan mengamati hasil seperti itu dengan asumsi hipotesis nol benar.

Ini kemudian memungkinkan kita untuk bernalar dengan cara lain dan mengatakan bahwa kita memiliki bukti terhadap hipotesis nol sejauh mana hasil ekstrem seperti itu atau yang lebih ekstrem tidak akan diamati, jika nol benar (nilai-p).

Definisi tersebut sering direduksi menjadi interpretasi yang lebih sederhana: Jika pengujian terpisah untuk dua halaman arahan Anda memiliki keyakinan 95% mendukung variasi, hanya ada 5% kemungkinan bahwa peningkatan yang diamati dihasilkan secara kebetulan—atau 95% kemungkinan bahwa perbedaannya bukan karena kebetulan yang acak.

"Banyak, mengambil arti ketat dari 'perbaikan yang diamati yang dihasilkan oleh kebetulan acak,' akan mencemooh pernyataan seperti itu," bantah Georgiev. “Kita perlu ingat bahwa apa yang memungkinkan kita untuk memperkirakan probabilitas ini adalah asumsi bahwa nol itu benar.”

Lima persen adalah tingkat signifikansi awal yang umum dalam pengujian online dan, seperti yang disebutkan sebelumnya, adalah kemungkinan membuat kesalahan Tipe I. Menggunakan alfa 5% untuk pengujian Anda berarti Anda bersedia menerima probabilitas 5% bahwa Anda telah salah menolak hipotesis nol.

Jika Anda menurunkan alfa dari 5% menjadi 1%, Anda secara bersamaan meningkatkan kemungkinan membuat kesalahan Tipe II, dengan asumsi semua yang lain sama. Meningkatkan kemungkinan kesalahan Tipe II mengurangi kekuatan pengujian Anda.

4. Tingkat Daya yang Diinginkan

Dengan kekuatan 80%, Anda memiliki kemungkinan 20% untuk tidak dapat mendeteksi perbedaan aktual untuk besaran minat tertentu. Jika 20% terlalu berisiko, Anda dapat menurunkan probabilitas ini menjadi 10%, 5%, atau bahkan 1%, yang akan meningkatkan kekuatan statistik Anda masing-masing menjadi 90%, 95%, atau 99%.

Sebelum berpikir bahwa Anda akan menyelesaikan semua masalah Anda dengan menjalankan pengujian pada daya 95% atau 99%, pahamilah bahwa setiap peningkatan daya memerlukan peningkatan yang sesuai dalam ukuran sampel dan jumlah waktu yang diperlukan pengujian untuk dijalankan (waktu yang Anda bisa pemborosan menjalankan tes yang kalah—dan kehilangan penjualan—hanya untuk satu atau dua poin persentase tambahan dari probabilitas statistik).

Jadi berapa banyak kekuatan yang Anda benar-benar membutuhkan? Titik awal yang umum untuk risiko negatif palsu yang dapat diterima dalam pengoptimalan konversi adalah 20%, yang mengembalikan tingkat daya sebesar 80%.

Tidak ada yang pasti tentang tingkat daya 80%, tetapi ahli statistik Jacob Cohen menunjukkan bahwa 80% mewakili keseimbangan yang wajar antara risiko alfa dan beta. Dengan kata lain, menurut Ellis, “studi seharusnya tidak lebih dari 20% kemungkinan membuat kesalahan Tipe II.”

Pada akhirnya, ini masalah:

  • Seberapa besar risiko yang ingin Anda ambil ketika kehilangan peningkatan yang nyata;
  • Ukuran sampel minimum yang diperlukan untuk setiap variasi untuk mencapai kekuatan yang Anda inginkan.

Bagaimana menghitung kekuatan statistik untuk pengujian Anda

Dengan menggunakan kalkulator ukuran sampel atau G*power, Anda dapat memasukkan nilai Anda untuk mengetahui apa yang diperlukan untuk menjalankan pengujian dengan daya yang memadai. Jika Anda mengetahui tiga input, Anda dapat menghitung yang keempat.

Dalam hal ini, dengan menggunakan G*Power, kami menyimpulkan bahwa kami memerlukan ukuran sampel 681 pengunjung untuk setiap variasi . Ini dihitung dengan menggunakan input kami dari daya 80% dan alfa 5% (signifikansi 95%). Kami tahu kontrol kami memiliki rasio konversi 14% dan mengharapkan varian kami untuk tampil pada 19%:

g * kalkulator daya

Dengan cara yang sama, jika kita mengetahui ukuran sampel untuk setiap variasi, alfa, dan tingkat daya yang diinginkan (katakanlah, 80%), kita dapat menemukan MEI yang diperlukan untuk mencapai daya itu—dalam hal ini, 19%:

g*kalkulator daya untuk MEI

Bagaimana jika Anda tidak dapat meningkatkan ukuran sampel Anda?

Akan datang suatu hari ketika Anda membutuhkan lebih banyak kekuatan tetapi meningkatkan ukuran sampel bukanlah pilihan. Ini mungkin karena segmen kecil dalam pengujian yang sedang Anda jalankan atau rendahnya lalu lintas ke halaman.

Katakanlah Anda memasukkan parameter Anda ke dalam kalkulator uji A/B, dan itu membutuhkan ukuran sampel lebih dari 8.000:

kalkulator tes a/b


Jika Anda tidak dapat mencapai minimum itu—atau akan membutuhkan waktu berbulan-bulan untuk mencapainya—salah satu opsi adalah meningkatkan MEI. Dalam contoh ini, meningkatkan MEI dari 10% menjadi 25% akan mengurangi ukuran sampel menjadi 1.356 per varian:

kalkulator tes a/b dengan MEI besar

Tetapi seberapa sering Anda dapat mencapai MEI 25%? Dan berapa banyak nilai yang akan Anda lewatkan hanya dengan mencari dampak besar? Opsi yang lebih baik biasanya adalah menurunkan tingkat kepercayaan menjadi 90%—selama Anda merasa nyaman dengan kemungkinan 10% kesalahan Tipe I:

kalkulator uji a/b dengan alfa 90%

Jadi di mana Anda mulai? Georgiev mengakui bahwa, terlalu sering, analis CRO “mulai dengan ukuran sampel (pengujian perlu dilakukan dengan <jumlah semi-arbitrer> minggu) dan kemudian mendorong tuas secara acak hingga hasilnya sesuai.”

Mencapai keseimbangan yang tepat:

  • Membutuhkan proses yang matang tentang tuas mana yang harus disesuaikan;
  • Manfaat dari mengukur potensi perubahan ROI untuk setiap perubahan pada variabel uji.

Kesimpulan

Kekuatan statistik membantu Anda mengontrol kesalahan, memberi Anda kepercayaan diri yang lebih besar pada hasil pengujian Anda, dan sangat meningkatkan peluang Anda untuk mendeteksi efek yang praktis signifikan.

Manfaatkan kekuatan statistik dengan mengikuti saran berikut:

  1. Jalankan tes Anda selama dua hingga empat minggu.
  2. Gunakan kalkulator pengujian (atau G*Power) untuk memastikan pengujian dengan daya yang benar.
  3. Memenuhi persyaratan ukuran sampel minimum.
  4. Jika perlu, uji perubahan yang lebih besar yang berlaku.
  5. Gunakan signifikansi statistik hanya setelah memenuhi persyaratan ukuran sampel minimum.
  6. Rencanakan daya yang memadai untuk semua variasi dan segmen pasca-tes.