Saya seorang insinyur perangkat lunak yang ingin membangun alat pengujian A / B. Saya tidak memiliki latar belakang statistik yang solid tetapi telah melakukan sedikit membaca selama beberapa hari terakhir.
Saya mengikuti metodologi yang dijelaskan di sini dan akan merangkum poin-poin yang relevan, di bawah ini.
Alat ini akan memungkinkan perancang dan pakar domain untuk mengonfigurasi situs web untuk membagi lalu lintas yang diterima di URL tertentu antara dua atau lebih URL. Misalnya, lalu lintas yang tiba di http://example.com/hello1 dapat dibagi antara http://example.com/hello1 dan http://example.com/hello2 . Lalu lintas akan dibagi secara merata antara URL target dan kinerja proses pemasaran di setiap URL target yang akan dibandingkan.
Dalam percobaan ini, ukuran sampel N
akan sesuai dengan pengunjung. Tes akan mengukur "konversi", istilah yang menggambarkan kapan pengunjung melakukan tindakan tertentu dalam proses pemasaran. Konversi dinyatakan dalam persentase dan tingkat konversi yang lebih tinggi diinginkan. Ini membuat tes perbandingan proporsi independen. Alat ini harus dapat digunakan dengan mudah untuk menghasilkan tes dengan hasil yang aman. Memilih nilai yang sesuai N
adalah penting.
Dalam artikel terkait, di atas, analisis kekuatan dua proporsi independen digunakan untuk menemukan N
. Metode ini mengharuskan seseorang mengetahui tingkat konversi kontrol di muka serta menentukan target peningkatan konversi yang diinginkan. Ini juga menentukan tingkat signifikansi 95% dan kekuatan statistik 80%.
Pertanyaan:
- Apakah metode ini menentukan
N
suara? Jika demikian, apa cara teraman untuk menentukan tingkat konversi kontrol sebelum memulai tes? - Adakah cara yang baik untuk menentukan
N
yang tidak mengharuskan orang mengetahui tingkat konversi kontrol terlebih dahulu? - Apakah metodologi dalam artikel yang ditautkan itu masuk akal? Jika tidak, adakah metode yang dapat diakses dan mudah dicerna di luar sana yang bisa Anda tautkan?
IMHO, sejauh kelanjutannya, pos masuk ke arah yang benar. Namun:
Metode yang diusulkan secara implisit membuat dua asumsi: tingkat konversi dasar dan jumlah perubahan yang diharapkan. Ukuran sampel sangat tergantung pada seberapa baik Anda memenuhi asumsi ini. Saya sarankan Anda menghitung ukuran sampel yang diperlukan untuk beberapa kombinasi p1 dan p2 yang menurut Anda realistis. Itu akan memberi Anda perasaan tentang seberapa andal perhitungan ukuran sampel sebenarnya.
Jadi jika tingkat konversi aktual adalah 9%, bukan 10%, Anda memerlukan 2000 kasus lain untuk setiap skenario untuk mendeteksi tingkat konversi 10% -lebih-dari-baseline dari formulir baru.
Setelah tes selesai, Anda dapat menghitung interval kepercayaan untuk proporsi berdasarkan pengamatan Anda yang sebenarnya.
Jika B atau C tidak lebih baik dari versi asli A, dan kedua tes A ./. B dan b ./. C dilakukan seperti yang diusulkan di sana bersama
sig.level
atas). Dengan kata lain, hampir dua kali lebih besar dari yang ditentukan pada awalnya. Masalah kedua dengan pendekatan itu adalah: dapatkah Anda benar-benar melakukannya tanpa membandingkan B ./. C? Apa yang akan Anda lakukan jika Anda menemukan B dan C lebih baik daripada A?sumber
Alih-alih menghitung interval yang tumpang tindih Anda menghitung Z-skor. Ini secara algoritmik lebih mudah diterapkan, dan Anda akan mendapatkan perpustakaan statistik untuk membantu.
Lihatlah: https://onlinecourses.science.psu.edu/stat200/node/53
sumber