Menentukan ukuran sampel dengan aman untuk pengujian A / B

22

Saya seorang insinyur perangkat lunak yang ingin membangun alat pengujian A / B. Saya tidak memiliki latar belakang statistik yang solid tetapi telah melakukan sedikit membaca selama beberapa hari terakhir.

Saya mengikuti metodologi yang dijelaskan di sini dan akan merangkum poin-poin yang relevan, di bawah ini.

Alat ini akan memungkinkan perancang dan pakar domain untuk mengonfigurasi situs web untuk membagi lalu lintas yang diterima di URL tertentu antara dua atau lebih URL. Misalnya, lalu lintas yang tiba di http://example.com/hello1 dapat dibagi antara http://example.com/hello1 dan http://example.com/hello2 . Lalu lintas akan dibagi secara merata antara URL target dan kinerja proses pemasaran di setiap URL target yang akan dibandingkan.

Dalam percobaan ini, ukuran sampel Nakan sesuai dengan pengunjung. Tes akan mengukur "konversi", istilah yang menggambarkan kapan pengunjung melakukan tindakan tertentu dalam proses pemasaran. Konversi dinyatakan dalam persentase dan tingkat konversi yang lebih tinggi diinginkan. Ini membuat tes perbandingan proporsi independen. Alat ini harus dapat digunakan dengan mudah untuk menghasilkan tes dengan hasil yang aman. Memilih nilai yang sesuai Nadalah penting.

Dalam artikel terkait, di atas, analisis kekuatan dua proporsi independen digunakan untuk menemukan N. Metode ini mengharuskan seseorang mengetahui tingkat konversi kontrol di muka serta menentukan target peningkatan konversi yang diinginkan. Ini juga menentukan tingkat signifikansi 95% dan kekuatan statistik 80%.

Pertanyaan:

  1. Apakah metode ini menentukan Nsuara? Jika demikian, apa cara teraman untuk menentukan tingkat konversi kontrol sebelum memulai tes?
  2. Adakah cara yang baik untuk menentukan Nyang tidak mengharuskan orang mengetahui tingkat konversi kontrol terlebih dahulu?
  3. Apakah metodologi dalam artikel yang ditautkan itu masuk akal? Jika tidak, adakah metode yang dapat diakses dan mudah dicerna di luar sana yang bisa Anda tautkan?
jkndrkn
sumber

Jawaban:

12

Metode yang paling umum untuk melakukan pengujian semacam ini adalah dengan interval kepercayaan proporsi binomial (lihat http://bit.ly/fa2K7B )

Anda tidak akan pernah bisa mengetahui tingkat konversi "benar" dari kedua jalur, tetapi ini akan memberi Anda kemampuan untuk mengatakan sesuatu dengan efek "Dengan kepercayaan 99%, A lebih efektif dalam mengkonversi daripada B".

Sebagai contoh: Mari kita asumsikan bahwa Anda telah menjalankan 1000 percobaan di jalur A. Dari 1000 percobaan ini, 121 adalah konversi yang berhasil (tingkat konversi 0,121) dan kami ingin interval kepercayaan 99% di sekitar hasil 0,121 ini. Z-skor untuk interval kepercayaan 99% adalah 2,576 (Anda hanya melihat ke atas ini dalam tabel), sehingga dengan Jadi dengan keyakinan 99% kita dapat mengatakan bahwa0,094 p0,148, di mana p adalah "benar" tingkat konversi dari proses A.

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

Jika kita membuat interval yang sama untuk proses B, kita dapat membandingkan intervalnya. Jika intervalnya tidak tumpang tindih, maka kita dapat mengatakan dengan keyakinan 98% bahwa yang satu lebih baik daripada yang lain. (Ingat, kami hanya 99% percaya diri tentang setiap interval, jadi kepercayaan kami secara keseluruhan tentang perbandingan adalah 0,99 * 0,99)

Jika intervalnya tumpang tindih, maka kita harus menjalankan lebih banyak percobaan, atau memutuskan bahwa mereka terlalu mirip dalam kinerja untuk membedakan, yang membawa kita bagian yang sulit - menentukan , jumlah percobaan. Saya tidak terbiasa dengan metode lain, tetapi dengan metode ini, Anda tidak akan dapat menentukan N di depan kecuali Anda memiliki perkiraan akurat tentang kinerja A dan B di depan. Kalau tidak, Anda hanya perlu menjalankan uji coba sampai Anda mendapatkan sampel sehingga interval terpisah.NN

Semoga beruntung untukmu. (Omong-omong, saya rooting untuk proses B).

ronny
sumber
2
Selamat datang di situs, @ronny. Karena Anda baru di sini, Anda mungkin ingin membaca FAQ kami . Antara lain, situs ini mendukung via mathjax. Saya mengambil kebebasan menambahkan mj untuk membuat posting Anda lebih mudah dibaca; pastikan masih mengatakan apa yang Anda inginkan. EG, saya mengambil "p ^" berarti "p-hat" ( p ), tapi saya perhatikan Anda mengatakan bahwa itu adalah "benar" rate, sedangkan p-hat sering digunakan untuk menunjukkan p diperkirakan dari data Anda, jadi kami hanya ingin memastikan jawaban Anda mengatakan apa yang Anda inginkan. LATEXp^
gung - Reinstate Monica
p^0.094p^0.148sucessestrialsp^p
Jawaban ini salah. Khususnya: "Jika intervalnya tidak tumpang tindih, maka kita dapat mengatakan dengan keyakinan 98% bahwa yang satu lebih baik daripada yang lain" salah. Diberikan dua interval kepercayaan 99% yang tidak tumpang tindih, keyakinan bahwa perbedaannya tidak termasuk 0 sama sedikitnya 99%. Jika intervalnya memiliki ukuran yang sama, perbedaannya signifikan di sekitar level 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan
@Bscan Apakah komentar Anda berlaku untuk nilai-nilai lain? Misalnya, apakah benar mengatakan (sesuai dengan pujian Anda) bahwa perbedaan rata-rata rata-rata adalah 30% jika kita memiliki dua interval kepercayaan 30% yang tidak tumpang tindih dengan ukuran yang sama?
Felipe Almeida
1
@Felipe, ya komentar berlaku untuk semua nilai dan interval kepercayaan 30% yang tidak tumpang tindih menyiratkan keyakinan bahwa perbedaan tidak termasuk 0 setidaknya 30%. Namun ini tidak berarti ada perbedaan 30% dalam rata-rata. Cara yang sebenarnya mungkin sangat mirip; kami hanya mencoba membuktikan bahwa mereka tidak persis sama.
Bscan
8

IMHO, sejauh kelanjutannya, pos masuk ke arah yang benar. Namun:

  • Metode yang diusulkan secara implisit membuat dua asumsi: tingkat konversi dasar dan jumlah perubahan yang diharapkan. Ukuran sampel sangat tergantung pada seberapa baik Anda memenuhi asumsi ini. Saya sarankan Anda menghitung ukuran sampel yang diperlukan untuk beberapa kombinasi p1 dan p2 yang menurut Anda realistis. Itu akan memberi Anda perasaan tentang seberapa andal perhitungan ukuran sampel sebenarnya.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Jadi jika tingkat konversi aktual adalah 9%, bukan 10%, Anda memerlukan 2000 kasus lain untuk setiap skenario untuk mendeteksi tingkat konversi 10% -lebih-dari-baseline dari formulir baru.

Setelah tes selesai, Anda dapat menghitung interval kepercayaan untuk proporsi berdasarkan pengamatan Anda yang sebenarnya.

  • kesimpulan terakhir di bawah 3. (tentang pengujian beberapa skenario) tidak cukup benar. Untuk menyesuaikan pengujian berganda (dalam contoh multiple = 2), tidak cukup hanya menambahkan yang lainntes untuk setiap skenario baru:
    Jika B atau C tidak lebih baik dari versi asli A, dan kedua tes A ./. B dan b ./. C dilakukan seperti yang diusulkan di sana bersamankasus untuk masing-masing skenario, maka probabilitas untuk secara palsu berubah dari A adalah (1 - α) ² ≈ 10% (α: probabilitas yang diterima dari kesalahan tipe I ; di sig.levelatas). Dengan kata lain, hampir dua kali lebih besar dari yang ditentukan pada awalnya. Masalah kedua dengan pendekatan itu adalah: dapatkah Anda benar-benar melakukannya tanpa membandingkan B ./. C? Apa yang akan Anda lakukan jika Anda menemukan B dan C lebih baik daripada A?
Cbeleites mendukung Monica
sumber
Hai, terima kasih banyak telah meluangkan waktu untuk mengkritik metode ini. Dalam perhitungan (1 - α) ² ≈ 10%, apa yang dimaksud dengan "α"? Karena mengambil data uji memerlukan waktu yang lama, bagaimana Anda mengusulkan seseorang harus membuat eksperimen ini jika ingin menguji tiga proporsi? Apakah ada cara aman untuk melakukannya sehingga tidak melibatkan menjalankan beberapa tes? Dengan tiga alternatif, tiga tes tidak terlalu memberatkan, tetapi dengan empat alternatif jumlah kombinasi menembak hingga enam.
jkndrkn
1
@ jkndrkn: α adalah probabilitas salah untuk berubah dari bentuk aslinya, alias α-kesalahan atau kesalahan tipe I. Lihat jawaban yang diperbarui.
cbeleites mendukung Monica
1
@ jkndrkn: Beberapa tes: Saya akan melihat Fleiss et.al .: Metode Statistik untuk Tarif dan Proporsi tentang prosedur untuk tes tersebut. Namun, titik kunci untuk beberapa tes tersebut adalah selalu menggunakan pengetahuan ahli untuk mengurangi jumlah alternatif sebanyak mungkin sebelum mendefinisikan tes karena ukuran sampel yang diperlukan meledak dengan jumlah alternatif (seperti yang telah Anda sadari).
cbeleites mendukung Monica