... (opsional) dalam konteks Google Web Optimizer.
Misalkan Anda memiliki dua grup dan variabel respons biner. Sekarang Anda mendapatkan hasil berikut:
- Asli : 401 uji coba, 125 uji coba yang berhasil
- Kombinasi16 : 441 uji coba, 141 uji coba yang berhasil
Perbedaannya tidak signifikan secara statistik, namun seseorang dapat menghitung probabilitas bahwa Kombinasi16 akan mengalahkan Asli.
Untuk menghitung "Peluang untuk mengalahkan yang Asli" Saya telah menggunakan pendekatan bayesian, yaitu melakukan integrasi monte carlo dua dimensi selama interval kepercayaan gaya bayesian (distribusi beta, (0,0) sebelumnya). Ini kodenya:
trials <- 10000
resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1),
"opt"=rbeta(trials,144+1,441-144+1))
length(which(resDat$opt>resDat$orig))/trials
Ini menghasilkan 0,6764.
Teknik mana yang akan sering digunakan untuk menghitung "Peluang untuk mengalahkan ..."? Mungkin fungsi kekuatan tes eksak Fisher?
Opsional: Konteks Google Web Optimizer
Google Web Optimizer adalah alat untuk mengendalikan Pengujian multivarian atau Pengujian A / B. Ini hanya sebagai pengantar karena ini seharusnya tidak masalah untuk pertanyaan itu sendiri.
Contoh yang disajikan di atas diambil dari halaman penjelasan Google Web Optimizer (GWO), yang dapat Anda temukan di sini (silakan gulir ke bawah ke bagian " Perkiraan Kisaran Tingkat Konversi "), khususnya dari gambar 2.
Di sini GWO memberikan 67,8% untuk "Peluang untuk mengalahkan yang Asli", yang sedikit berbeda dari hasil saya. Saya kira Google menggunakan pendekatan yang lebih sering dilakukan dan saya bertanya-tanya: Apa itu?
EDIT: Karena pertanyaan ini hampir menghilang (saya kira karena sifatnya yang terlalu spesifik), saya telah mengubah kata-katanya menjadi kepentingan umum.
Jawaban:
Saya akan mengambil ini sebagai kesempatan untuk menjelaskan beberapa masalah mendasar mengenai perbedaan antara statistik frequentist dan Bayesian, dengan menafsirkan praktik frequentist dari sudut pandang Bayesian.
Dalam contoh ini, kami telah mengamati data untuk dokumen asli dan data untuk kasus kombinasi. Satu mengasumsikan bahwa ini dihasilkan oleh variabel acak Bernoulli masing-masing dengan parameter dan , dan bahwa parameter ini berasal dari prior, (dengan cdfs ). Probabilitas dapat dihitung, seperti yang Anda tunjukkan. Ini:D1 D2 p1 p2 fi(pi) Fi(pi) p1>p2
Di sini Bayesian memilih prior dan (dan biasanya akan memilih prior yang sama untuk keduanya, karena dapat dipertukarkan) dan hasil dengan inferensi.f1(p1) f2(p2)
Frequentist mengambil pendekatan "konservatif" ketika memilih prior. Nilai-nilai yang mungkin dari diasumsikan diketahui, tetapi frequentist memiliki sedikit kepercayaan pada kemampuan mereka untuk menetapkan prior yang bermakna, sehingga mereka secara efektif melihat semua prior prior dan kemudian hanya membuat pernyataan inferensial ketika pernyataan inferensial itu benar di bawah semua prior prior . Ketika tidak ada inferensi yang valid di bawah semua kemungkinan prior, frequentist tetap diam.θ
Itulah situasi dalam kasus ini. Ketika seseorang mempertimbangkan prior diberikan oleh:gθi(pi)
yaitu massa titik terkonsentrasi di , maka orang dapat dengan mudah melihat bahwa probabilitas yang diinginkan adalahθi
yaitu 1 ketika dan 0 sebaliknya.θ1=θ2
Dengan demikian, frequentist tetap diam. (Atau, sebagai alternatif, buat pernyataan sepele: "Probabilitasnya adalah antara 0 dan 1 ...")
sumber