Bagaimana seorang frequentist menghitung peluang bahwa kelompok A mengalahkan kelompok B mengenai respons biner

8

... (opsional) dalam konteks Google Web Optimizer.

Misalkan Anda memiliki dua grup dan variabel respons biner. Sekarang Anda mendapatkan hasil berikut:

  • Asli : 401 uji coba, 125 uji coba yang berhasil
  • Kombinasi16 : 441 uji coba, 141 uji coba yang berhasil

Perbedaannya tidak signifikan secara statistik, namun seseorang dapat menghitung probabilitas bahwa Kombinasi16 akan mengalahkan Asli.

Untuk menghitung "Peluang untuk mengalahkan yang Asli" Saya telah menggunakan pendekatan bayesian, yaitu melakukan integrasi monte carlo dua dimensi selama interval kepercayaan gaya bayesian (distribusi beta, (0,0) sebelumnya). Ini kodenya:

trials <- 10000
resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1),
                    "opt"=rbeta(trials,144+1,441-144+1))
length(which(resDat$opt>resDat$orig))/trials

Ini menghasilkan 0,6764.

Teknik mana yang akan sering digunakan untuk menghitung "Peluang untuk mengalahkan ..."? Mungkin fungsi kekuatan tes eksak Fisher?

Opsional: Konteks Google Web Optimizer

Google Web Optimizer adalah alat untuk mengendalikan Pengujian multivarian atau Pengujian A / B. Ini hanya sebagai pengantar karena ini seharusnya tidak masalah untuk pertanyaan itu sendiri.

Contoh yang disajikan di atas diambil dari halaman penjelasan Google Web Optimizer (GWO), yang dapat Anda temukan di sini (silakan gulir ke bawah ke bagian " Perkiraan Kisaran Tingkat Konversi "), khususnya dari gambar 2.

Di sini GWO memberikan 67,8% untuk "Peluang untuk mengalahkan yang Asli", yang sedikit berbeda dari hasil saya. Saya kira Google menggunakan pendekatan yang lebih sering dilakukan dan saya bertanya-tanya: Apa itu?

EDIT: Karena pertanyaan ini hampir menghilang (saya kira karena sifatnya yang terlalu spesifik), saya telah mengubah kata-katanya menjadi kepentingan umum.

steffen
sumber
Dalam sudut pandang frequentist, Original baik mengalahkan Kombinasi, atau tidak. Tidak ada "peluang" atau probabilitas yang terlibat.
charles.y.zheng
@ charles.y.zheng hm ... Anda dapat menghitung kekuatan tes yaitu probabilitas bahwa Null-Hipotesis ditolak dengan asumsi parameter sebenarnya. Bagaimana Anda menyebutnya?
steffen
@steffen: itu disebut tingkat signifikansi, atau . Kekuatan tes adalah seberapa sering ia menolak hipotesis nol ketika alternatifnya benar. α
charles.y.zheng
@ charles.y.zheng Saya tahu itu;). Jika Anda berpikir bahwa probabilitas seperti itu tidak dapat dihitung oleh frekuensi, mengapa tidak mengirimkannya sebagai jawaban. Jika komunitas setuju, saya senang menerimanya :).
steffen
@steffen: Tingkat signifikansi tes mudah diperoleh dengan perhitungan atau simulasi. Tingkat kekuatan tes hanya ditentukan sehubungan dengan alternatif tertentu. Itulah sebabnya mengapa tidak mungkin untuk menghitung "kekuatan" umum suatu tes; Gagasan seperti itu tidak dapat didefinisikan.
charles.y.zheng

Jawaban:

2

Saya akan mengambil ini sebagai kesempatan untuk menjelaskan beberapa masalah mendasar mengenai perbedaan antara statistik frequentist dan Bayesian, dengan menafsirkan praktik frequentist dari sudut pandang Bayesian.

Dalam contoh ini, kami telah mengamati data untuk dokumen asli dan data untuk kasus kombinasi. Satu mengasumsikan bahwa ini dihasilkan oleh variabel acak Bernoulli masing-masing dengan parameter dan , dan bahwa parameter ini berasal dari prior, (dengan cdfs ). Probabilitas dapat dihitung, seperti yang Anda tunjukkan. Ini:D1D2p1p2fi(pi)Fi(pi)p1>p2

P[p1>p2;f1,f2]=0101I(p1>p2)P[D1|p1]P[D2|p1]dF1(p1)dF2(p2)0101P[D1|p1]P[D2|p1]dF1(p1)dF2(p2)

Di sini Bayesian memilih prior dan (dan biasanya akan memilih prior yang sama untuk keduanya, karena dapat dipertukarkan) dan hasil dengan inferensi.f1(p1)f2(p2)

Frequentist mengambil pendekatan "konservatif" ketika memilih prior. Nilai-nilai yang mungkin dari diasumsikan diketahui, tetapi frequentist memiliki sedikit kepercayaan pada kemampuan mereka untuk menetapkan prior yang bermakna, sehingga mereka secara efektif melihat semua prior prior dan kemudian hanya membuat pernyataan inferensial ketika pernyataan inferensial itu benar di bawah semua prior prior . Ketika tidak ada inferensi yang valid di bawah semua kemungkinan prior, frequentist tetap diam.θ

Itulah situasi dalam kasus ini. Ketika seseorang mempertimbangkan prior diberikan oleh:gθi(pi)

gθi(pi)=δ(θi)

yaitu massa titik terkonsentrasi di , maka orang dapat dengan mudah melihat bahwa probabilitas yang diinginkan adalahθi

P[p1>p2;gθ1,gθ2]=δθ1,θ2

yaitu 1 ketika dan 0 sebaliknya.θ1=θ2

Dengan demikian, frequentist tetap diam. (Atau, sebagai alternatif, buat pernyataan sepele: "Probabilitasnya adalah antara 0 dan 1 ...")

charles.y.zheng
sumber
Maaf aku salah. Saya akhirnya mengetahui (di antara yang lain di sini ), bahwa frequentist bahkan tidak diperbolehkan untuk menghitung interval kepercayaan pada data empiris. Karenanya ide tindak lanjut saya (yang tidak saya ungkapkan) tentang bagaimana seorang yang sering menjawab pertanyaan saya juga salah. Saya agak tidak aman, namun, karena pertanyaannya mendapat 4 tetapi jawaban Anda bukan satu-satunya suara :(.
steffen
Sekarang saya tidak nyaman dengan pencampuran ide bayesian dan sering (misalnya ketika Anda mengatakan bagaimana sering berurusan dengan prior (yang tidak, bukan?)). Mungkin jawabannya hanya seperti yang Anda masukkan dalam komentar: Seorang yang sering tidak dapat menjawab pertanyaan, karena itu salah dalam pandangan dunianya (seperti yang ditulis Dikran di sini ) Maaf sekali lagi karena tidak mempercayai Anda sebelumnya.
steffen
3
Mungkin penafsiran saya tidak sepopuler yang saya yakini, tetapi secara intrinsik tidak ada salahnya menempatkan metode frequentist dan Bayesian pada pijakan yang sama. Lihat Lehmann dan Teori Estimasi Titik Point Casella, di mana metode frequentist dan Bayesian dibandingkan melalui teori keputusan statistik.
charles.y.zheng