Jika prinsip kemungkinan bertentangan dengan probabilitas frequentist, lalu apakah kita membuang salah satunya?

Dalam sebuah komentar yang baru-baru ini diposting di sini, seorang komentator menunjuk ke sebuah blog oleh Larry Wasserman yang menunjukkan (tanpa sumber) yang sering berselisih dengan prinsip kemungkinan.

Prinsip kemungkinan hanya mengatakan bahwa percobaan menghasilkan fungsi kemungkinan yang sama harus menghasilkan kesimpulan yang sama.

Dua bagian dari pertanyaan ini:

Bagian, citarasa atau aliran kesimpulan sering yang secara khusus melanggar prinsip kemungkinan?
Jika ada bentrokan, apakah kita harus membuang yang satu atau yang lain? Jika demikian, lalu yang mana? Saya akan demi diskusi menyarankan bahwa jika kita harus membuang sesuatu maka kita harus membuang bagian-bagian dari kesimpulan sering yang bertabrakan, karena Hacking dan Royall telah meyakinkan saya bahwa prinsip kemungkinan adalah aksiomatik.

inference likelihood frequentist likelihood-principle Michael Lew
sumber

Saya tidak pernah mengerti mengapa prinsip kemungkinan menjadi aksioma.

Stéphane Laurent

Hai, Stéphane. Masalahnya adalah bahwa Birnbaum membuktikan bahwa Kemungkinannya setara dengan dua prinsip lain yang sangat alami sehingga harus dipegang. Kami menulis ulasan singkat tentang hasil ini. Di sini: ime.usp.br/~pmarques/papers/redux.pdf

Zen

@ Zen Terima kasih. Pada pandangan pertama poin yang saya tidak setuju adalah kalimat ini ditulis di bawah prinsip kondisionalitas: "Yang penting adalah apa yang sebenarnya terjadi". Saya seharusnya mengatakan, "Yang penting adalah apa yang sebenarnya terjadi di antara masalah yang mungkin terjadi" (maaf jika bahasa Inggris saya tidak benar). Itulah yang saya klaim dalam diskusi saya dengan gui11aume: dalam arti tertentu prinsip kemungkinan mengklaim bahwa desain percobaan tidak masalah, dan saya tidak bisa setuju dengan poin ini.

Stéphane Laurent

@ Zen Sekarang saya telah membaca kertas Anda dengan lebih cermat. Memang benar bahwa sulit untuk tidak setuju dengan prinsip kondisionalitas dan prinsip invarian.

Stéphane Laurent

LP tidak begitu populer saat ini karena alasan praktis. Dengan mengadopsinya secara religius, Anda menghindari penggunaan prior model-dependen seperti prior, conjugate prior dan pengujian hipotesis Jeffreys yang dapat berguna dalam banyak konteks. Saya percaya bahwa statistik, sama seperti fisika , tidak dapat dixiomatiskan dengan cara yang bermakna (meskipun diskusi ini mungkin terdengar seperti ini ). Tetapi penting untuk mengidentifikasi kelebihan dan kekurangan dari berbagai paradigma.

Jawaban:

Bagian dari pendekatan Frequentist yang bertentangan dengan prinsip kemungkinan adalah teori pengujian statistik (dan perhitungan p-value). Biasanya disorot oleh contoh berikut.

Misalkan dua Frequentist ingin mempelajari koin bias, yang mengubah 'kepala' dengan kemungkinan tidak diketahui . Mereka menduga itu bias terhadap 'ekor', sehingga mereka mendalilkan hipotesis nol yang sama dan hipotesis alternatif yang sama . $p$ $p = 1/2$ $p < 1/2$

Ahli statistik pertama membalik koin sampai 'kepala' muncul, yang terjadi menjadi 6 kali. Yang kedua memutuskan untuk membalik koin 6 kali, dan hanya mendapatkan satu 'kepala' di lemparan terakhir.

Menurut model ahli statistik pertama, nilai-p dihitung sebagai berikut:

p (1 - p)^{5} + p (1 - p)^{6} + . . . = p (1 - p)^{5} \frac{1}{1 - p} = p (1 - p)^{4} .

$p(1-p)^5 + p(1-p)^6 + ... = p(1-p)^5 \frac{1}{1-p} = p(1-p)^4.$

Menurut model ahli statistik kedua, nilai-p dihitung sebagai berikut:

(\binom{6}{1}) p (1 - p)^{5} + (\binom{6}{0}) (1 - p)^{6} = (5 p + 1) (1 - p)^{5} .

${6 \choose 1} p(1-p)^5 + {6 \choose 0} (1-p)^6 = (5p + 1)(1-p)^5.$

Mengganti dengan , yang pertama menemukan nilai-p sama dengan , yang kedua menemukan nilai-p sama dengan . $p$ $1/2$ $1/2^5 = 0.03125$ $7/2 \times 1/2^5 = 0.109375$

Jadi, mereka mendapatkan hasil yang berbeda karena mereka melakukan hal yang berbeda, bukan? Tetapi menurut prinsip kemungkinan , mereka harus sampai pada kesimpulan yang sama. Secara singkat, prinsip kemungkinan menyatakan bahwa kemungkinan itulah yang penting untuk disimpulkan. Jadi perselisihan di sini berasal dari fakta bahwa kedua pengamatan memiliki kemungkinan yang sama, sebanding dengan (kemungkinan ditentukan hingga konstanta proporsionalitas). $p(1-p)^5$

Sejauh yang saya tahu, jawaban untuk pertanyaan kedua Anda lebih merupakan pendapat yang diperdebatkan. Saya pribadi mencoba menghindari melakukan tes dan menghitung nilai-p untuk alasan di atas, dan untuk yang lain dijelaskan dalam posting blog ini .

EDIT: Sekarang saya memikirkannya, estimasi dengan interval kepercayaan juga akan berbeda. Sebenarnya jika modelnya berbeda, CI berbeda dengan konstruksi. $p$

gui11aume
sumber

Saya mendapat kesan bahwa prinsip kemungkinan jelas dilanggar dalam statistik frequentist (pengujian hipotesis, interval kepercayaan) karena kami mempertimbangkan probabilitas setiap hasil yang mungkin, bukan hanya kemungkinan berdasarkan hasil aktual. Baik ?

Stéphane Laurent

@ Stéphane Laurent ya, itu juga bagaimana saya memahaminya. James Berger memiliki kutipan yang bagus dalam Teori Keputusan Statistik dan Analisis Bayesian , yang mengatakan bahwa Frequentist kadang-kadang menolak hipotesis karena data yang tidak pernah diamati (kedengarannya lebih baik, tetapi saya tidak dapat mengingatnya).

gui11aume

Terima kasih, gui11aume. Apakah saya benar untuk menafsirkan bahwa sebagai contoh di mana 'makna' nilai-P bervariasi dengan maksud eksperimen? Saya berasumsi bahwa ini adalah kasus ketika nilai-P ditafsirkan sebagai semacam ambang tingkat kesalahan positif palsu karena mereka harus didistribusikan secara seragam di bawah hipotesis nol? Apakah itu diperlukan dengan pendekatan Fisher di mana nilai-P disajikan sebagai indeks kekuatan bukti?

Michael Lew

(+1) Perbedaan semacam ini biasanya muncul ketika aturan penghentian terlibat dalam salah satu model.

@Scortchi Sebenarnya saya salah berpikir bahwa salah satu nilai-P menunjuk ke fungsi kemungkinan yang benar dan yang lainnya tidak: keduanya menunjukkan fungsi kemungkinan yang sama yang menyajikan bukti yang relevan dengan probabilitas kepala. Anda harus mengabaikan dua kalimat terakhir dari komentar saya sebelumnya. (Saya tidak bisa mengeditnya, bukan?)

Michael Lew

Saya suka contoh oleh @ gui11aume (+1), tetapi ini dapat membuat kesan bahwa perbedaan dalam dua nilai- muncul hanya karena perbedaan aturan penghentian yang digunakan oleh kedua peneliti. $p$

Faktanya, saya percaya ini adalah fenomena yang jauh lebih umum. Pertimbangkan eksperimen kedua dalam jawaban @ gui11aume: orang yang melempar koin enam kali dan mengamati kepala hanya pada lemparan terakhir. Hasilnya terlihat seperti itu: berapakah nilai- ? Pendekatan yang biasa dilakukan adalah menghitung probabilitas bahwa koin yang adil akan menghasilkan satu atau lebih sedikit kepala. Ada kemungkinan dari total dengan satu atau kurang kepala, karenanya .

T T T T T H,

$\mathrm{T \;\;\; T \;\;\;T \;\;\;T \;\;\;T \;\;\;H},$

p

$p$

7

$7$

64

$64$

p = 7 / 64 \approx 0.109

$p=7/64\approx 0.109$

Tetapi mengapa tidak mengambil statistik tes lain ? Sebagai contoh, dalam percobaan ini kami mengamati lima ekor berturut-turut. Mari kita ambil urutan panjang ekor terpanjang sebagai statistik uji. Ada kemungkinan dengan lima atau enam ekor berturut-turut, maka . $3$ $p=3/64\approx0.047$

Jadi jika dalam kasus ini tingkat kesalahan ditetapkan pada , maka pilihan statistik uji dapat dengan mudah memberikan hasil yang signifikan atau tidak, dan ini tidak ada hubungannya dengan aturan penghentian per se . $\alpha=0.05$

Bagian spekulatif

Sekarang, secara filosofis, saya akan mengatakan bahwa pilihan yang sering dari statistik uji dalam beberapa pengertian yang mirip dengan pilihan Bayesian sebelumnya. Kami memilih satu atau beberapa statistik uji karena kami percaya bahwa koin yang tidak adil akan berperilaku dengan cara ini atau itu (dan kami ingin memiliki kekuatan untuk mendeteksi perilaku ini). Bukankah ini mirip dengan memprioritaskan jenis koin?

Jika demikian, maka prinsip kemungkinan mengatakan bahwa semua bukti ada dalam kemungkinan tidak bertentangan dengan nilai- , karena nilai- maka tidak hanya "jumlah bukti". Itu adalah "ukuran kejutan", tetapi sesuatu hanya bisa menjadi ukuran kejutan jika itu menjelaskan apa yang akan membuat kita terkejut! Nilai mencoba untuk menggabungkan dalam satu skalar kuantitas baik bukti dan semacam harapan sebelumnya (sebagaimana diwakili dalam pilihan statistik uji). Jika demikian, maka itu tidak boleh dibandingkan dengan kemungkinan itu sendiri, tetapi mungkin lebih ke posterior? $p$ $p$ $p$

Saya akan sangat tertarik untuk mendengar beberapa pendapat tentang bagian spekulatif ini, di sini atau dalam obrolan.

Perbarui diskusi berikut dengan @MichaelLew

Saya takut contoh saya di atas tidak cocok dengan pokok perdebatan ini. Memilih statistik uji yang berbeda mengarah ke perubahan fungsi kemungkinan juga. Jadi dua nilai- berbeda yang dihitung di atas sesuai dengan dua fungsi kemungkinan yang berbeda, dan karenanya tidak bisa menjadi contoh "bentrokan" antara prinsip kemungkinan dan nilai- . Keindahan dari contoh @ gui11aume adalah bahwa fungsi kemungkinan tetap sama persis, meskipun nilai- berbeda. $p$ $p$ $p$

Saya masih harus memikirkan apa artinya ini bagi bagian "spekulatif" saya di atas.

amuba kata Reinstate Monica
sumber

Pikiran yang menarik. Ya, saya setuju bahwa tidak perlu ada konflik antara nilai-LP dan P-nilai selama nilai-P tidak ditafsirkan sebagai bukti dengan cara yang sama seperti fungsi kemungkinan. Fungsi kemungkinan berisi bukti yang relevan dengan parameter minat yang diberikan model statistik . Ketika Anda mengubah statistik uji, Anda mengubah model, sehingga fungsi kemungkinan untuk model alternatif Anda (mungkin, mungkin) berbeda dari fungsi kemungkinan untuk yang asli.

Michael Lew

Michael, saya tidak yakin apa sebenarnya "model statistik" berarti, tapi tidak koin dengan kepala probabilitas sudah model? Bagaimana mengubah statistik uji mengubah model?

p

$p$

Amoeba berkata Reinstate Monica

Terlepas dari itu, saya menemukan pertanyaan ini karena saya membaca kembali makalah "To P or not to P" (dan googled "prinsip kemungkinan"). Saya umumnya suka kertas, tapi saya benar-benar bingung dengan bagian 4.4. Anda menulis bahwa nilai-p tidak boleh "disesuaikan" dengan mempertimbangkan aturan penghentian; tapi saya tidak melihat penyesuaian dalam rumus 5-6. Akan seperti apa nilai-p "tidak disesuaikan"? Apakah maksud Anda salah satunya disesuaikan dan yang lain tidak? Jika demikian, yang mana, dan mengapa tidak sebaliknya?

Amuba mengatakan Reinstate Monica

Model statistik sering diabaikan atau secara diam-diam dianggap invarian. Namun, untuk koin itu termasuk probabilitas tetap yang tidak diketahui dari kepala, pemilihan pengamatan acak, dan, untuk statistik uji coba dari uji coba keluar, distribusi binomial dari kemungkinan hasil. Saya tidak tahu apa distribusi hasil untuk ekor dalam statistik tes baris tapi saya curiga berbeda. Bahkan jika itu sama, model yang memiliki statistik pengujian Anda bukan model yang sama dengan yang asli sehingga fungsi kemungkinannya bisa berbeda walaupun berisi semua bukti.

Michael Lew

Saya hampir menyelesaikan pengerjaan ulang kertas itu. Ini relevan dengan diskusi ini tetapi belum siap untuk diajukan. (Apakah obrolan ini?)

Michael Lew