Ziliak (2011) menentang penggunaan nilai-p dan menyebutkan beberapa alternatif; Apakah mereka?

25

Dalam sebuah artikel baru-baru ini yang membahas kerugian bergantung pada nilai-p untuk inferensi statistik, yang disebut "Matrixx v. Siracusano dan Student v. Fisher signifikansi statistik pada percobaan" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak menentang penggunaan nilai-p. Dalam paragraf penutup dia berkata:

Data adalah satu hal yang sudah kita ketahui, dan pasti. Apa yang sebenarnya ingin kita ketahui adalah sesuatu yang sangat berbeda: probabilitas hipotesis itu benar (atau setidaknya berguna secara praktis), mengingat data yang kita miliki. Kami ingin mengetahui probabilitas bahwa kedua obat itu berbeda, dan seberapa banyak, berdasarkan bukti yang tersedia. Tes signifikansi - yang didasarkan pada kekeliruan dari kondisi bersyarat, perangkap yang dijebak Fisher - tidak dan tidak bisa memberi tahu kita kemungkinan itu. Fungsi kekuasaan, fungsi kerugian yang diharapkan, dan banyak metode pengambilan keputusan lainnya - teoretis dan Bayesian turun dari Student dan Jeffreys, sekarang tersedia secara luas dan gratis secara online, lakukan.

Apa fungsi kekuasaan, fungsi kerugian yang diharapkan dan "metode pengambilan keputusan-teori lainnya dan Bayesian"? Apakah metode ini banyak digunakan? Apakah mereka tersedia dalam R? Bagaimana metode baru yang disarankan ini diterapkan? Bagaimana, misalnya, bagaimana saya akan menggunakan metode ini untuk menguji hipotesis saya dalam set data yang saya akan menggunakan uji-t dua sampel konvensional dan nilai-p?

Ariel
sumber
Ada banyak makalah yang menentang penggunaan nilai- saja, tetapi itu benar-benar tergantung pada konteksnya, IMO. Bisakah Anda menambahkan informasi lebih lanjut tentang apa yang Anda minati (lih. Kalimat terakhir Anda)? hal
chl
2
Saya tidak memiliki akses ke artikel, tetapi argumen ini menunjukkan pemahaman yang agak cacat tentang apa yang terjadi. Meskipun pemahamannya salah, kesimpulan bahwa statistik lain yang layak dipertimbangkan adalah masuk akal. Fungsi kerugian diperkirakan hanya perkiraan diharapkan nilai dari fungsi kerugian (misalnya kuadrat error, logistik, dll).
Iterator
Karena utas serupa yang baru-baru ini diposkan , saya telah mengajukan pertanyaan tentang utas ini di Meta CV
Silverfish

Jawaban:

17

Ini kedengarannya seperti kertas nyaring lainnya oleh orang yang bingung. Fisher tidak jatuh ke dalam perangkap seperti itu, meskipun banyak siswa statistik melakukannya.

Pengujian hipotesis adalah masalah keputusan teoritik. Secara umum, Anda berakhir dengan tes dengan ambang batas yang diberikan antara dua keputusan (hipotesis benar atau hipotesis salah). Jika Anda memiliki hipotesis yang sesuai dengan satu titik, seperti , maka Anda dapat menghitung probabilitas data Anda dihasilkan ketika itu benar. Tapi apa yang Anda lakukan jika itu bukan satu poin? Anda mendapatkan fungsi θ . Hipotesis θ 0 adalah hipotesis seperti itu, dan Anda mendapatkan fungsi seperti itu untuk probabilitas menghasilkan data yang Anda amati mengingat itu benar. Fungsi itu adalah fungsi daya. Sangat klasik. Fisher tahu semua tentang itu.θ=0θθ0

Kehilangan yang diharapkan adalah bagian dari mesin dasar teori keputusan. Anda memiliki berbagai keadaan alamiah, dan berbagai kemungkinan data yang dihasilkan darinya, dan beberapa kemungkinan keputusan yang dapat Anda buat, dan Anda ingin menemukan fungsi yang baik dari data hingga keputusan. Bagaimana Anda mendefinisikan yang baik? Mengingat keadaan alam tertentu yang mendasari data yang telah Anda peroleh, dan keputusan yang dibuat oleh prosedur itu, apa kerugian yang Anda harapkan? Ini paling mudah dipahami dalam masalah bisnis (jika saya melakukan ini berdasarkan penjualan yang saya amati dalam tiga kuartal terakhir, apa kerugian moneter yang diharapkan?).

Prosedur Bayesian adalah bagian dari prosedur teoretis keputusan. Kerugian yang diharapkan tidak cukup untuk menentukan prosedur terbaik yang unik dalam semua kasus kecuali sepele. Jika satu prosedur lebih baik daripada yang lain di kedua negara A dan B, jelas Anda akan lebih suka, tetapi jika satu lebih baik di negara A dan satu lebih baik di negara B, yang Anda pilih? Di sinilah ide-ide tambahan seperti prosedur Bayes, minimaxity, dan ketidakberpihakan masuk.

ttαβhalαhal

Saya juga sedikit bingung mengapa dia menamai Student dan Jeffreys bersama-sama, mengingat Fisher bertanggung jawab atas penyebaran luas karya Student.

Pada dasarnya, penggunaan buta nilai-p adalah ide yang buruk, dan mereka adalah konsep yang agak halus, tetapi itu tidak membuat mereka tidak berguna. Haruskah kita menolak penyalahgunaan mereka oleh peneliti dengan latar belakang matematika yang buruk? Tentu saja, tapi mari kita ingat seperti apa sebelum Fisher mencoba menyaring sesuatu untuk digunakan oleh orang di lapangan.

pengguna873
sumber
5
+1 untuk benar-benar menjawab pertanyaan, dan +1 tambahan (tetapi virtual) untuk menantang kutipan, yang provokatif tetapi bermasalah. Saya melihat Anda adalah peserta baru-baru ini di sini tetapi telah berkontribusi banyak jawaban: banyak terima kasih dan selamat datang (sedikit terlambat) ke situs kami!
whuber
Terima kasih banyak atas jawaban terperinci Anda. Ini membantu untuk memikirkan strategi alternatif yang disarankan dalam makalah itu secara kritis. Saya mengajukan pertanyaan ini karena beberapa rekan menggunakan makalah ini untuk mengatakan bahwa kita seharusnya tidak melihat nilai-p sama sekali dan saya menyadari bahwa saya tidak mengerti apa arti sebenarnya alternatif-alternatif ini. Terima kasih atas klarifikasi Anda!
Ariel
@whuber Saya tidak berpikir ini menjawab pertanyaan sama sekali. OP bertanya tentang alternatif yang disarankan Ziliak, dan jawaban ini tidak mengatasinya. Misalnya, kritik Ziliak tentang signifikansi menyentuh mengapa orang menggunakan signifikansi 5% atau 1%. Benar-benar tidak ada alasan kuat, dan dia bisa melacak level-level ini kembali ke surat kabar Fisher. Ini hanya beberapa nomor yang sewenang-wenang dan nyaman. Berbeda dengan pendekatan "alternatif" berdasarkan keuntungan uang, yaitu nilai dolar.
Aksakal
1
@Aksakal Saya percaya bahwa kontribusi penting dibuat untuk percakapan dengan menghubungkan pengujian hipotesis dengan masalah teori-keputusan dan secara eksplisit menghubungkan nilai-p dengan risiko yang diharapkan (berdasarkan fungsi kerugian 0-1).
whuber
6

Saya merekomendasikan fokus pada hal-hal seperti interval kepercayaan dan pengecekan model. Andrew Gelman telah melakukan pekerjaan besar dalam hal ini. Saya merekomendasikan buku-buku pelajarannya tetapi juga memeriksa barang-barang yang dia masukkan online, misalnya http://andrewgelman.com/2011/06/the_holes_in_my/

Michael Bishop
sumber
5

The ez paket menyediakan rasio kemungkinan ketika Anda menggunakan ezMixed()fungsi untuk melakukan pemodelan efek campuran. Rasio kemungkinan bertujuan untuk mengkuantifikasi bukti untuk suatu fenomena dengan membandingkan kemungkinan (mengingat data yang diamati) dari dua model: model "terbatas" yang membatasi pengaruh fenomena menjadi nol dan model "tidak terbatas" yang memungkinkan pengaruh bukan nol dari fenomena. Setelah mengoreksi kemungkinan yang diamati untuk kompleksitas diferensial model '(melalui Akaike Information Criterion, yang secara asimtotik setara dengan cross-validasi), rasio mengukur bukti untuk fenomena tersebut.

Mike Lawrence
sumber
4

Semua teknik tersebut tersedia dalam R dalam arti yang sama bahwa semua aljabar tersedia dalam pensil Anda. Bahkan nilai-p tersedia melalui banyak fungsi berbeda dalam R, memutuskan fungsi mana yang digunakan untuk mendapatkan nilai-p atau posterior Bayesian lebih kompleks daripada penunjuk ke fungsi tunggal atau paket.

Setelah Anda mempelajari teknik-teknik tersebut dan memutuskan pertanyaan apa yang sebenarnya Anda inginkan jawabannya juga maka Anda dapat melihat (atau kami dapat memberikan lebih banyak bantuan) bagaimana melakukannya dengan menggunakan R (atau alat lain). Hanya mengatakan bahwa Anda ingin meminimalkan fungsi kerugian Anda, atau mendapatkan distribusi posterior sama bermanfaatnya dengan menjawab "makanan" ketika ditanya apa yang ingin Anda makan untuk makan malam.

Greg Snow
sumber