Saya mencoba memahami klaim gambaran besar yang dibuat di Taleb, 2016, The Meta-Distribution of Standard P-Values .
Di dalamnya, Taleb membuat argumen berikut untuk tidak dapat diandalkannya nilai-p (seperti yang saya mengerti):
Prosedur estimasi yang beroperasi pada titik data yang berasal dari beberapa distribusi menghasilkan nilai ap. Jika kita menarik n lebih banyak poin dari distribusi ini dan mengeluarkan nilai p lain, kita dapat meratakan nilai-p ini dalam batas yang disebut "nilai p benar".
"True p-value" ini terbukti memiliki varian yang sangat tinggi, sehingga prosedur distribusi + dengan "true p value" akan 60% dari waktu melaporkan nilai p <0,05.
Pertanyaan : bagaimana ini dapat direkonsiliasi dengan argumen tradisional yang mendukung nilai- . Seperti yang saya pahami, nilai-p seharusnya memberi tahu Anda berapa persen dari waktu prosedur Anda akan memberi Anda interval yang benar (atau apa pun). Namun, makalah ini tampaknya berpendapat bahwa interpretasi ini menyesatkan karena nilai-p tidak akan sama jika Anda menjalankan prosedur lagi.
Apakah saya melewatkan intinya?
sumber
Jawaban:
Nilai-p adalah variabel acak.
Di bawah (setidaknya untuk statistik yang didistribusikan secara kontinu), nilai-p harus memiliki distribusi yang seragamH0
Untuk tes yang konsisten, di bawah nilai p harus pergi ke 0 dalam batas ketika ukuran sampel meningkat hingga tak terbatas. Demikian pula, ketika ukuran efek meningkatkan distribusi nilai-p juga harus cenderung bergeser ke 0, tetapi akan selalu "menyebar".H1
Gagasan p-value "benar" terdengar seperti omong kosong bagi saya. Apa artinya, di bawah atau H 1 ? Misalnya, Anda mungkin mengatakan bahwa yang Anda maksudkan adalah "rata -rata distribusi nilai-p pada beberapa ukuran efek dan ukuran sampel ", tetapi kemudian dalam hal apa Anda memiliki konvergensi di mana spread harus menyusut? Ini tidak seperti Anda dapat meningkatkan ukuran sampel sambil memegangnya dengan konstan.H0 H1
Berikut adalah contoh dengan satu uji-t sampel dan ukuran efek kecil di bawah . Nilai-p hampir seragam ketika ukuran sampel kecil, dan distribusi perlahan-lahan terkonsentrasi ke 0 ketika ukuran sampel meningkat.H1
Ini persis bagaimana nilai-p seharusnya berperilaku - untuk null palsu, ketika ukuran sampel meningkat, nilai-p harus menjadi lebih terkonsentrasi pada nilai-nilai rendah, tetapi tidak ada yang menunjukkan bahwa distribusi nilai-nilai yang diperlukan ketika Anda membuat kesalahan tipe II - ketika nilai-p di atas apa pun tingkat signifikansi Anda - entah bagaimana harus berakhir "dekat" ke tingkat signifikansi itu.
Sering membantu untuk mempertimbangkan apa yang terjadi baik dengan distribusi statistik uji apa pun yang Anda gunakan di bawah alternatif dan apa yang menerapkan cdf di bawah nol sebagai transformasi yang akan dilakukan untuk distribusi (yang akan memberikan distribusi nilai p di bawah alternatif spesifik). Ketika Anda berpikir dalam istilah-istilah ini, seringkali tidak sulit untuk melihat mengapa perilakunya seperti apa adanya.
Masalah yang saya lihat bukan pada masalah inheren dengan nilai-p atau pengujian hipotesis sama sekali, ini lebih merupakan masalah apakah tes hipotesis merupakan alat yang baik untuk masalah khusus Anda atau apakah ada hal lain yang lebih sesuai. dalam setiap kasus tertentu - itu bukan situasi untuk polemik luas tetapi pertimbangan cermat dari jenis pertanyaan yang diuji hipotesis dan kebutuhan khusus dari keadaan Anda. Sayangnya pertimbangan yang cermat dari masalah ini jarang dibuat - terlalu sering orang melihat pertanyaan dari bentuk "tes apa yang saya gunakan untuk data ini?" tanpa pertimbangan apa pertanyaan yang menarik, apalagi apakah beberapa tes hipotesis adalah cara yang baik untuk mengatasinya.
Salah satu kesulitannya adalah bahwa tes hipotesis keduanya banyak disalahpahami dan banyak disalahgunakan; orang sangat sering berpikir bahwa mereka memberi tahu kami hal-hal yang tidak mereka ketahui. Nilai p mungkin merupakan satu-satunya hal yang paling disalahpahami tentang tes hipotesis.
sumber
Jawaban Glen_b tepat (+1; pertimbangkan tambahan tambang). Makalah yang Anda rujuk oleh Taleb secara topikal sangat mirip dengan serangkaian makalah dalam literatur psikologi dan statistik tentang jenis informasi apa yang dapat Anda peroleh dari menganalisis distribusi nilai-p (apa yang penulis sebut p-kurva ; lihat situs mereka dengan banyak sumber daya, termasuk aplikasi analisis p-curve di sini ).
Para penulis mengusulkan dua penggunaan utama dari p-curve:
Jadi, untuk pertanyaan Anda yang lebih luas tentang:
Saya akan mengatakan bahwa metode seperti Taleb (dan lainnya) telah menemukan cara untuk menggunakan kembali nilai-p, sehingga kita bisa mendapatkan informasi yang berguna tentang seluruh literatur dengan menganalisis kelompok nilai-p, sedangkan satu nilai-p pada dirinya sendiri, mungkin jauh lebih terbatas dalam kegunaannya.
Referensi
Simonsohn, U., Nelson, LD, & Simmons, JP (2014a). P-curve: Kunci Ke Laci File. Jurnal Psikologi Eksperimental: Umum , 143 , 534-547.
Simonsohn, U., Nelson, LD, & Simmons, JP (2014b). P-Curve dan Ukuran Efek: Mengoreksi untuk Bias Publikasi Menggunakan Hanya Hasil Signifikan. Perspektif tentang Ilmu Psikologi , 9 , 666-681.
Simonsohn, U., Simmons, JP, & Nelson, LD (2015). Kurva P lebih baik: Membuat analisis kurva P lebih kuat untuk kesalahan, penipuan, dan peretasan P yang ambisius, sebuah Balasan untuk Ulrich dan Miller (2015). Jurnal Psikologi Eksperimental: Umum , 144 , 1146-1152.
sumber