Dalam sebuah makalah baru-baru ini , Masicampo dan Lalande (ML) mengumpulkan sejumlah besar nilai-p yang diterbitkan dalam banyak studi berbeda. Mereka mengamati lompatan aneh dalam histogram dari nilai-p tepat pada tingkat kritis kanonik 5%.
Ada diskusi yang bagus tentang Fenomena ML ini di blog Prof. Wasserman:
http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/
Di blog-nya, Anda akan menemukan histogram:
Karena level 5% adalah konvensi dan bukan hukum alam, apa yang menyebabkan perilaku distribusi empiris nilai-p yang dipublikasikan ini?
Bias seleksi, "penyesuaian" sistematis nilai-p tepat di atas tingkat kritis kanonik, atau apa?
Jawaban:
(1) Seperti yang telah disebutkan oleh @PeterFlom, satu penjelasan mungkin terkait dengan masalah "file drawer". (2) @ Zen juga menyebutkan kasus di mana penulis (s) memanipulasi data atau model (misalnya pengerukan data ). (3) Namun, kami tidak menguji hipotesis secara acak murni. Artinya, hipotesis tidak dipilih secara kebetulan tetapi kami memiliki asumsi teoritis (kurang lebih kuat).
Anda juga mungkin tertarik dengan karya-karya Gerber dan Malhotra yang baru-baru ini melakukan penelitian di area itu dengan menerapkan apa yang disebut "uji caliper":
Apakah Standar Pelaporan Statistik Mempengaruhi Apa yang Diterbitkan? Publikasi Bias di Dua Jurnal Ilmu Politik Terkemuka
Publikasi Bias dalam Penelitian Sosiologis Empiris: Apakah Tingkat Signifikansi Sewenang-wenang Mendistorsi Hasil yang Diterbitkan?
Anda juga mungkin tertarik dengan masalah khusus ini yang diedit oleh Andreas Diekmann:
sumber
Salah satu argumen yang hilang sejauh ini adalah fleksibilitas analisis data yang dikenal sebagai derajat kebebasan peneliti. Dalam setiap analisis ada banyak keputusan yang harus dibuat, di mana untuk menetapkan kriteria outlier, bagaimana mengubah data, dan ...
Ini baru-baru ini diangkat dalam artikel yang berpengaruh oleh Simmons, Nelson dan Simonsohn:
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi Positif-Palsu: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan. Ilmu Psikologi , 22 (11), 1359 -1366. doi: 10.1177 / 0956797611417632
(Perhatikan bahwa ini adalah Simonsohn yang sama yang bertanggung jawab atas beberapa kasus penipuan data yang baru-baru ini terdeteksi dalam Psikologi Sosial, misalnya wawancara , posting blog )
sumber
Saya pikir itu adalah kombinasi dari semua yang telah dikatakan. Ini adalah data yang sangat menarik dan saya belum berpikir untuk melihat distribusi nilai-p seperti ini sebelumnya. Jika hipotesis nol benar, nilai-p akan seragam. Tetapi tentu saja dengan hasil yang dipublikasikan kami tidak akan melihat keseragaman karena banyak alasan.
Kami melakukan penelitian karena kami berharap hipotesis nol menjadi salah. Jadi kita harus mendapatkan hasil yang signifikan lebih sering daripada tidak.
Jika hipotesis nol salah hanya separuh waktu kita tidak akan mendapatkan distribusi nilai-p yang seragam.
Masalah laci file: Seperti yang disebutkan, kita akan takut untuk menyerahkan kertas ketika nilai-p tidak signifikan misalnya di bawah 0,05.
Penerbit akan menolak makalah karena hasil yang tidak signifikan meskipun kami memilih untuk mengirimkannya.
Ketika hasilnya berada di perbatasan kita akan melakukan hal-hal (mungkin tidak dengan niat jahat) untuk mendapatkan signifikansi. (a) bulatkan ke 0,05 ketika nilai-p adalah 0,053, (b) temukan pengamatan yang menurut kami mungkin outlier dan setelah rmoving, nilai-p turun di bawah 0,05.
Saya harap ini merangkum semua yang telah dikatakan dengan cara yang cukup dimengerti.
Yang saya pikir menarik adalah bahwa kita melihat nilai-p antara 0,05 dan 0,1. Jika aturan publikasi menolak apa pun dengan nilai p di atas 0,05 maka ekor kanan akan terpotong pada 0,05. Apakah itu benar-benar terputus pada 0,10? jika demikian mungkin beberapa penulis dan beberapa jurnal akan menerima tingkat signifikansi 0,10 tetapi tidak ada yang lebih tinggi.
Karena banyak makalah menyertakan beberapa nilai-p (disesuaikan dengan multiplitas atau tidak) dan makalah tersebut diterima karena tes-tes utama signifikan, kita mungkin melihat nilai-p tidak signifikan termasuk dalam daftar. Ini menimbulkan pertanyaan "Apakah semua nilai-p yang dilaporkan dalam makalah termasuk dalam histogram?"
Satu pengamatan tambahan adalah bahwa ada tren yang signifikan dalam frekuensi makalah yang diterbitkan karena nilai-p jauh di bawah 0,05. Mungkin itu merupakan indikasi dari penulis yang terlalu menafsirkan pemikiran nilai-p p <0,0001 jauh lebih layak untuk dipublikasikan. Saya pikir penulis mengabaikan atau tidak menyadari bahwa nilai-p sangat tergantung pada ukuran sampel seperti halnya pada besarnya ukuran efek.
sumber