Apa yang menyebabkan diskontinuitas dalam distribusi nilai-p yang dipublikasikan pada p <0,05?

27

Dalam sebuah makalah baru-baru ini , Masicampo dan Lalande (ML) mengumpulkan sejumlah besar nilai-p yang diterbitkan dalam banyak studi berbeda. Mereka mengamati lompatan aneh dalam histogram dari nilai-p tepat pada tingkat kritis kanonik 5%.

Ada diskusi yang bagus tentang Fenomena ML ini di blog Prof. Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Di blog-nya, Anda akan menemukan histogram:

Histogram dari nilai-p yang dipublikasikan

Karena level 5% adalah konvensi dan bukan hukum alam, apa yang menyebabkan perilaku distribusi empiris nilai-p yang dipublikasikan ini?

Bias seleksi, "penyesuaian" sistematis nilai-p tepat di atas tingkat kritis kanonik, atau apa?

Zen
sumber
11
Setidaknya ada 2 macam penjelasan: 1) "masalah laci file" - studi dengan p <.05 dipublikasikan, yang di atas tidak, jadi ini benar-benar campuran dari dua distribusi 2) Orang-orang memanipulasi hal-hal, mungkin secara tidak sadar , untuk mendapatkan p <.05
Peter Flom - Reinstate Monica
3
Hai @ Zen. Ya, hal semacam itu. Ada kecenderungan kuat untuk melakukan hal-hal seperti ini. Jika teori kita dikonfirmasi, kita cenderung mencari masalah statistik daripada jika tidak. Ini tampaknya menjadi bagian dari sifat kita, tetapi itu adalah sesuatu yang harus dihindari.
Peter Flom - Reinstate Monica
@ Zen Anda mungkin tertarik pada posting ini di blog Andrew Gelman yang menyebutkan beberapa penelitian yang menemukan bahwa tidak ada bias publikasi dalam penelitian tentang bias publikasi ...! andrewgelman.com/2012/04/...
smillig
1
Apa yang akan menarik adalah menghitung kembali nilai-p dari makalah dalam jurnal yang secara tegas menolak makalah berbasis nilai p, seperti Epidemiologi dulu (dan dalam beberapa hal, masih begitu). Saya bertanya-tanya apakah itu berubah jika jurnal telah keluar dan menyatakan tidak peduli, atau apakah pengulas / penulis masih melakukan tes mental ad-hoc berdasarkan interval kepercayaan.
Fomite
4
Seperti yang dijelaskan di blog Larry, ini adalah kumpulan nilai-p yang dipublikasikan, bukan sampel acak nilai-p yang disampel dari Dunia nilai-p. Dengan demikian tidak ada alasan distribusi seragam akan muncul dalam gambar, bahkan sebagai bagian dari campuran sebagaimana dimodelkan dalam posting Larry.
Xi'an

Jawaban:

14

(1) Seperti yang telah disebutkan oleh @PeterFlom, satu penjelasan mungkin terkait dengan masalah "file drawer". (2) @ Zen juga menyebutkan kasus di mana penulis (s) memanipulasi data atau model (misalnya pengerukan data ). (3) Namun, kami tidak menguji hipotesis secara acak murni. Artinya, hipotesis tidak dipilih secara kebetulan tetapi kami memiliki asumsi teoritis (kurang lebih kuat).

Anda juga mungkin tertarik dengan karya-karya Gerber dan Malhotra yang baru-baru ini melakukan penelitian di area itu dengan menerapkan apa yang disebut "uji caliper":

Anda juga mungkin tertarik dengan masalah khusus ini yang diedit oleh Andreas Diekmann:

Bernd Weiss
sumber
10

Salah satu argumen yang hilang sejauh ini adalah fleksibilitas analisis data yang dikenal sebagai derajat kebebasan peneliti. Dalam setiap analisis ada banyak keputusan yang harus dibuat, di mana untuk menetapkan kriteria outlier, bagaimana mengubah data, dan ...

Ini baru-baru ini diangkat dalam artikel yang berpengaruh oleh Simmons, Nelson dan Simonsohn:

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi Positif-Palsu: Fleksibilitas yang Tidak diungkapkan dalam Pengumpulan dan Analisis Data Memungkinkan Menyajikan Apa pun sebagai Signifikan. Ilmu Psikologi , 22 (11), 1359 -1366. doi: 10.1177 / 0956797611417632

(Perhatikan bahwa ini adalah Simonsohn yang sama yang bertanggung jawab atas beberapa kasus penipuan data yang baru-baru ini terdeteksi dalam Psikologi Sosial, misalnya wawancara , posting blog )

Henrik
sumber
8

Saya pikir itu adalah kombinasi dari semua yang telah dikatakan. Ini adalah data yang sangat menarik dan saya belum berpikir untuk melihat distribusi nilai-p seperti ini sebelumnya. Jika hipotesis nol benar, nilai-p akan seragam. Tetapi tentu saja dengan hasil yang dipublikasikan kami tidak akan melihat keseragaman karena banyak alasan.

  1. Kami melakukan penelitian karena kami berharap hipotesis nol menjadi salah. Jadi kita harus mendapatkan hasil yang signifikan lebih sering daripada tidak.

  2. Jika hipotesis nol salah hanya separuh waktu kita tidak akan mendapatkan distribusi nilai-p yang seragam.

  3. Masalah laci file: Seperti yang disebutkan, kita akan takut untuk menyerahkan kertas ketika nilai-p tidak signifikan misalnya di bawah 0,05.

  4. Penerbit akan menolak makalah karena hasil yang tidak signifikan meskipun kami memilih untuk mengirimkannya.

  5. Ketika hasilnya berada di perbatasan kita akan melakukan hal-hal (mungkin tidak dengan niat jahat) untuk mendapatkan signifikansi. (a) bulatkan ke 0,05 ketika nilai-p adalah 0,053, (b) temukan pengamatan yang menurut kami mungkin outlier dan setelah rmoving, nilai-p turun di bawah 0,05.

Saya harap ini merangkum semua yang telah dikatakan dengan cara yang cukup dimengerti.

Yang saya pikir menarik adalah bahwa kita melihat nilai-p antara 0,05 dan 0,1. Jika aturan publikasi menolak apa pun dengan nilai p di atas 0,05 maka ekor kanan akan terpotong pada 0,05. Apakah itu benar-benar terputus pada 0,10? jika demikian mungkin beberapa penulis dan beberapa jurnal akan menerima tingkat signifikansi 0,10 tetapi tidak ada yang lebih tinggi.

Karena banyak makalah menyertakan beberapa nilai-p (disesuaikan dengan multiplitas atau tidak) dan makalah tersebut diterima karena tes-tes utama signifikan, kita mungkin melihat nilai-p tidak signifikan termasuk dalam daftar. Ini menimbulkan pertanyaan "Apakah semua nilai-p yang dilaporkan dalam makalah termasuk dalam histogram?"

Satu pengamatan tambahan adalah bahwa ada tren yang signifikan dalam frekuensi makalah yang diterbitkan karena nilai-p jauh di bawah 0,05. Mungkin itu merupakan indikasi dari penulis yang terlalu menafsirkan pemikiran nilai-p p <0,0001 jauh lebih layak untuk dipublikasikan. Saya pikir penulis mengabaikan atau tidak menyadari bahwa nilai-p sangat tergantung pada ukuran sampel seperti halnya pada besarnya ukuran efek.

Michael R. Chernick
sumber