Frasa p -hacking (juga: "pengerukan data" , "pengintai" atau "memancing") mengacu pada berbagai jenis malpraktek statistik di mana hasilnya menjadi signifikan secara statistik secara artifisial. Ada banyak cara untuk mendapatkan hasil yang "lebih penting", termasuk tetapi tidak terbatas pada:
- hanya menganalisis subset data yang "menarik" , di mana suatu pola ditemukan;
- gagal menyesuaikan dengan benar untuk beberapa pengujian , terutama pengujian pasca-hoc dan gagal melaporkan pengujian yang dilakukan tidak signifikan;
- mencoba tes yang berbeda dari hipotesis yang sama , misalnya tes parametrik dan non-parametrik ( ada beberapa diskusi tentang itu di utas ini ), tetapi hanya melaporkan yang paling signifikan;
- bereksperimen dengan memasukkan / mengeluarkan poin data , sampai hasil yang diinginkan diperoleh. Satu peluang muncul ketika "pencilan pembersihan data", tetapi juga ketika menerapkan definisi yang ambigu (misalnya dalam studi ekonometrik "negara maju", definisi yang berbeda menghasilkan set negara yang berbeda), atau kriteria inklusi kualitatif (misalnya dalam meta-analisis , mungkin merupakan argumen yang seimbang apakah metodologi studi tertentu cukup kuat untuk dimasukkan);
- contoh sebelumnya terkait dengan penghentian opsional , yaitu, menganalisis dataset dan memutuskan apakah akan mengumpulkan lebih banyak data atau tidak, tergantung pada data yang dikumpulkan sejauh ini ("ini hampir signifikan, mari kita ukur tiga siswa lagi!") tanpa memperhitungkan ini dalam analisis;
- eksperimen selama pemasangan model , khususnya kovariat untuk memasukkan, tetapi juga mengenai transformasi data / bentuk fungsional.
Jadi kita tahu hal - hal yang bisa dilakukan Ini sering terdaftar sebagai salah satu "bahaya nilai- p " dan disebutkan dalam laporan ASA tentang signifikansi statistik, dibahas di sini di Cross Validated , jadi kita juga tahu itu adalah Hal yang Buruk. Meskipun beberapa motivasi yang meragukan dan (khususnya dalam kompetisi untuk publikasi akademik) insentif kontraproduktif sudah jelas, saya menduga sulit untuk mencari tahu mengapa hal itu dilakukan, apakah malpraktik yang disengaja atau ketidaktahuan sederhana. Seseorang melaporkan p -values dari regresi bertahap (karena mereka menemukan prosedur stepwise "menghasilkan model yang baik", tapi tidak sadar yang diklaim sebagai p-nilai tidak valid) ada di kubu terakhir, tetapi efeknya masih p -hacking di bawah poin terakhir saya di atas.
Tentu saja ada bukti bahwa p -hacking "di luar sana", misalnya Head et al (2015) mencari tanda-tanda bahwa itu menginfeksi literatur ilmiah, tetapi bagaimana keadaan saat ini dari basis bukti kami tentang hal itu? Saya sadar bahwa pendekatan yang diambil oleh Head et al bukannya tanpa kontroversi, sehingga keadaan literatur saat ini, atau pemikiran umum dalam komunitas akademik, akan menarik. Misalnya kita punya ide tentang:
- Seberapa lazimnya hal itu, dan sejauh mana kita dapat membedakan kejadiannya dari bias publikasi ? (Apakah perbedaan ini bahkan bermakna?)
- Apakah efeknya sangat akut pada batas ? Apakah efek yang serupa terlihat di , misalnya, atau apakah kita melihat seluruh rentang nilai p- terpengaruh?p ≈ 0,01
- Apakah pola dalam hal-hal berbeda di antara bidang akademik?
- Apakah kita punya ide mana dari mekanisme p -hacking (beberapa di antaranya tercantum dalam poin-poin di atas) yang paling umum? Apakah beberapa formulir terbukti lebih sulit untuk dideteksi daripada yang lain karena mereka "disamarkan dengan lebih baik"?
Referensi
Kepala, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). Luas dan konsekuensi dari p -hacking dalam sains . PLoS Biol , 13 (3), e1002106.
sumber
Jawaban:
RINGKASAN EKSEKUTIF: jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.
Andrew Gelman suka menulis tentang topik ini dan telah mempostingnya secara luas akhir-akhir ini di blog-nya. Saya tidak selalu setuju dengan dia tapi saya suka perspektifnya tentang -hacking. Berikut adalah kutipan dari makalah Pengantar untuk Garden of Forking Paths (Gelman & Loken 2013; versi yang muncul di American Scientist 2014; lihat juga komentar singkat Gelman tentang pernyataan ASA), beri tekanan pada saya:p
Jadi: Gelman tidak suka istilah p-hacking karena itu menyiratkan bahwa para peneliti itu aktif curang. Sedangkan masalah dapat terjadi hanya karena peneliti memilih tes apa yang akan dilakukan / dilaporkan setelah melihat data, yaitu setelah melakukan beberapa analisis eksplorasi.
Dengan beberapa pengalaman bekerja di bidang biologi, saya dapat dengan aman mengatakan bahwa semua orang melakukan itu. Semua orang (termasuk saya) mengumpulkan beberapa data dengan hanya hipotesis a priori yang samar, melakukan analisis penjajakan yang luas, menjalankan berbagai uji signifikansi, mengumpulkan beberapa data lebih banyak, menjalankan dan menjalankan kembali pengujian, dan akhirnya melaporkan beberapa nilai dalam naskah akhir. Semua ini terjadi tanpa melakukan kecurangan secara aktif, melakukan pemungutan ceri gaya xkcd-jelly-bean yang bodoh , atau secara sadar meretas apa pun.p
Jadi jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.
Satu-satunya pengecualian yang muncul dalam pikiran adalah studi replikasi pra-terdaftar penuh dalam psikologi atau uji medis pra-terdaftar penuh.
Bukti spesifik
Yang mengherankan, beberapa orang menyurvei peneliti untuk menemukan bahwa banyak yang mengakui melakukan semacam peretasan ( John et al. 2012, Mengukur Prevalensi Praktik Penelitian yang Dapat Dipertanyakan Dengan Insentif untuk Memberitahu Kebenaran ):
Terlepas dari itu, semua orang mendengar tentang apa yang disebut "krisis replikasi" dalam psikologi: lebih dari setengah studi terbaru yang diterbitkan dalam jurnal psikologi top tidak mereplikasi ( Nosek et al. 2015, Memperkirakan reproduksibilitas ilmu psikologi ). (Studi ini baru-baru ini dilakukan di seluruh blog lagi, karena terbitan Science edisi Maret 2016 menerbitkan komentar yang berusaha menyangkal Nosek dkk. Dan juga balasan oleh Nosek dkk. Diskusi berlanjut di tempat lain, lihat posting oleh Andrew Gelman dan RetractionWatch post yang dia tautkan . Singkatnya, kritiknya tidak meyakinkan.)
Pembaruan Nov 2018: Kaplan dan Irvin, 2017, Kemungkinan Efek Null dari Uji Klinis NHLBI Besar Meningkat dari waktu ke waktu menunjukkan bahwa fraksi uji klinis yang melaporkan hasil nol meningkat dari 43% menjadi 92% setelah pra-pendaftaran menjadi diperlukan:
Head et al. 2015
Saya belum pernah mendengar tentang Head et al. belajar sebelumnya, tetapi sekarang telah meluangkan waktu melihat-lihat literatur sekitarnya. Saya juga telah melihat sekilas data mentah mereka .
Head et al. mengunduh semua makalah Akses Terbuka dari PubMed dan mengekstraksi semua nilai p yang dilaporkan dalam teks, mendapatkan 2,7 juta nilai p. Dari ini, 1,1 juta dilaporkan sebagai dan bukan sebagai . Dari semua ini, Head et al. secara acak mengambil satu nilai p per kertas tetapi ini tampaknya tidak mengubah distribusi, jadi di sini adalah bagaimana distribusi semua nilai 1,1 juta terlihat seperti (antara dan ):p=a p<a 0 0.06
Saya menggunakan lebar bin, dan orang dapat dengan jelas melihat banyak pembulatan yang dapat diprediksi di nilai- dilaporkan . Sekarang, Head et al. lakukan hal berikut: mereka membandingkan jumlah nilai dalam interval dan dalam interval ; angka sebelumnya ternyata (secara signifikan) lebih besar dan mereka menganggapnya sebagai bukti -hacking. Jika seseorang menyipit, seseorang dapat melihatnya pada sosok saya.0.0001 p p (0.045,0.5) (0.04,0.045) p
Saya menemukan ini sangat tidak meyakinkan karena satu alasan sederhana. Siapa yang ingin melaporkan temuan mereka dengan ? Sebenarnya, banyak orang tampaknya melakukan hal itu, tetapi tetap saja wajar untuk mencoba menghindari nilai garis batas yang tidak memuaskan ini dan lebih baik melaporkan angka signifikan lainnya, misalnya (kecuali tentu saja itu ). Jadi beberapa kelebihan -nilai dekat tetapi tidak sama dengan dapat dijelaskan oleh preferensi pembulatan peneliti.p=0.05 p=0.048 p=0.052 p 0.05
Dan terlepas dari itu, efeknya kecil .
(Satu-satunya efek kuat yang dapat saya lihat pada gambar ini adalah penurunan yang nyata dari kerapatan value setelah . Ini jelas disebabkan oleh bias publikasi.)p 0.05
Kecuali saya melewatkan sesuatu, Head et al. bahkan tidak membahas penjelasan alternatif yang potensial ini. Mereka juga tidak menyajikan histogram dari nilai- .p
Ada banyak makalah yang mengkritik Head et al. Dalam naskah yang tidak dipublikasikan ini, Hartgerink berpendapat bahwa Head et al. seharusnya menyertakan dan dalam perbandingan mereka (dan jika mereka punya, mereka tidak akan menemukan efeknya). Saya tidak yakin tentang hal itu; kedengarannya tidak terlalu meyakinkan. Akan jauh lebih baik jika kita bisa memeriksa distribusi nilai "mentah" tanpa pembulatan.p=0.04 p=0.05 p
Distribusi nilai- tanpa pembulatanp
Dalam makalah PeerJ 2016 ini (pracetak diposting pada tahun 2015) yang sama Hartgerink et al. mengekstrak nilai-p dari banyak makalah di jurnal psikologi top dan melakukan hal itu: mereka menghitung ulang nilai- tepat dari nilai statistik -, -, - dll. distribusi ini bebas dari artefak pembulatan dan tidak menunjukkan peningkatan apa pun terhadap 0,05 apa pun (Gambar 4):p t F χ2
Pendekatan yang sangat mirip diambil oleh Krawczyk 2015 di PLoS One, yang mengekstrak nilai 135k dari jurnal psikologi eksperimental teratas. Berikut adalah bagaimana distribusi mencari nilai- dilaporkan (kiri) dan yang dihitung ulang (kanan) :p p
Perbedaannya mencolok. Histogram kiri menunjukkan beberapa hal aneh yang terjadi di sekitar , tetapi di sebelah kanan hilang. Ini berarti bahwa hal-hal aneh ini disebabkan oleh preferensi orang untuk melaporkan nilai sekitar dan bukan karena -hacking.p=0.05 p≈0.05 p
Mascicampo dan Lalande
Tampaknya yang pertama mengamati dugaan kelebihan nilai- tepat di bawah 0,05 adalah Masicampo & Lalande 2012 , melihat tiga jurnal teratas dalam psikologi:p
Ini memang terlihat mengesankan, tetapi Lakens 2015 ( pracetak ) dalam Komentar yang diterbitkan berpendapat bahwa ini hanya tampak mengesankan berkat kesesuaian eksponensial yang menyesatkan. Lihat juga Lakens 2015, Tentang tantangan menggambar kesimpulan dari nilai-p tepat di bawah 0,05 dan referensi di dalamnya.
Ekonomi
Brodeur et al. 2016 (tautan menuju pracetak 2013) melakukan hal yang sama untuk literatur ekonomi. Lihat tiga jurnal ekonomi, ekstrak 50k hasil tes, konversi semuanya menjadi skor (menggunakan koefisien yang dilaporkan dan kesalahan standar bila memungkinkan dan menggunakan nilai jika hanya dilaporkan), dan dapatkan yang berikut:z p
Ini agak membingungkan karena nilai- kecil ada di sebelah kanan dan nilai- besar ada di sebelah kiri. Seperti yang ditulis penulis dalam abstrak, "Distribusi nilai-p menunjukkan bentuk unta dengan nilai-p yang melimpah di atas 0,25" dan "lembah antara 0,25 dan 0,10". Mereka berpendapat bahwa lembah ini adalah tanda sesuatu yang mencurigakan, tetapi ini hanya bukti tidak langsung. Juga, itu mungkin hanya karena pelaporan selektif, ketika nilai-p besar di atas 0,25 dilaporkan sebagai beberapa bukti dari kurangnya efek tetapi nilai-p antara 0,1 dan 0,25 dirasakan tidak ada di sini atau di sana dan cenderung dihilangkan. (Saya tidak yakin apakah efek ini ada dalam literatur biologis atau tidak karena plot di atas fokus pada interval .)p p p<0.05
Salah meyakinkan?
Berdasarkan semua hal di atas, kesimpulan saya adalah bahwa saya tidak melihat bukti kuat -hacking dalam distribusi nilai- di literatur biologis / psikologis secara keseluruhan. Ada banyak bukti pelaporan selektif, bias publikasi, pembulatan nilai turun menjadi dan efek pembulatan lucu lainnya, tapi saya tidak setuju dengan kesimpulan Head et al .: tidak ada tonjolan yang mencurigakan di bawah .p p p 0,05 0,050.05 0.05
Uri Simonsohn berpendapat bahwa ini "meyakinkan secara keliru" . Sebenarnya, ia mengutip makalah-makalah ini secara tidak kritis tetapi kemudian menyatakan bahwa "sebagian besar nilai-p jauh lebih kecil" dari 0,05. Lalu dia berkata: "Itu meyakinkan, tapi meyakinkan meyakinkan". Dan inilah alasannya:
Ini masuk akal. Melihat semua nilai- dilaporkan terlalu berisik. Makalah -curve Uri ( Simonsohn et al. 2013 ) dengan baik menunjukkan apa yang dapat dilihat jika seseorang melihat nilai dipilih dengan cermat . Mereka memilih 20 makalah psikologi berdasarkan beberapa kata kunci yang mencurigakan (yaitu, penulis makalah ini melaporkan tes mengendalikan kovariat dan tidak melaporkan apa yang terjadi tanpa mengendalikannya) dan kemudian hanya mengambil nilai- yang menguji temuan utama. Berikut adalah bagaimana distribusi terlihat (kiri):p p p pp p
Kemiringan kiri yang kuat menunjukkan -hacking yang kuat .p
Kesimpulan
Saya akan mengatakan bahwa kita tahu bahwa harus ada banyak -hacking terjadi, sebagian besar jenis Forking-Paths yang dijelaskan Gelman; mungkin sampai-sampai nilai diterbitkan tidak dapat benar-benar dianggap sebagai nilai nominal dan harus "diabaikan" oleh pembaca oleh sebagian kecil. Namun, sikap ini tampaknya menghasilkan efek yang jauh lebih halus daripada sekadar benjolan dalam distribusi nilai - keseluruhan hanya di bawah dan tidak dapat benar-benar terdeteksi oleh analisis tumpul seperti itu.p p p 0,05 p 0.05
sumber
simply because the researches chose what test to perform/report after looking at the data
Iya; dan masalahnya tidak dapat dihindari karena bermata dua. Ketika metode yang lebih baik dipilih untuk data - apakah itu overfitting dari sampel spesifik atau pertemuan panggilan teknis dari populasi itu? Atau - outlier removimg - apakah itu memalsukan populasi atau memulihkannya? Siapa yang akan mengatakan, pada akhirnya?Plot corong telah menjadi inovasi statistik luar biasa yang mengubah meta analisis di atas kepalanya. Pada dasarnya, plot corong menunjukkan signifikansi klinis dan statistik pada plot yang sama. Idealnya, mereka akan membentuk bentuk corong. Namun, beberapa meta-analisis telah menghasilkan plot corong yang menunjukkan bentuk bimodal yang kuat, di mana peneliti (atau penerbit) secara selektif menahan hasil yang nol. Hasilnya adalah bahwa segitiga menjadi lebih luas, karena studi yang lebih kecil dan lebih sedikit menggunakan metode yang lebih drastis untuk "mendorong" hasil untuk mencapai signifikansi statistik. Tim Laporan Cochrane mengatakan ini tentang mereka .
Plot pertama menunjukkan plot simetris tanpa adanya bias. Yang kedua menunjukkan plot asimetris di hadapan bias pelaporan. Yang ketiga menunjukkan plot asimetris di hadapan bias karena beberapa penelitian yang lebih kecil (lingkaran terbuka) memiliki kualitas metodologi yang lebih rendah dan karenanya menghasilkan perkiraan efek intervensi yang berlebihan.
Saya menduga sebagian besar penulis tidak mengetahui metode yang mereka gunakan untuk p-hack. Mereka tidak melacak jumlah keseluruhan model yang sesuai, menerapkan kriteria pengecualian yang berbeda atau memilih variabel penyesuaian yang berbeda setiap kali. Namun, jika saya harus mengamanatkan proses yang sederhana, saya akan senang melihat jumlah total model yang cocok. Itu bukan untuk mengatakan mungkin ada alasan yang sah untuk menjalankan kembali model, misalnya kita hanya menjalankan analisis Alzheimer tanpa mengetahui ApoE telah dikumpulkan dalam sampel. Telur di wajahku, kami memutar ulang model.
sumber