Berapa banyak yang kita ketahui tentang peretasan “di alam liar”?

94

Frasa p -hacking (juga: "pengerukan data" , "pengintai" atau "memancing") mengacu pada berbagai jenis malpraktek statistik di mana hasilnya menjadi signifikan secara statistik secara artifisial. Ada banyak cara untuk mendapatkan hasil yang "lebih penting", termasuk tetapi tidak terbatas pada:

  • hanya menganalisis subset data yang "menarik" , di mana suatu pola ditemukan;
  • gagal menyesuaikan dengan benar untuk beberapa pengujian , terutama pengujian pasca-hoc dan gagal melaporkan pengujian yang dilakukan tidak signifikan;
  • mencoba tes yang berbeda dari hipotesis yang sama , misalnya tes parametrik dan non-parametrik ( ada beberapa diskusi tentang itu di utas ini ), tetapi hanya melaporkan yang paling signifikan;
  • bereksperimen dengan memasukkan / mengeluarkan poin data , sampai hasil yang diinginkan diperoleh. Satu peluang muncul ketika "pencilan pembersihan data", tetapi juga ketika menerapkan definisi yang ambigu (misalnya dalam studi ekonometrik "negara maju", definisi yang berbeda menghasilkan set negara yang berbeda), atau kriteria inklusi kualitatif (misalnya dalam meta-analisis , mungkin merupakan argumen yang seimbang apakah metodologi studi tertentu cukup kuat untuk dimasukkan);
  • contoh sebelumnya terkait dengan penghentian opsional , yaitu, menganalisis dataset dan memutuskan apakah akan mengumpulkan lebih banyak data atau tidak, tergantung pada data yang dikumpulkan sejauh ini ("ini hampir signifikan, mari kita ukur tiga siswa lagi!") tanpa memperhitungkan ini dalam analisis;
  • eksperimen selama pemasangan model , khususnya kovariat untuk memasukkan, tetapi juga mengenai transformasi data / bentuk fungsional.

Jadi kita tahu hal - hal yang bisa dilakukan Ini sering terdaftar sebagai salah satu "bahaya nilai- p " dan disebutkan dalam laporan ASA tentang signifikansi statistik, dibahas di sini di Cross Validated , jadi kita juga tahu itu adalah Hal yang Buruk. Meskipun beberapa motivasi yang meragukan dan (khususnya dalam kompetisi untuk publikasi akademik) insentif kontraproduktif sudah jelas, saya menduga sulit untuk mencari tahu mengapa hal itu dilakukan, apakah malpraktik yang disengaja atau ketidaktahuan sederhana. Seseorang melaporkan p -values dari regresi bertahap (karena mereka menemukan prosedur stepwise "menghasilkan model yang baik", tapi tidak sadar yang diklaim sebagai p-nilai tidak valid) ada di kubu terakhir, tetapi efeknya masih p -hacking di bawah poin terakhir saya di atas.

Tentu saja ada bukti bahwa p -hacking "di luar sana", misalnya Head et al (2015) mencari tanda-tanda bahwa itu menginfeksi literatur ilmiah, tetapi bagaimana keadaan saat ini dari basis bukti kami tentang hal itu? Saya sadar bahwa pendekatan yang diambil oleh Head et al bukannya tanpa kontroversi, sehingga keadaan literatur saat ini, atau pemikiran umum dalam komunitas akademik, akan menarik. Misalnya kita punya ide tentang:

  • Seberapa lazimnya hal itu, dan sejauh mana kita dapat membedakan kejadiannya dari bias publikasi ? (Apakah perbedaan ini bahkan bermakna?)
  • Apakah efeknya sangat akut pada batas ? Apakah efek yang serupa terlihat di , misalnya, atau apakah kita melihat seluruh rentang nilai p- terpengaruh?p 0,01p0.05p0.01
  • Apakah pola dalam hal-hal berbeda di antara bidang akademik?
  • Apakah kita punya ide mana dari mekanisme p -hacking (beberapa di antaranya tercantum dalam poin-poin di atas) yang paling umum? Apakah beberapa formulir terbukti lebih sulit untuk dideteksi daripada yang lain karena mereka "disamarkan dengan lebih baik"?

Referensi

Kepala, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). Luas dan konsekuensi dari p -hacking dalam sains . PLoS Biol , 13 (3), e1002106.

Gegat
sumber
6
Pertanyaan terakhir Anda adalah ide yang bagus untuk penelitian: berikan beberapa data mentah kepada sekelompok peneliti dari bidang yang berbeda, lengkapi dalam SPSS (atau apa pun yang mereka gunakan) dan kemudian catat apa yang mereka lakukan saat bersaing satu sama lain untuk hasil yang lebih signifikan .
Tim
1
Seseorang mungkin dapat melakukannya tanpa subjek mengetahui bahwa itu terjadi menggunakan riwayat pengiriman kaggle. Mereka tidak menerbitkan, tetapi mereka mencoba segala cara untuk mencapai angka ajaib.
EngrStudent
1
Apakah crossvalidated memiliki koleksi (misalnya komunitas wiki) contoh simulasi sederhana dari peretasan? Saya membayangkan contoh mainan di mana peneliti yang disimulasikan bereaksi terhadap hasil "sedikit signifikan" dengan mengumpulkan lebih banyak data, eksperimen dengan spesifikasi regresi, dll.
Adrian
2
@Adrian CV hanyalah situs tanya jawab, tidak menyimpan data, atau kode, tidak memiliki repositori tersembunyi - semua yang Anda temukan dalam jawaban adalah milik Anda di bawah lisensi CC :) Pertanyaan ini sepertinya menanyakan tentang mengumpulkan contoh-contoh seperti itu.
Tim
1
@Tim tentu saja, saya tidak membayangkan repo kode tersembunyi - hanya potongan kode yang disertakan dalam jawaban. Misalnya, seseorang mungkin bertanya "apa itu peretasan?", Dan seseorang mungkin memasukkan simulasi mainan R dalam jawaban mereka. Apakah pantas untuk menanggapi pertanyaan saat ini dengan contoh kode? "Seberapa banyak yang kita ketahui" adalah pertanyaan yang sangat luas.
Adrian

Jawaban:

76

RINGKASAN EKSEKUTIF: jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.


Andrew Gelman suka menulis tentang topik ini dan telah mempostingnya secara luas akhir-akhir ini di blog-nya. Saya tidak selalu setuju dengan dia tapi saya suka perspektifnya tentang -hacking. Berikut adalah kutipan dari makalah Pengantar untuk Garden of Forking Paths (Gelman & Loken 2013; versi yang muncul di American Scientist 2014; lihat juga komentar singkat Gelman tentang pernyataan ASA), beri tekanan pada saya:p

Masalah ini kadang-kadang disebut "p-hacking" atau "derajat kebebasan peneliti" (Simmons, Nelson, dan Simonsohn, 2011). Dalam sebuah artikel baru-baru ini, kami berbicara tentang "ekspedisi memancing [...]". Tetapi kita mulai merasa bahwa istilah "memancing" sangat disayangkan, karena istilah itu membangkitkan citra seorang peneliti yang mencoba perbandingan setelah perbandingan, melemparkan garis ke danau berulang kali sampai ikan tersangkut. Kami tidak memiliki alasan untuk berpikir bahwa para peneliti secara teratur melakukan itu. Kami pikir kisah sebenarnya adalah bahwa para peneliti dapat melakukan analisis yang masuk akal mengingat asumsi dan data mereka, tetapi jika data ternyata berbeda, mereka bisa melakukan analisis lain yang sama masuk akal dalam keadaan itu.

Kami menyesalkan penyebaran istilah "memancing" dan "peretasan" (dan bahkan "derajat kebebasan peneliti") karena dua alasan: pertama, karena ketika istilah tersebut digunakan untuk menggambarkan penelitian, ada implikasi menyesatkan yang peneliti secara sadar mencoba banyak analisis berbeda pada satu set data tunggal; dan, kedua, karena hal itu dapat mengarahkan para peneliti yang tahu bahwa mereka tidak mencoba banyak analisis yang berbeda untuk berpikir secara keliru bahwa mereka tidak begitu kuat tunduk pada masalah tingkat kebebasan peneliti. [...] Poin utama kami di sini adalah bahwa dimungkinkan untuk memiliki beberapa perbandingan potensial, dalam arti analisis data yang detailnya sangat bergantung pada data, tanpa peneliti melakukan prosedur sadar memancing atau memeriksa beberapa nilai-p. .

Jadi: Gelman tidak suka istilah p-hacking karena itu menyiratkan bahwa para peneliti itu aktif curang. Sedangkan masalah dapat terjadi hanya karena peneliti memilih tes apa yang akan dilakukan / dilaporkan setelah melihat data, yaitu setelah melakukan beberapa analisis eksplorasi.

Dengan beberapa pengalaman bekerja di bidang biologi, saya dapat dengan aman mengatakan bahwa semua orang melakukan itu. Semua orang (termasuk saya) mengumpulkan beberapa data dengan hanya hipotesis a priori yang samar, melakukan analisis penjajakan yang luas, menjalankan berbagai uji signifikansi, mengumpulkan beberapa data lebih banyak, menjalankan dan menjalankan kembali pengujian, dan akhirnya melaporkan beberapa nilai dalam naskah akhir. Semua ini terjadi tanpa melakukan kecurangan secara aktif, melakukan pemungutan ceri gaya xkcd-jelly-bean yang bodoh , atau secara sadar meretas apa pun.p

Jadi jika "p-hacking" harus dipahami secara luas jalur forking ala Gelman, jawaban untuk seberapa lazimnya, adalah bahwa itu hampir universal.

Satu-satunya pengecualian yang muncul dalam pikiran adalah studi replikasi pra-terdaftar penuh dalam psikologi atau uji medis pra-terdaftar penuh.

Bukti spesifik

Yang mengherankan, beberapa orang menyurvei peneliti untuk menemukan bahwa banyak yang mengakui melakukan semacam peretasan ( John et al. 2012, Mengukur Prevalensi Praktik Penelitian yang Dapat Dipertanyakan Dengan Insentif untuk Memberitahu Kebenaran ):

John et al

Terlepas dari itu, semua orang mendengar tentang apa yang disebut "krisis replikasi" dalam psikologi: lebih dari setengah studi terbaru yang diterbitkan dalam jurnal psikologi top tidak mereplikasi ( Nosek et al. 2015, Memperkirakan reproduksibilitas ilmu psikologi ). (Studi ini baru-baru ini dilakukan di seluruh blog lagi, karena terbitan Science edisi Maret 2016 menerbitkan komentar yang berusaha menyangkal Nosek dkk. Dan juga balasan oleh Nosek dkk. Diskusi berlanjut di tempat lain, lihat posting oleh Andrew Gelman dan RetractionWatch post yang dia tautkan . Singkatnya, kritiknya tidak meyakinkan.)

Pembaruan Nov 2018: Kaplan dan Irvin, 2017, Kemungkinan Efek Null dari Uji Klinis NHLBI Besar Meningkat dari waktu ke waktu menunjukkan bahwa fraksi uji klinis yang melaporkan hasil nol meningkat dari 43% menjadi 92% setelah pra-pendaftaran menjadi diperlukan:

masukkan deskripsi gambar di sini


P distribusi -nilai dalam literatur

Head et al. 2015

Saya belum pernah mendengar tentang Head et al. belajar sebelumnya, tetapi sekarang telah meluangkan waktu melihat-lihat literatur sekitarnya. Saya juga telah melihat sekilas data mentah mereka .

Head et al. mengunduh semua makalah Akses Terbuka dari PubMed dan mengekstraksi semua nilai p yang dilaporkan dalam teks, mendapatkan 2,7 juta nilai p. Dari ini, 1,1 juta dilaporkan sebagai dan bukan sebagai . Dari semua ini, Head et al. secara acak mengambil satu nilai p per kertas tetapi ini tampaknya tidak mengubah distribusi, jadi di sini adalah bagaimana distribusi semua nilai 1,1 juta terlihat seperti (antara dan ):p=ap<a00.06

Distribusi nilai-p dalam literatur

Saya menggunakan lebar bin, dan orang dapat dengan jelas melihat banyak pembulatan yang dapat diprediksi di nilai- dilaporkan . Sekarang, Head et al. lakukan hal berikut: mereka membandingkan jumlah nilai dalam interval dan dalam interval ; angka sebelumnya ternyata (secara signifikan) lebih besar dan mereka menganggapnya sebagai bukti -hacking. Jika seseorang menyipit, seseorang dapat melihatnya pada sosok saya.0.0001pp(0.045,0.5)(0.04,0.045)p

Saya menemukan ini sangat tidak meyakinkan karena satu alasan sederhana. Siapa yang ingin melaporkan temuan mereka dengan ? Sebenarnya, banyak orang tampaknya melakukan hal itu, tetapi tetap saja wajar untuk mencoba menghindari nilai garis batas yang tidak memuaskan ini dan lebih baik melaporkan angka signifikan lainnya, misalnya (kecuali tentu saja itu ). Jadi beberapa kelebihan -nilai dekat tetapi tidak sama dengan dapat dijelaskan oleh preferensi pembulatan peneliti.p=0.05p=0.048p=0.052p0.05

Dan terlepas dari itu, efeknya kecil .

(Satu-satunya efek kuat yang dapat saya lihat pada gambar ini adalah penurunan yang nyata dari kerapatan value setelah . Ini jelas disebabkan oleh bias publikasi.)p0.05

Kecuali saya melewatkan sesuatu, Head et al. bahkan tidak membahas penjelasan alternatif yang potensial ini. Mereka juga tidak menyajikan histogram dari nilai- .p

Ada banyak makalah yang mengkritik Head et al. Dalam naskah yang tidak dipublikasikan ini, Hartgerink berpendapat bahwa Head et al. seharusnya menyertakan dan dalam perbandingan mereka (dan jika mereka punya, mereka tidak akan menemukan efeknya). Saya tidak yakin tentang hal itu; kedengarannya tidak terlalu meyakinkan. Akan jauh lebih baik jika kita bisa memeriksa distribusi nilai "mentah" tanpa pembulatan.p=0.04p=0.05p

Distribusi nilai- tanpa pembulatanp

Dalam makalah PeerJ 2016 ini (pracetak diposting pada tahun 2015) yang sama Hartgerink et al. mengekstrak nilai-p dari banyak makalah di jurnal psikologi top dan melakukan hal itu: mereka menghitung ulang nilai- tepat dari nilai statistik -, -, - dll. distribusi ini bebas dari artefak pembulatan dan tidak menunjukkan peningkatan apa pun terhadap 0,05 apa pun (Gambar 4):ptFχ2

Kertas Hartgerink PeerJ

Pendekatan yang sangat mirip diambil oleh Krawczyk 2015 di PLoS One, yang mengekstrak nilai 135k dari jurnal psikologi eksperimental teratas. Berikut adalah bagaimana distribusi mencari nilai- dilaporkan (kiri) dan yang dihitung ulang (kanan) :pp

Krawczyk

Perbedaannya mencolok. Histogram kiri menunjukkan beberapa hal aneh yang terjadi di sekitar , tetapi di sebelah kanan hilang. Ini berarti bahwa hal-hal aneh ini disebabkan oleh preferensi orang untuk melaporkan nilai sekitar dan bukan karena -hacking.p=0.05p0.05p

Mascicampo dan Lalande

Tampaknya yang pertama mengamati dugaan kelebihan nilai- tepat di bawah 0,05 adalah Masicampo & Lalande 2012 , melihat tiga jurnal teratas dalam psikologi:p

Mascicampo dan Lalande

Ini memang terlihat mengesankan, tetapi Lakens 2015 ( pracetak ) dalam Komentar yang diterbitkan berpendapat bahwa ini hanya tampak mengesankan berkat kesesuaian eksponensial yang menyesatkan. Lihat juga Lakens 2015, Tentang tantangan menggambar kesimpulan dari nilai-p tepat di bawah 0,05 dan referensi di dalamnya.

Ekonomi

Brodeur et al. 2016 (tautan menuju pracetak 2013) melakukan hal yang sama untuk literatur ekonomi. Lihat tiga jurnal ekonomi, ekstrak 50k hasil tes, konversi semuanya menjadi skor (menggunakan koefisien yang dilaporkan dan kesalahan standar bila memungkinkan dan menggunakan nilai jika hanya dilaporkan), dan dapatkan yang berikut:zp

Brodeur

Ini agak membingungkan karena nilai- kecil ada di sebelah kanan dan nilai- besar ada di sebelah kiri. Seperti yang ditulis penulis dalam abstrak, "Distribusi nilai-p menunjukkan bentuk unta dengan nilai-p yang melimpah di atas 0,25" dan "lembah antara 0,25 dan 0,10". Mereka berpendapat bahwa lembah ini adalah tanda sesuatu yang mencurigakan, tetapi ini hanya bukti tidak langsung. Juga, itu mungkin hanya karena pelaporan selektif, ketika nilai-p besar di atas 0,25 dilaporkan sebagai beberapa bukti dari kurangnya efek tetapi nilai-p antara 0,1 dan 0,25 dirasakan tidak ada di sini atau di sana dan cenderung dihilangkan. (Saya tidak yakin apakah efek ini ada dalam literatur biologis atau tidak karena plot di atas fokus pada interval .)ppp<0.05


Salah meyakinkan?

Berdasarkan semua hal di atas, kesimpulan saya adalah bahwa saya tidak melihat bukti kuat -hacking dalam distribusi nilai- di literatur biologis / psikologis secara keseluruhan. Ada banyak bukti pelaporan selektif, bias publikasi, pembulatan nilai turun menjadi dan efek pembulatan lucu lainnya, tapi saya tidak setuju dengan kesimpulan Head et al .: tidak ada tonjolan yang mencurigakan di bawah .ppp0,05 0,050.050.05

Uri Simonsohn berpendapat bahwa ini "meyakinkan secara keliru" . Sebenarnya, ia mengutip makalah-makalah ini secara tidak kritis tetapi kemudian menyatakan bahwa "sebagian besar nilai-p jauh lebih kecil" dari 0,05. Lalu dia berkata: "Itu meyakinkan, tapi meyakinkan meyakinkan". Dan inilah alasannya:

Jika kita ingin tahu apakah para peneliti meng-hack hasil mereka, kita perlu memeriksa nilai-p yang terkait dengan hasil mereka, mereka yang mungkin ingin mereka p-retas sebelumnya. Sampel, agar tidak bias, hanya harus mencakup pengamatan dari populasi yang menarik.

Sebagian besar nilai-p yang dilaporkan di sebagian besar makalah tidak relevan untuk perilaku strategis yang menarik. Kovarian, pemeriksaan manipulasi, efek utama dalam studi yang menguji interaksi, dll. Termasuk mereka, kami meremehkan peretasan dan kami melebih-lebihkan nilai bukti data. Menganalisis semua nilai-p menanyakan pertanyaan yang berbeda, yang kurang masuk akal. Alih-alih "Apakah peneliti meng-hack apa yang mereka pelajari?" Kami bertanya, "Apakah peneliti meng-hack segalanya?"

Ini masuk akal. Melihat semua nilai- dilaporkan terlalu berisik. Makalah -curve Uri ( Simonsohn et al. 2013 ) dengan baik menunjukkan apa yang dapat dilihat jika seseorang melihat nilai dipilih dengan cermat . Mereka memilih 20 makalah psikologi berdasarkan beberapa kata kunci yang mencurigakan (yaitu, penulis makalah ini melaporkan tes mengendalikan kovariat dan tidak melaporkan apa yang terjadi tanpa mengendalikannya) dan kemudian hanya mengambil nilai- yang menguji temuan utama. Berikut adalah bagaimana distribusi terlihat (kiri):ppp ppp

Simonsohn

Kemiringan kiri yang kuat menunjukkan -hacking yang kuat .p

Kesimpulan

Saya akan mengatakan bahwa kita tahu bahwa harus ada banyak -hacking terjadi, sebagian besar jenis Forking-Paths yang dijelaskan Gelman; mungkin sampai-sampai nilai diterbitkan tidak dapat benar-benar dianggap sebagai nilai nominal dan harus "diabaikan" oleh pembaca oleh sebagian kecil. Namun, sikap ini tampaknya menghasilkan efek yang jauh lebih halus daripada sekadar benjolan dalam distribusi nilai - keseluruhan hanya di bawah dan tidak dapat benar-benar terdeteksi oleh analisis tumpul seperti itu.ppp 0,05 p0.05

amuba
sumber
4
simply because the researches chose what test to perform/report after looking at the dataIya; dan masalahnya tidak dapat dihindari karena bermata dua. Ketika metode yang lebih baik dipilih untuk data - apakah itu overfitting dari sampel spesifik atau pertemuan panggilan teknis dari populasi itu? Atau - outlier removimg - apakah itu memalsukan populasi atau memulihkannya? Siapa yang akan mengatakan, pada akhirnya?
ttnphns
Jenis jawaban yang paling saya harapkan mungkin adalah representasi singkat dari literatur saat ini, beberapa petunjuk tentang apakah makalah Head et al adalah ringkasan yang adil dari pemikiran terbaru, dll. Saya tidak mengharapkan jawaban ini sama sekali. Tapi saya pikir itu hebat, dan pemikiran Gelman dan wawasan praktis sangat membantu. Ketika saya menulis pertanyaan saya memiliki hal yang sama dengan @ttnphns sebenarnya (mungkin itu menunjukkan, saya bahkan mempertimbangkan untuk memasukkan kata "overfitting".)
Silverfish
Namun demikian, selain dari malaise umum dan tak terhindarkan dari "bagaimana sains bekerja dalam praktek" menjadi pasangan yang tidak sempurna untuk asumsi pengujian statistik, saya bertanya-tanya apakah hantu ini "seni gelap para peretas jahat" benar-benar ada di luar sana, dan jika demikian, seberapa jauh jangkauannya. Jelas ada insentif (mis) yang kuat untuk mendorongnya.
Silverfish
2
Anda membuat saya penasaran dengan Head et al. paper, @Silverfish, jadi saya harus mengakuinya sekarang, alih-alih bekerja, saya menelusuri beberapa makalah yang mengkritik hasil Head et al. dan bahkan sudah mengunduh data mentah mereka ... Ya ampun.
amoeba
2
+1. Artikel blog Gelman terbaru ( andrewgelman.com/2016/03/09/... ) membahas banyak hal, dan menyoroti tanggapan yang menarik oleh kelompok yang mencoba replikasi dan kemudian sangat dikritik oleh penulis studi asli: retractionwatch.com/ 2016/03/07 / ...
Wayne
22

Plot corong telah menjadi inovasi statistik luar biasa yang mengubah meta analisis di atas kepalanya. Pada dasarnya, plot corong menunjukkan signifikansi klinis dan statistik pada plot yang sama. Idealnya, mereka akan membentuk bentuk corong. Namun, beberapa meta-analisis telah menghasilkan plot corong yang menunjukkan bentuk bimodal yang kuat, di mana peneliti (atau penerbit) secara selektif menahan hasil yang nol. Hasilnya adalah bahwa segitiga menjadi lebih luas, karena studi yang lebih kecil dan lebih sedikit menggunakan metode yang lebih drastis untuk "mendorong" hasil untuk mencapai signifikansi statistik. Tim Laporan Cochrane mengatakan ini tentang mereka .

Jika ada bias, misalnya karena studi yang lebih kecil tanpa efek signifikan secara statistik (ditampilkan sebagai lingkaran terbuka pada Gambar 10.4.a, Panel A) tetap tidak dipublikasikan, ini akan menyebabkan penampilan asimetris plot corong dengan celah di sudut bawah. grafik (Panel B). Dalam situasi ini efek yang dihitung dalam meta-analisis akan cenderung melebih-lebihkan efek intervensi (Egger 1997a, Villar 1997). Semakin jelas asimetri, semakin besar kemungkinan bias akan besar.

Plot pertama menunjukkan plot simetris tanpa adanya bias. Yang kedua menunjukkan plot asimetris di hadapan bias pelaporan. Yang ketiga menunjukkan plot asimetris di hadapan bias karena beberapa penelitian yang lebih kecil (lingkaran terbuka) memiliki kualitas metodologi yang lebih rendah dan karenanya menghasilkan perkiraan efek intervensi yang berlebihan.

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Saya menduga sebagian besar penulis tidak mengetahui metode yang mereka gunakan untuk p-hack. Mereka tidak melacak jumlah keseluruhan model yang sesuai, menerapkan kriteria pengecualian yang berbeda atau memilih variabel penyesuaian yang berbeda setiap kali. Namun, jika saya harus mengamanatkan proses yang sederhana, saya akan senang melihat jumlah total model yang cocok. Itu bukan untuk mengatakan mungkin ada alasan yang sah untuk menjalankan kembali model, misalnya kita hanya menjalankan analisis Alzheimer tanpa mengetahui ApoE telah dikumpulkan dalam sampel. Telur di wajahku, kami memutar ulang model.

AdamO
sumber
4
2
Salah satu aspek dari pertanyaan saya adalah perbedaan antara "p-hacking" dan "bias publikasi" - jawaban ini dalam beberapa hal mengonfigurasi keduanya. Apakah saya benar untuk menafsirkan apa yang Anda katakan dengan cara itu, yaitu "bias publikasi pada dasarnya adalah bentuk p-hacking, tetapi oleh penerbit"?
Silverfish
1
pp
2
Hmm. Pertama saya ingin memprotes dan mengklaim bahwa bias publikasi berbeda dari p-hacking (sama, saya pikir, dengan bagaimana @Silverfish membingkai Q-nya juga), tetapi kemudian saya menyadari bahwa lebih sulit untuk menggambar batas daripada yang saya pikir sebelumnya. Melakukan perbandingan berganda gaya jelly-bean dan hanya melaporkan yang signifikan (p-hacking?) Tidak jauh berbeda dari melakukan beberapa penelitian dan hanya melaporkan yang signifikan (yang bias publikasi menurut definisi). Namun, p-hacking dalam arti memijat data sampai mereka menghasilkan p <0,05 memang terasa cukup berbeda bagi saya.
amoeba
2
pp