40.000 makalah ilmu saraf mungkin salah

67

Saya melihat artikel ini di The Economist tentang makalah yang tampaknya menghancurkan [1] yang meragukan "sekitar 40.000 studi [fMRI] yang dipublikasikan." Kesalahan, kata mereka, adalah karena "asumsi statistik yang salah." Saya membaca makalah dan melihat itu sebagian masalah dengan beberapa koreksi perbandingan, tetapi saya bukan ahli fMRI dan saya merasa sulit untuk mengikuti.

Apa asumsi yang salah yang dibicarakan penulis ? Mengapa asumsi itu dibuat? Apa cara membuat asumsi ini?

Bagian belakang perhitungan amplop mengatakan 40.000 makalah fMRI lebih dari $ miliar dalam pendanaan (gaji mahasiswa pascasarjana, biaya operasional, dll.).


[1] Eklund et al., Kegagalan klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive, PNAS 2016

R Greg Stacey
sumber
17
Lihat juga makalah tentang fMRI salmon mati. wired.com/2009/09/fmrisalmon
Reinstate Monica
1
Ini adalah garis yang sangat bagus, khususnya dalam studi neuropatologi, karena Anda dapat benar-benar membatasi positif palsu sebanyak yang Anda inginkan, tetapi dalam pertukaran Anda berakhir dengan insiden negatif palsu yang sangat besar.
Firebug
10
Ada sedikit perbedaan di antara keduanya: kertas salmon adalah sebuah perumpamaan kecil yang bagus tentang pentingnya beberapa koreksi perbandingan, yang seharusnya sudah dilakukan semua orang. Sebaliknya, masalah PNAS menggigit orang yang mencoba melakukan "hal yang benar", tetapi koreksi itu sendiri agak miring.
Matt Krause
4
Saya pikir ini adalah pertanyaan yang bagus untuk ditanyakan karena sampai ke jantung beberapa koreksi perbandingan dan asumsi kunci dalam melakukan jenis analisis ini dalam konteks penelitian yang umum. Namun, satu-satunya pertanyaan dalam teks adalah "apakah seseorang dengan pengetahuan lebih daripada yang ingin mereka komentari?" yang agak luas dan tidak spesifik. Jika ini dapat difokuskan pada masalah statistik tertentu dalam ruang lingkup pusat bantuan, itu akan lebih cocok untuk forum ini.
Pasang kembali Monica
2
Terima kasih. Saya mengedit pertanyaan untuk membuatnya lebih spesifik. Beri tahu saya jika saya harus mengeditnya lebih lanjut.
R Greg Stacey

Jawaban:

69

Pada angka 40000

Berita itu benar-benar sensasional, tetapi makalah ini sangat beralasan. Diskusi berkecamuk selama berhari-hari di laboratorium saya, semuanya merupakan kritik yang sangat diperlukan yang membuat para peneliti mengintrospeksi pekerjaan mereka. Saya merekomendasikan pembacaan komentar berikut oleh Thomas Nichols , salah satu penulis "Kegagalan Cluster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive" kertas (maaf untuk kutipan panjang).

Namun, ada satu nomor yang saya sesali: 40.000. Dalam mencoba merujuk pada pentingnya disiplin fMRI, kami menggunakan perkiraan seluruh literatur fMRI sebagai jumlah studi yang dilanggar oleh temuan kami. Dalam pembelaan kami, kami menemukan masalah dengan inferensi ukuran kluster secara umum (parah untuk P = 0,01 CDT, bias untuk P = 0,001), metode inferensi dominan, menunjukkan mayoritas literatur terpengaruh. Namun, jumlah dalam pernyataan dampak, telah diambil oleh pers populer dan diberi makan twitterstorm kecil. Oleh karena itu, saya merasa sudah menjadi tugas saya untuk membuat perkiraan kasar “Berapa banyak artikel yang mempengaruhi pekerjaan kita?”. Saya bukan ahli bibliometrik, dan ini benar-benar latihan yang kasar dan siap, tapi semoga memberi kesan urutan besarnya masalah.

Kode analisis (dalam Matlab) diuraikan di bawah ini, tetapi di sini adalah yang kurus: Berdasarkan beberapa perhitungan probabilistik yang masuk akal, tetapi mungkin sampel rapuh dari literatur, saya memperkirakan sekitar 15.000 makalah menggunakan inferensi ukuran kluster dengan koreksi untuk beberapa pengujian; dari jumlah tersebut, sekitar 3.500 menggunakan CDT P = 0,01. 3.500 adalah sekitar 9% dari seluruh literatur, atau mungkin lebih bermanfaat, 11% dari makalah yang berisi data asli. (Tentu saja beberapa dari 15.000 atau 3.500 ini mungkin menggunakan inferensi nonparametrik, tetapi sayangnya jarang untuk fMRI — sebaliknya, itu adalah alat inferensi default untuk analisis VBM / DTI struktural di FSL).

Saya terus terang berpikir angka ini akan lebih tinggi, tetapi tidak menyadari sebagian besar studi yang tidak pernah menggunakan segala macam koreksi pengujian. (Tidak dapat menggembungkan signifikansi yang diperbaiki jika Anda tidak memperbaiki!) . Perhitungan ini menunjukkan 13.000 makalah tidak menggunakan koreksi pengujian berganda. Tentu saja beberapa di antaranya mungkin menggunakan wilayah yang diminati atau analisis sub-volume, tetapi hanya sedikit (yaitu hasil gaya uji klinis) yang sama sekali tidak memiliki multiplisitas sama sekali. Makalah kami tidak secara langsung tentang grup ini, tetapi untuk publikasi yang menggunakan folk multiple koreksi pengujian, P <0,001 & k> 10, makalah kami menunjukkan pendekatan ini memiliki tingkat kesalahan kekeluargaan jauh lebih dari 50%.

Jadi, apakah kita mengatakan 3.500 makalah “salah”? Tergantung. Hasil kami menunjukkan bahwa CDT P = 0,01 hasil telah meningkatkan nilai-P, tetapi setiap studi harus diperiksa ... jika efeknya benar-benar kuat, kemungkinan tidak masalah jika nilai-P bias, dan kesimpulan ilmiah akan tetap tidak berubah. Tetapi jika efeknya benar-benar lemah, maka hasilnya mungkin konsisten dengan kebisingan . Dan, bagaimana dengan 13.000 makalah tanpa koreksi, terutama yang umum dalam literatur sebelumnya? Tidak, mereka juga tidak boleh dibuang begitu saja, tetapi mata yang sangat letih diperlukan untuk karya-karya itu, terutama ketika membandingkannya dengan referensi baru dengan standar metodologi yang lebih baik.

Dia juga menyertakan tabel ini di akhir:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

Pada dasarnya, SPM (Statistical Parametric Mapping, toolbox untuk Matlab) adalah alat yang paling banyak digunakan untuk studi neuroscience fMRI. Jika Anda memeriksa makalah Anda akan melihat menggunakan CDT P = 0,001 (standar) untuk cluster di SPM memberikan hampir tingkat kesalahan keluarga-bijaksana yang diharapkan.

Para penulis bahkan mengisi errata karena kata-kata dari makalah ini:

Mengingat salah tafsir luas dari makalah kami, Eklund et al., Kegagalan Klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat positif palsu, kami mengajukan errata ke kantor Editorial PNAS:

Errata untuk Eklund et al., Kegagalan klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Dua kalimat tidak diucapkan dengan baik dan dapat dengan mudah disalahpahami sebagai melebih-lebihkan hasil kami.

Kalimat terakhir dari pernyataan Signifikansi harus berbunyi: "Hasil ini mempertanyakan validitas sejumlah studi fMRI dan mungkin memiliki dampak besar pada interpretasi hasil neuroimaging yang lemah signifikan."

Kalimat pertama setelah tajuk "Masa depan fMRI" seharusnya berbunyi: "Karena pengarsipan yang menyedihkan dan praktik berbagi data, analisis yang bermasalah tidak dapat diulang."

Ini menggantikan dua kalimat yang keliru menyiratkan bahwa pekerjaan kami mempengaruhi semua 40.000 publikasi (lihat Bibliometrics of Cluster Inference untuk tamu dari seberapa banyak literatur berpotensi dipengaruhi).

Setelah awalnya menolak errata, dengan alasan bahwa itu mengoreksi interpretasi dan bukan fakta, PNAS telah setuju untuk menerbitkannya seperti yang kami kirimkan di atas.


Pada Bug yang disebut

Beberapa berita juga menyebutkan bug sebagai penyebab ketidakabsahan penelitian. Memang, salah satu alat AFNI adalah penyimpulan yang kurang tepat , dan ini diselesaikan setelah pracetak diposting di arXiv .


Inferensi statistik digunakan dalam neuroimaging fungsional

Neuroimaging fungsional mencakup banyak teknik yang bertujuan untuk mengukur aktivitas saraf di otak (misalnya fMRI, EEG, MEG, NIRS, PET dan SPECT). Ini didasarkan pada mekanisme kontras yang berbeda. fMRI didasarkan pada kontras level darah-oksigen (BOLD). Dalam fMRI berbasis tugas, diberikan stimulus, neuron di otak yang bertanggung jawab untuk penerimaan stimulasi itu mulai mengonsumsi energi dan ini memicu respons hemodinamik yang mengubah sinyal resonansi magnetik ( ) di sekitar mikro yang direkrut. -Vaskularisasi.5%

Dengan menggunakan model linier umum (GLM), Anda mengidentifikasi seri waktu sinyal voxel mana yang berkorelasi dengan desain paradigma percobaan Anda (biasanya deret waktu boolean berbelit-belit dengan fungsi respon hemodinamik kanonik, tetapi terdapat variasi).

Jadi GLM ini memberi Anda seberapa banyak setiap rangkaian waktu voxel menyerupai tugas. Sekarang, katakan Anda memiliki dua kelompok individu: pasien dan kontrol biasanya. Membandingkan skor GLM antara kelompok dapat digunakan untuk menunjukkan bagaimana kondisi kelompok memodulasi pola "aktivasi" otak mereka.

Perbandingan Voxel-bijaksana antara kelompok bisa dilakukan, tetapi karena fungsi penyebaran titik yang melekat pada peralatan ditambah langkah preprocessing smoothing itu tidak masuk akal untuk mengharapkan voxel secara individual membawa semua informasi. Perbedaan voxel di antara kelompok-kelompok harus, pada kenyataannya, tersebar di voxels tetangga.

Jadi, perbandingan cluster-bijaksana dilakukan, yaitu hanya perbedaan antara kelompok yang membentuk cluster yang dipertimbangkan. Ambang batas kluster ini adalah teknik koreksi perbandingan berganda yang paling populer dalam studi fMRI. Masalahnya ada di sini.

SPM dan FSL bergantung pada Gaussian random-field theory (RFT) untuk FWE yang dikoreksi dengan voxelwise dan inferensi clusterwise. Namun, kesimpulan RFT clusterwise tergantung pada dua asumsi tambahan. Asumsi pertama adalah bahwa kehalusan spasial dari sinyal fMRI konstan di atas otak, dan asumsi kedua adalah bahwa fungsi autokorelasi spasial memiliki bentuk spesifik (eksponensial kuadrat) (30)

Dalam SPM setidaknya Anda harus menetapkan tingkat FWE nominal dan juga ambang batas pendefinisian klaster (CDT). Pada dasarnya, SPM menemukan voxel sangat berkorelasi dengan tugas dan, setelah ambang dengan CDT, yang tetangga diagregasi menjadi cluster. Ukuran cluster ini dibandingkan dengan luas cluster yang diharapkan dari Random Field Theory (RFT) mengingat set FWER [ 1 ].

Teori medan acak membutuhkan peta aktivitas menjadi halus, untuk menjadi perkiraan kisi yang baik untuk bidang acak. Ini terkait dengan jumlah smoothing yang diterapkan pada volume. Perataan juga mempengaruhi asumsi bahwa residu terdistribusi secara normal, seperti perataan, oleh teorema limit pusat, akan membuat data lebih Gaussian.

Para penulis telah menunjukkan dalam [ 1 ] bahwa ukuran cluster yang diharapkan dari RFT benar-benar kecil ketika membandingkan dengan ambang batas cluster yang diperoleh dari pengujian permutasi acak (RPT).

Dalam makalah terbaru mereka, keadaan istirahat (modalitas lain dari fMRI, di mana peserta diperintahkan untuk tidak berpikir dalam hal tertentu) data digunakan seolah-olah orang melakukan tugas selama akuisisi gambar, dan perbandingan kelompok dilakukan voxel- dan cluster -bijaksana. Kesalahan positif palsu yang diamati (yaitu ketika Anda mengamati perbedaan dalam respons sinyal terhadap tugas virtual antar kelompok) tingkat harus lebih rendah dari tingkat FWE yang diharapkan ditetapkan pada . Mengulangi analisis ini jutaan kali pada kelompok sampel acak dengan paradigma yang berbeda menunjukkan tingkat FWE yang paling banyak diamati lebih tinggi daripada yang dapat diterima.α=0.05


@amoeba mengajukan dua pertanyaan yang sangat relevan ini dalam komentar:

(1) The Eklund et al. Makalah PNAS berbicara tentang "level 5% nominal" dari semua tes (lihat misalnya garis hitam horizontal pada Gambar 1). Namun, CDT pada gambar yang sama bervariasi dan dapat berupa misalnya 0,01 dan 0,001. Bagaimana ambang batas CDT terkait dengan tingkat kesalahan tipe I nominal? Saya bingung dengan itu. (2) Pernahkah Anda melihat balasan Karl Friston http://arxiv.org/abs/1606.08199 ? Saya membacanya, tetapi saya tidak yakin apa yang mereka katakan: apakah saya melihat dengan benar bahwa mereka setuju dengan Eklund et al. tetapi katakan bahwa ini adalah masalah "terkenal"?

(1) Pertanyaan bagus. Saya sebenarnya meninjau referensi saya, mari kita lihat apakah saya bisa membuatnya lebih jelas sekarang. Inferensi cluster-bijaksana didasarkan pada sejauh mana cluster yang terbentuk setelah ambang batas primer ( CDT, yang sewenang-wenang ) diterapkan. Dalam analisis sekunder sebuah ambang batas pada jumlah voxels per cluster diterapkan. Ambang ini didasarkan pada distribusi yang diharapkan dari luasan kluster nol, yang dapat diperkirakan dari teori (misalnya RFT), dan menetapkan FWER nominal. Referensi yang baik adalah [ 2 ].

(2) Terima kasih untuk referensi ini, tidak melihatnya sebelumnya. Flandin & Friston berpendapat Eklund et al. memperkuat kesimpulan RFT karena pada dasarnya mereka menunjukkan bahwa dengan menghormati asumsi-asumsinya (mengenai CDT dan smoothing) hasilnya tidak bias. Di bawah cahaya ini, hasil baru menunjukkan praktik yang berbeda dalam literatur cenderung bias inferensi karena memecah asumsi RFT.


Di beberapa perbandingan

Ini juga diketahui banyak penelitian dalam ilmu saraf tidak benar untuk beberapa perbandingan, perkiraan mulai dari 10% hingga 40% dari literatur. Tapi ini tidak diperhitungkan oleh klaim itu, semua orang tahu makalah ini memiliki validitas rapuh dan mungkin tingkat positif palsu yang sangat besar.


Di FWER lebih dari 70%

Para penulis juga melaporkan prosedur yang menghasilkan FWER lebih dari 70%. Prosedur "rakyat" ini terdiri dari penerapan CDT untuk menjaga hanya cluster yang sangat signifikan dan kemudian menerapkan ambang batas tingkat cluster yang dipilih secara sewenang-wenang (dalam jumlah voxel). Ini, kadang-kadang disebut "set-inference", memiliki basis statistik yang lemah, dan mungkin menghasilkan hasil yang paling tidak dapat dipercaya.


Laporan sebelumnya

Penulis yang sama telah melaporkan masalah dengan validitas SPM [ 1 ] pada analisis individu. Ada juga karya lain yang dikutip di bidang ini.

Anehnya, beberapa laporan tentang analisis tingkat kelompok dan individu berdasarkan data yang disimulasikan menyimpulkan ambang batas RFT, pada kenyataannya, konservatif. Dengan kemajuan baru-baru ini dalam kekuatan pemrosesan meskipun RPT dapat dilakukan dengan lebih mudah pada data nyata, menunjukkan perbedaan besar dengan RFT.


PEMBARUAN: 18 Oktober 2017

Sebuah komentar tentang "Kegagalan Cluster" telah muncul Juni lalu [ 3 ]. Ada Mueller dkk. berpendapat hasil yang disajikan dalam Eklund et al mungkin karena teknik preprocessing pencitraan khusus yang digunakan dalam penelitian mereka. Pada dasarnya, mereka meresap gambar fungsional ke resolusi yang lebih tinggi sebelum dihaluskan (walaupun mungkin tidak dilakukan oleh setiap peneliti, ini adalah prosedur rutin di sebagian besar perangkat lunak analisis fMRI). Mereka juga mencatat bahwa Flandin & Friston tidak. Saya benar-benar harus melihat Eklund berbicara pada bulan yang sama dalam Pertemuan Tahunan Pemetaan Otak Manusia (OHBM) di Vancouver, tetapi saya tidak ingat komentar apa pun tentang masalah ini, namun sepertinya itu penting untuk pertanyaan itu.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Apakah analisis fMRI parametrik dengan SPM memberikan hasil yang valid? —Sebuah studi empiris terhadap 1484 dataset sisanya. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A., & Taruhan, TD (2014). Ambang batas berdasarkan tingkat cluster dalam analisis fMRI: perangkap dan rekomendasi. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Komentar: Kegagalan klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive. Perbatasan dalam Human Neuroscience, 11.

Pembakar
sumber
1
@Qroid Ya untuk bagian pertama, asumsi ini tidak berlaku (dan itu mungkin penyebab untuk kinerja yang baik dari tes permutasi non-parametrik). Cluster adalah cluster voxels, yaitu voxels tetangga menunjukkan efek yang sama. Ada nilai-p untuk mendefinisikan sebuah kluster (ambang batas-penentuan-klaster).
Firebug
7
Jawaban ini sebagian besar berfokus pada apakah angka 40000 atau angka lain, tetapi saya pikir akan lebih menarik bagi banyak orang di sini jika Anda dapat meringkas perdebatan utama (apa clusternya? Apa masalah dengan korelasi spasial untuk pengujian hipotesis? Apakah tidak ada yang benar-benar memikirkan hal ini sebelumnya? dll.)
amuba mengatakan Reinstate Monica
1
Terima kasih lagi. Setelah sekilas melihat Woo et al. 2014, saya sekarang yakin lagi mengapa Eklund et al. membuatnya menjadi PNAS dan akibatnya menghasilkan semacam badai di pers populer dan di sekitar blog. Weron't Woo et al. mengatakan hal yang kurang lebih sama? Ini dia, tepat di gumpalan "highlight" mereka: "Perangkap lain meningkat positif palsu ketika ambang primer liberal digunakan".
Amuba mengatakan Reinstate Monica
1
Saya melihat. Jadi pemahaman saya adalah bahwa secara ilmiah tidak banyak yang benar-benar terjadi sekarang: masalah dengan CDT liberal telah dikenal selama bertahun-tahun, dibahas dalam berbagai makalah, dan ditunjukkan dalam berbagai simulasi oleh berbagai peneliti. (Namun demikian, beberapa peneliti terus menggunakan CDT liberal yang berbahaya.) Eklund et al. 2016 beruntung dapat diterbitkan dalam jurnal dan boo "profil tinggi"! - semua orang sekarang membicarakannya seolah-olah itu wahyu.
Amuba mengatakan Reinstate Monica
7
@amoeba Komunitas neuroscience memerlukan tindakan keras secara statistik, agak seperti apa yang terjadi dalam psikologi terapan (mungkin tidak begitu drastis seperti melarang nilai-p). Banyak makalah yang mengklaim signifikansi statistik tidak memiliki ketelitian statistik, orang menggunakan alat dan parameter yang membuat "hasil muncul".
Firebug