Saya melihat artikel ini di The Economist tentang makalah yang tampaknya menghancurkan [1] yang meragukan "sekitar 40.000 studi [fMRI] yang dipublikasikan." Kesalahan, kata mereka, adalah karena "asumsi statistik yang salah." Saya membaca makalah dan melihat itu sebagian masalah dengan beberapa koreksi perbandingan, tetapi saya bukan ahli fMRI dan saya merasa sulit untuk mengikuti.
Apa asumsi yang salah yang dibicarakan penulis ? Mengapa asumsi itu dibuat? Apa cara membuat asumsi ini?
Bagian belakang perhitungan amplop mengatakan 40.000 makalah fMRI lebih dari $ miliar dalam pendanaan (gaji mahasiswa pascasarjana, biaya operasional, dll.).
[1] Eklund et al., Kegagalan klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive, PNAS 2016
sumber
Jawaban:
Pada angka 40000
Berita itu benar-benar sensasional, tetapi makalah ini sangat beralasan. Diskusi berkecamuk selama berhari-hari di laboratorium saya, semuanya merupakan kritik yang sangat diperlukan yang membuat para peneliti mengintrospeksi pekerjaan mereka. Saya merekomendasikan pembacaan komentar berikut oleh Thomas Nichols , salah satu penulis "Kegagalan Cluster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive" kertas (maaf untuk kutipan panjang).
Dia juga menyertakan tabel ini di akhir:
Pada dasarnya, SPM (Statistical Parametric Mapping, toolbox untuk Matlab) adalah alat yang paling banyak digunakan untuk studi neuroscience fMRI. Jika Anda memeriksa makalah Anda akan melihat menggunakan CDT P = 0,001 (standar) untuk cluster di SPM memberikan hampir tingkat kesalahan keluarga-bijaksana yang diharapkan.
Para penulis bahkan mengisi errata karena kata-kata dari makalah ini:
Pada Bug yang disebut
Beberapa berita juga menyebutkan bug sebagai penyebab ketidakabsahan penelitian. Memang, salah satu alat AFNI adalah penyimpulan yang kurang tepat , dan ini diselesaikan setelah pracetak diposting di arXiv .
Inferensi statistik digunakan dalam neuroimaging fungsional
Neuroimaging fungsional mencakup banyak teknik yang bertujuan untuk mengukur aktivitas saraf di otak (misalnya fMRI, EEG, MEG, NIRS, PET dan SPECT). Ini didasarkan pada mekanisme kontras yang berbeda. fMRI didasarkan pada kontras level darah-oksigen (BOLD). Dalam fMRI berbasis tugas, diberikan stimulus, neuron di otak yang bertanggung jawab untuk penerimaan stimulasi itu mulai mengonsumsi energi dan ini memicu respons hemodinamik yang mengubah sinyal resonansi magnetik ( ) di sekitar mikro yang direkrut. -Vaskularisasi.≈5%
Dengan menggunakan model linier umum (GLM), Anda mengidentifikasi seri waktu sinyal voxel mana yang berkorelasi dengan desain paradigma percobaan Anda (biasanya deret waktu boolean berbelit-belit dengan fungsi respon hemodinamik kanonik, tetapi terdapat variasi).
Jadi GLM ini memberi Anda seberapa banyak setiap rangkaian waktu voxel menyerupai tugas. Sekarang, katakan Anda memiliki dua kelompok individu: pasien dan kontrol biasanya. Membandingkan skor GLM antara kelompok dapat digunakan untuk menunjukkan bagaimana kondisi kelompok memodulasi pola "aktivasi" otak mereka.
Perbandingan Voxel-bijaksana antara kelompok bisa dilakukan, tetapi karena fungsi penyebaran titik yang melekat pada peralatan ditambah langkah preprocessing smoothing itu tidak masuk akal untuk mengharapkan voxel secara individual membawa semua informasi. Perbedaan voxel di antara kelompok-kelompok harus, pada kenyataannya, tersebar di voxels tetangga.
Jadi, perbandingan cluster-bijaksana dilakukan, yaitu hanya perbedaan antara kelompok yang membentuk cluster yang dipertimbangkan. Ambang batas kluster ini adalah teknik koreksi perbandingan berganda yang paling populer dalam studi fMRI. Masalahnya ada di sini.
Dalam SPM setidaknya Anda harus menetapkan tingkat FWE nominal dan juga ambang batas pendefinisian klaster (CDT). Pada dasarnya, SPM menemukan voxel sangat berkorelasi dengan tugas dan, setelah ambang dengan CDT, yang tetangga diagregasi menjadi cluster. Ukuran cluster ini dibandingkan dengan luas cluster yang diharapkan dari Random Field Theory (RFT) mengingat set FWER [ 1 ].
Para penulis telah menunjukkan dalam [ 1 ] bahwa ukuran cluster yang diharapkan dari RFT benar-benar kecil ketika membandingkan dengan ambang batas cluster yang diperoleh dari pengujian permutasi acak (RPT).
Dalam makalah terbaru mereka, keadaan istirahat (modalitas lain dari fMRI, di mana peserta diperintahkan untuk tidak berpikir dalam hal tertentu) data digunakan seolah-olah orang melakukan tugas selama akuisisi gambar, dan perbandingan kelompok dilakukan voxel- dan cluster -bijaksana. Kesalahan positif palsu yang diamati (yaitu ketika Anda mengamati perbedaan dalam respons sinyal terhadap tugas virtual antar kelompok) tingkat harus lebih rendah dari tingkat FWE yang diharapkan ditetapkan pada . Mengulangi analisis ini jutaan kali pada kelompok sampel acak dengan paradigma yang berbeda menunjukkan tingkat FWE yang paling banyak diamati lebih tinggi daripada yang dapat diterima.α=0.05
@amoeba mengajukan dua pertanyaan yang sangat relevan ini dalam komentar:
(1) Pertanyaan bagus. Saya sebenarnya meninjau referensi saya, mari kita lihat apakah saya bisa membuatnya lebih jelas sekarang. Inferensi cluster-bijaksana didasarkan pada sejauh mana cluster yang terbentuk setelah ambang batas primer ( CDT, yang sewenang-wenang ) diterapkan. Dalam analisis sekunder sebuah ambang batas pada jumlah voxels per cluster diterapkan. Ambang ini didasarkan pada distribusi yang diharapkan dari luasan kluster nol, yang dapat diperkirakan dari teori (misalnya RFT), dan menetapkan FWER nominal. Referensi yang baik adalah [ 2 ].
(2) Terima kasih untuk referensi ini, tidak melihatnya sebelumnya. Flandin & Friston berpendapat Eklund et al. memperkuat kesimpulan RFT karena pada dasarnya mereka menunjukkan bahwa dengan menghormati asumsi-asumsinya (mengenai CDT dan smoothing) hasilnya tidak bias. Di bawah cahaya ini, hasil baru menunjukkan praktik yang berbeda dalam literatur cenderung bias inferensi karena memecah asumsi RFT.
Di beberapa perbandingan
Ini juga diketahui banyak penelitian dalam ilmu saraf tidak benar untuk beberapa perbandingan, perkiraan mulai dari 10% hingga 40% dari literatur. Tapi ini tidak diperhitungkan oleh klaim itu, semua orang tahu makalah ini memiliki validitas rapuh dan mungkin tingkat positif palsu yang sangat besar.
Di FWER lebih dari 70%
Para penulis juga melaporkan prosedur yang menghasilkan FWER lebih dari 70%. Prosedur "rakyat" ini terdiri dari penerapan CDT untuk menjaga hanya cluster yang sangat signifikan dan kemudian menerapkan ambang batas tingkat cluster yang dipilih secara sewenang-wenang (dalam jumlah voxel). Ini, kadang-kadang disebut "set-inference", memiliki basis statistik yang lemah, dan mungkin menghasilkan hasil yang paling tidak dapat dipercaya.
Laporan sebelumnya
Penulis yang sama telah melaporkan masalah dengan validitas SPM [ 1 ] pada analisis individu. Ada juga karya lain yang dikutip di bidang ini.
Anehnya, beberapa laporan tentang analisis tingkat kelompok dan individu berdasarkan data yang disimulasikan menyimpulkan ambang batas RFT, pada kenyataannya, konservatif. Dengan kemajuan baru-baru ini dalam kekuatan pemrosesan meskipun RPT dapat dilakukan dengan lebih mudah pada data nyata, menunjukkan perbedaan besar dengan RFT.
PEMBARUAN: 18 Oktober 2017
Sebuah komentar tentang "Kegagalan Cluster" telah muncul Juni lalu [ 3 ]. Ada Mueller dkk. berpendapat hasil yang disajikan dalam Eklund et al mungkin karena teknik preprocessing pencitraan khusus yang digunakan dalam penelitian mereka. Pada dasarnya, mereka meresap gambar fungsional ke resolusi yang lebih tinggi sebelum dihaluskan (walaupun mungkin tidak dilakukan oleh setiap peneliti, ini adalah prosedur rutin di sebagian besar perangkat lunak analisis fMRI). Mereka juga mencatat bahwa Flandin & Friston tidak. Saya benar-benar harus melihat Eklund berbicara pada bulan yang sama dalam Pertemuan Tahunan Pemetaan Otak Manusia (OHBM) di Vancouver, tetapi saya tidak ingat komentar apa pun tentang masalah ini, namun sepertinya itu penting untuk pertanyaan itu.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Apakah analisis fMRI parametrik dengan SPM memberikan hasil yang valid? —Sebuah studi empiris terhadap 1484 dataset sisanya. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A., & Taruhan, TD (2014). Ambang batas berdasarkan tingkat cluster dalam analisis fMRI: perangkap dan rekomendasi. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Komentar: Kegagalan klaster: Mengapa kesimpulan fMRI untuk tingkat spasial telah meningkatkan tingkat false-positive. Perbatasan dalam Human Neuroscience, 11.
sumber