Saya memahami intuisi di balik MCP tetapi saya mengalami kesulitan menentukan dengan tepat penyebabnya, apa yang harus dihindari, atau setidaknya diperhitungkan.
Dalam definisi yang paling blak-blakan, saya setuju bahwa jika saya mengambil data apa pun dan menerapkan pendekatan brute force untuknya mencoba setiap hipotesis nol yang mungkin, saya akhirnya akan menemukan satu yang dapat ditolak dengan alfa sewenang-wenang (misalnya, 5%) dan menyatakan sebuah penemuan.
Tetapi dalam banyak definisi MCP saya membaca sesuatu seperti "semakin Anda menguji semakin besar kemungkinan Anda akan menemukan", dan meskipun saya setuju, saya tidak perlu melihatnya sebagai masalah (atau setidaknya akar dari masalah). Misalnya, jika banyak peneliti menganalisis fenomena yang sama dengan data yang tersedia yang sama, masing-masing menguji hipotesisnya sendiri, kemungkinan besar seseorang akan mencapai penemuan (daripada jika hanya satu peneliti), apakah itu berarti bahwa mereka harus menerapkan beberapa jenis koreksi untuk alfa target mereka (misalnya, koreksi Bonferroni )? Saya berasumsi jawabannya adalah tidak, tetapi kemudian tidak menjadi jelas mengapa seorang peneliti tunggal menguji banyak hipotesis harus (sekali lagi, menyetujui bahwa sistem pengujian dapat disalahgunakan dan harus ada koreksi untuk itu).
Kapan peningkatan kesempatan ini untuk menemukan penemuan (menolak hipotesis nol) menjadi masalah? Ketika memikirkan penyebabnya, ada beberapa faktor yang muncul di pikiran, tetapi saya tidak yakin yang mana dari mereka (atau yang lain yang tidak tercantum di sini) yang lebih terkait dengan penyebab masalah ini:
Analisis post hoc : Saya mengerti bahwa hipotesis harus (lebih disukai) diformulasikan secara apriori, jika tidak, saya hanya melihat data yang mencoba menebak hipotesis mana yang dapat saya masukkan di bawah alfa yang diinginkan.
Menggunakan kembali data: Apakah masalahnya hilang jika saya menggunakan set data yang berbeda untuk setiap hipotesis yang saya uji? Peluang menemukan penemuan masih akan meningkatkan lebih banyak uji hipotesis I (bahkan pada set data yang berbeda).
Peneliti independen: menggunakan kembali contoh sebelumnya, apakah MCP terkait dengan tim / upaya penelitian yang sama? Atau itu berlaku untuk beberapa peneliti independen yang mengerjakan masalah yang sama (atau bahkan pada data yang sama atau serupa)?
Hipotesis independen: terkait dengan masalah sebelumnya, apakah masalah muncul (atau lebih kuat terwujud) ketika hipotesis independen? (karena saya membahas lebih banyak ruang pencarian) atau masalah utama adalah mencoba hipotesis serupa dengan variasi kecil (misalnya, mengatur parameter)?
Saya dapat merangkum poin-poin di atas, dalam interpretasi saya, karena (1) dan (2) menjadi bentuk mengurangi ruang pencarian (meminjam terminologi dari teori optimasi) di mana saya membuatnya lebih mudah untuk menemukan penemuan; dan (3) dan (4) menggunakan metode pencarian yang lebih ortogonal yang mencakup lebih banyak ruang pencarian ini setiap kali diterapkan (yaitu, setiap kali hipotesis diuji). Tetapi ini hanyalah beberapa kemungkinan penyebab yang bisa saya kemukakan, untuk membantu mendapatkan jawaban, masih banyak lagi yang saya lewatkan. Saya yakin.
Pertanyaan ini agaknya merupakan tindak lanjut dari yang sebelumnya yang menanyakan mengapa perbandingan ganda merupakan masalah , menimbulkan masalah yang mirip dengan perbedaan antara FWER dan FDR (jika saya memahami pertanyaan dengan benar). Dalam pertanyaan ini saya tidak menganggap itu sebagai masalah (walaupun saya akan lebih cenderung menggunakan FDR), kedua tingkat menyiratkan bahwa ada masalah ketika menganalisis lebih dari satu hipotesis (tapi saya gagal melihat perbedaan dari kasus ketika Saya menganalisis berbagai masalah yang tidak berhubungan, menemukan penemuan untuk masing-masing dari mereka dengan signifikansi 5%, yang berarti bahwa ketika saya telah "memecahkan" 100 masalah menolak hipotesis nol, 5 dari mereka - nilai yang tidak diharapkan - mungkin akan salah). The jawaban terbaik untuk pertanyaan itu tersirat bahwa tidak ada jawaban yang pasti untuk itu, dan mungkin tidak ada satu untuk pertanyaan ini juga, tetapi masih akan sangat membantu (setidaknya bagi saya) untuk menjelaskan sebanyak mungkin di mana penyebab kesalahan MCP berasal dari.
( Jawaban lain untuk pertanyaan yang sama menyarankan makalah yang menjelaskan manfaat dari perspektif model multilevel Bayesian atas perspektif klasik. Ini adalah pendekatan lain yang menarik yang perlu diselidiki tetapi ruang lingkup pertanyaan ini adalah kerangka kerja klasik.)
Sudah ada beberapa pertanyaan tentang masalah ini, banyak yang layak dibaca (misalnya, 1 , 2 , 3 , 4 ) yang membahas (dari berbagai perspektif) masalah yang diangkat di atas, tetapi saya masih merasakan jawaban yang lebih bersatu (jika itu mungkin) kurang, maka pertanyaan ini, yang saya harap tidak mengurangi SNR (sudah bermasalah) .
sumber
Jawaban:
Intuisi Anda kira-kira benar, tetapi mungkin membantu untuk mempertimbangkan bagaimana perbandingan ganda merusak asumsi tes hipotesis itu sendiri. Ketika Anda melakukan tes hipotesis klasik, Anda menghasilkan nilai-p, yang merupakan ukuran bukti terhadap hipotesis nol. Nilai-p dibangun sedemikian rupa sehingga nilai yang lebih rendah merupakan bukti yang lebih besar terhadap nol, dan didistribusikan secara seragam di bawah hipotesis nol . Inilah yang memungkinkan Anda untuk menganggap hipotesis nol sebagai tidak masuk akal untuk nilai-p rendah (relatif terhadap tingkat signifikansi).
Misalkan Anda memutuskan untuk mengujiN> 1 hipotesis tanpa membuat penyesuaian apa pun pada metode pengujian Anda untuk memperhitungkan beberapa perbandingan. Setiap nilai p untuk tes ini adalah variabel acak yang seragam di bawah hipotesis nol untuk tes itu. Jadi, jika tidak ada hipotesis alternatif dari tes ini yang benar (yaitu, semua hipotesis nol adalah benar) yang Anda milikihal1, . . . ,halN∼ U ( 0 , 1 ) (nilai-nilai ini umumnya tidak independen). Misalkan Anda memilih level signifikansi0 < α < 1 dan Anda menguji semua hipotesis ini terhadap tingkat itu. Untuk melakukan ini, Anda melihat nilai-p yang diurutkan dan mengamati yang Anda milikihal( 1 )< . . . <hal( k )< α <hal( k + 1 ). . . <hal( N) untuk beberapa 0 ⩽ k ⩽ N . Ini memberitahu Anda bahwa untuk tes pertama (sesuai dengan nilai-p yang dipesan) Anda harus menolak hipotesis nol untuk masing-masing tes tersebut.k
Apa masalah yang terjadi di sini? Nah, masalahnya adalah bahwa meskipun nilai-p dari masing-masing tes adalah seragam di bawah hipotesis nol masing-masing, nilai-p yang dipesan tidak seragam. Dengan memilih yang terendahk nilai p yang berada di bawah tingkat signifikansi, Anda tidak lagi melihat variabel acak yang seragam di bawah hipotesis nol masing-masing. Bahkan, untuk ukuran besarN , nilai-p terendah kemungkinan memiliki distribusi yang sangat terkonsentrasi di dekat nol, dan ini sangat mungkin berada di bawah tingkat signifikansi Anda, meskipun (dengan asumsi) semua hipotesis nol untuk pengujian Anda adalah benar.
Fenomena ini terjadi terlepas dari apakah nilai-p independen atau tidak, dan karena itu terjadi terlepas dari apakah Anda menggunakan data yang sama atau data yang berbeda untuk menguji hipotesis ini. Masalah dari beberapa perbandingan adalah bahwa nilai p yang lebih rendah dariN tes akan memiliki distribusi nol marginal yang tidak seragam . Penyesuaian seperti upaya koreksi Bonferroni untuk menghadapinya dengan menyesuaikan nilai p atau tingkat signifikansi untuk membuat perbandingan yang memperhitungkan fenomena ini.
sumber
Anda tampaknya berasumsi bahwa seorang peneliti dapat mengetahui kapan suatu penemuan dibuat. Bukan itu masalahnya. Bahkan jika Anda "menemukan suatu penemuan", Anda tidak akan pernah bisa yakin bahwa Anda telah melakukannya (kecuali jika Anda adalah makhluk yang mahatahu), karena, walaupun terdengar kasar, yang membedakan alarm palsu dari penemuan dalam sains biasanya adalah beberapa tingkat "kepercayaan" manusia dalam analisis.
sumber