Saya merasa sulit untuk memahami apa sebenarnya masalah dengan beberapa perbandingan . Dengan analogi sederhana, dikatakan bahwa seseorang yang akan membuat banyak keputusan akan membuat banyak kesalahan. Jadi pencegahan sangat konservatif diterapkan, seperti koreksi Bonferroni, sehingga untuk membuat probabilitas itu, orang ini akan membuat kesalahan sama sekali, serendah mungkin.
Tetapi mengapa kita peduli apakah orang tersebut telah melakukan kesalahan di antara semua keputusan yang dia buat, dan bukan persentase dari keputusan yang salah?
Biarkan saya mencoba menjelaskan apa yang membingungkan saya dengan analogi lain. Misalkan ada dua hakim, satu berusia 60 tahun, dan yang lain berusia 20 tahun. Kemudian koreksi Bonferroni memberi tahu seseorang yang berusia 20 tahun untuk menjadi sekonservatif mungkin, dalam memutuskan untuk dieksekusi, karena dia akan bekerja selama bertahun-tahun sebagai hakim, akan membuat lebih banyak keputusan, jadi dia harus berhati-hati. Tetapi yang berusia 60 tahun mungkin akan segera pensiun, akan membuat keputusan lebih sedikit, sehingga ia bisa lebih ceroboh dibandingkan yang lain. Namun sebenarnya, kedua hakim harus sama berhati-hati atau konservatif, terlepas dari jumlah keputusan yang akan mereka buat. Saya pikir analogi ini kurang lebih berarti masalah nyata di mana koreksi Bonferroni diterapkan, yang menurut saya berlawanan dengan intuisi.
Jawaban:
Anda telah menyatakan sesuatu yang merupakan argumen balik klasik terhadap koreksi Bonferroni. Tidakkah saya harus menyesuaikan kriteria alfa saya berdasarkan pada setiap tes yang pernah saya buat? Implikasi iklan absurdum semacam ini adalah mengapa sebagian orang tidak percaya pada koreksi gaya Bonferroni sama sekali. Terkadang jenis data yang berhubungan dengan karier mereka sedemikian rupa sehingga ini bukan masalah. Untuk hakim yang membuat satu, atau sangat sedikit keputusan pada setiap bukti baru, ini adalah argumen yang sangat valid. Tetapi bagaimana dengan hakim dengan 20 terdakwa dan siapa yang mendasarkan penilaian mereka pada satu set besar data (misalnya pengadilan perang)?
Anda mengabaikan tendangan di bagian kaleng argumen. Umumnya para ilmuwan mencari sesuatu - nilai p kurang dari alpha. Setiap upaya untuk menemukan satu adalah tendangan lain di kaleng. Seseorang pada akhirnya akan menemukan satu jika seseorang mengambil cukup banyak tembakan padanya. Karena itu, mereka harus dihukum karena melakukan itu.
Cara Anda menyelaraskan kedua argumen ini adalah dengan menyadari bahwa keduanya sama-sama benar. Solusi paling sederhana adalah dengan mempertimbangkan pengujian perbedaan dalam satu dataset sebagai tendangan pada jenis kaleng masalah tetapi memperluas cakupan koreksi di luar yang akan menjadi lereng yang licin.
Ini adalah masalah yang benar-benar sulit di sejumlah bidang, terutama FMRI di mana ada ribuan titik data yang dibandingkan dan pasti ada beberapa yang muncul secara signifikan. Mengingat bahwa bidang ini secara historis sangat eksploratif, seseorang harus melakukan sesuatu untuk mengoreksi fakta bahwa ratusan area otak akan terlihat signifikan murni secara kebetulan. Oleh karena itu, banyak metode penyesuaian kriteria telah dikembangkan di bidang itu.
Di sisi lain, di beberapa bidang orang mungkin paling banyak melihat 3 hingga 5 level variabel dan selalu hanya menguji setiap kombinasi jika ANOVA yang signifikan terjadi. Ini diketahui memiliki beberapa masalah (kesalahan tipe 1) tetapi tidak terlalu buruk.
Itu tergantung pada sudut pandang Anda. Peneliti FMRI mengakui kebutuhan nyata untuk perubahan kriteria. Orang yang melihat ANOVA kecil mungkin merasa ada sesuatu yang jelas dari tes tersebut. Sudut pandang konservatif yang tepat pada banyak perbandingan adalah untuk selalu melakukan sesuatu tentang mereka tetapi hanya berdasarkan pada satu dataset. Setiap data baru mengatur ulang kriteria ... kecuali jika Anda seorang Bayesian ...
sumber
Para ahli statistik yang dihormati telah mengambil berbagai posisi dalam berbagai perbandingan. Itu subjek yang halus. Jika seseorang berpikir itu sederhana, saya ingin tahu berapa banyak mereka telah memikirkannya.
Berikut ini adalah perspektif Bayesian yang menarik tentang pengujian berganda dari Andrew Gelman: Mengapa kami tidak (biasanya) khawatir tentang beberapa perbandingan .
sumber
Terkait dengan komentar sebelumnya, apa yang harus diingat oleh peneliti fMRI adalah bahwa hasil yang penting secara klinis adalah yang penting, bukan perubahan kepadatan satu piksel pada fMRI otak. Jika tidak menghasilkan perbaikan / kerugian klinis, itu tidak masalah. Itu adalah salah satu cara untuk mengurangi kekhawatiran tentang beberapa perbandingan.
Lihat juga:
sumber
pilih ambang yang sama untuk semua orang
untuk memilih ambang yang berbeda untuk semua orang (paling sering ambang batas data, lihat di bawah).
Tujuan berbeda: Opsi ini dapat didorong untuk berbagai tujuan seperti
Mengontrol ekspektasi rasio alarm palsu (atau False Discovery Rate)
Apa pun tujuan Anda di akhir, merupakan ide bagus untuk menggunakan ambang batas data.
Jawaban saya untuk pertanyaan Anda: intuisi Anda terkait dengan heuristik utama untuk memilih ambang batas data. Berikut ini (pada asal prosedur Holm yang lebih kuat daripada Bonferoni):
Dalam kasus hakim Anda: Saya berasumsi (dan saya kira Anda harus melakukan hal yang sama) bahwa kedua hakim memiliki anggaran tuduhan palsu yang sama untuk hidup mereka. Hakim yang berusia 60 tahun itu mungkin kurang konservatif jika, di masa lalu, ia tidak menuduh siapa pun! Tetapi jika dia sudah membuat banyak tuduhan dia akan lebih konservatif dan bahkan mungkin lebih dari hakim yang paling kejam.
sumber
Artikel ilustrasi (dan lucu); http://www.jsur.org/ar/jsur_ben102010.pdf ) tentang perlunya koreksi pengujian berganda dalam beberapa studi praktis yang mengembangkan banyak variabel misalnya fmri. Kutipan singkat ini mengatakan sebagian besar pesan:
yaitu, dalam pengalaman saya, argumen yang hebat untuk mendorong pengguna menggunakan beberapa koreksi pengujian.
sumber