Sedikit pertanyaan aneh. Di kelas biostatistik tahun keempat saya hari ini, kami berdiskusi kapan dan kapan tidak menggunakan beberapa koreksi pengujian, dan profesor memberikan komentar sambil lalu. Dia bertanya mengapa kami tidak mengoreksi untuk setiap tes yang pernah kami lakukan sejak kami mulai melakukan statistik, karena mereka semua (sebagian besar) independen dan setiap kali kami mengamati hasilnya, kami meningkatkan kemungkinan kami untuk menggambar positif palsu. Dia menertawakannya setelah itu, tetapi mengapa kita tidak melakukan ini? Saya tidak mengatakan bahwa kita harus, karena jelas itu menggelikan, tetapi seberapa jauh terlalu jauh dalam hal mengoreksi tes?
Kami akan mengasumsikan alpha = 0,05 untuk kesederhanaan, dan mengatakan bahwa setiap tes A, B, dan C tidak berada di bawah segala jenis ketergantungan dan karenanya independen. Jika saya duduk dan menguji A, B, dan C, apakah itu tes T atau apa pun, saya jelas harus menyesuaikan beberapa koreksi karena saya mengambil 0,95 pangkat tiga, dan peluang saya mendapatkan roket langit positif palsu. Namun, jika saya melakukan A, B, dan C pada hari yang berbeda, dalam konteks prosedur yang berbeda, dan menarik hasil yang berbeda dari mereka, bagaimana ini berbeda dari situasi sebelumnya? Kami masih mengamati tiga tes, mereka masih independen.
Apa yang saya coba sampaikan adalah batas logis di mana kami mengatakan untuk berhenti melakukan beberapa koreksi pengujian. Haruskah kita hanya melakukannya untuk satu keluarga tes, atau kita harus melakukannya untuk seluruh kertas, atau haruskah kita melakukannya untuk setiap tes tunggal yang pernah kita jalankan? Saya mengerti bagaimana menggunakan beberapa koreksi pengujian, dan menggunakan FDR / Bonferonni di tempat kerja sepanjang waktu. Konsep ini hanya membuat kepala saya berputar-putar.
Terima kasih atas waktu Anda.
Sunting: Ada diskusi panjang tentang masalah ini dalam pertanyaan yang lebih baru .
Jawaban:
Saya pikir jawaban atas pertanyaan Anda adalah bahwa koreksi berganda tergantung pada konteks masalah yang Anda selesaikan. Jika Anda pertama kali mempertimbangkan pengujian apriori dan pengujian post-hoc maka Anda dapat melihat di mana koreksi untuk beberapa tes ikut berperan.
Katakanlah Anda merumuskan hipotesis tunggal, mengumpulkan data, dan menguji hipotesis tersebut. Tidak perlu memperbaiki dalam hal ini jelas. Jika Anda memutuskan apriori untuk melakukan dua tes atau lebih pada kumpulan data, Anda mungkin atau mungkin tidak memperbaiki beberapa pengujian. Koreksi mungkin berbeda untuk setiap tes dan dapat dipilih menggunakan pengetahuan domain Anda. Di sisi lain, Anda dapat menggunakan salah satu metode koreksi yang biasa. Tes a priori umumnya jumlahnya kecil. Jika Anda memiliki sejumlah besar hipotesis untuk diuji, Anda dapat memutuskan ukuran sampel yang lebih besar, sampel yang berbeda dll, dll. Dengan kata lain, Anda dapat merancang eksperimen Anda untuk memberi Anda peluang terbaik untuk menarik kesimpulan yang benar dari hipotesis Anda.
Tes post-hoc di sisi lain dilakukan pada serangkaian data tanpa hipotesis tertentu dalam pikiran. Anda pengerukan data sampai batas tertentu dan Anda tentu perlu menerapkan koreksi Bonferroni atau FDR (atau favorit Anda sendiri).
Karena kumpulan data yang berbeda yang dikumpulkan selama masa hidup Anda (atau untuk kertas) umumnya independen dan mengajukan pertanyaan yang berbeda, seharusnya tidak perlu khawatir tentang koreksi untuk setiap tes yang pernah dilakukan. Ingat bahwa beberapa koreksi melindungi terhadap familywise error (perlindungan yaitu untuk keluarga tes) daripada kesalahan tes individu. Jika Anda dapat mengelompokkan tes Anda secara logis ke dalam keluarga, saya pikir Anda akan menemukan beberapa perbandingan yang cocok untuk keluarga ini.
sumber
Anda dapat memikirkan tingkat kesalahan berdasarkan keluarga (FWER; untuk informasi lebih lanjut, lihat artikel ini ). Saya akan mengatakan jika Anda menjalankan satu percobaan untuk menguji A, B, dan C, Anda harus menerapkan koreksi multi-pengujian. Jika Anda menjalankan percobaan terpisah untuk setiap A, B, dan C, maka tidak diperlukan koreksi.
Anda mungkin bertanya mengapa kami harus mengontrol tingkat kesalahan berdasarkan per eksperimen. Ini pendapat saya. Bayangkan bahwa beberapa lembaga tipe NIH atau FDA mengamanatkan bahwa Anda mengoreksi untuk setiap tes yang pernah Anda lakukan. Pertimbangkan bahwa Anda menjalankan percobaan dengan satu tes, dan itu adalah eksperimen pertama Anda. Tidak diperlukan penyesuaian di sini. Sekarang perhatikan bahwa Anda menjalankan percobaan baru lagi dengan satu tes, tetapi kali ini adalah Anda1 ,000t h percobaan. Maka Anda harus menggunakanα 0,05 / 1.000 = 0,00005! Siapa yang mau menjalankan eksperimen apa pun dengan yang serendah ituα ? Jadi tebakan saya adalah bahwa, ketika Tukey mengusulkan tingkat kesalahan menurut eksperimen, ia mungkin ingin bersikap adil terhadap setiap percobaan, karena setiap percobaan membutuhkan uang, waktu, dan sumber daya.
sumber