Saya memiliki semacam pertanyaan filosofis tentang kapan koreksi perbandingan banyak diperlukan.
Saya mengukur sinyal bervariasi waktu kontinu (pada titik waktu diskrit). Peristiwa terpisah terjadi dari waktu ke waktu dan saya ingin memastikan apakah peristiwa-peristiwa ini memiliki efek signifikan pada sinyal yang diukur.
Jadi saya bisa mengambil sinyal rata-rata yang mengikuti suatu peristiwa, dan biasanya saya bisa melihat beberapa efek di sana dengan puncak tertentu. Jika saya memilih waktu puncak itu dan mengatakan t-test untuk menentukan apakah itu signifikan vs ketika peristiwa itu tidak terjadi, saya perlu melakukan beberapa koreksi perbandingan?
Meskipun saya hanya pernah melakukan satu uji-t (nilai 1 dihitung), dalam inspeksi visual awal saya memilih yang dengan efek potensial terbesar dari (katakanlah) 15 titik waktu tunda posting yang berbeda yang saya plot. Jadi apakah saya perlu melakukan beberapa koreksi perbandingan untuk 15 tes yang tidak pernah saya lakukan?
Jika saya tidak menggunakan inspeksi visual, tetapi hanya melakukan tes di setiap acara lag dan memilih yang tertinggi, saya pasti perlu memperbaiki. Saya hanya sedikit bingung apakah saya perlu atau tidak jika pemilihan 'penundaan terbaik' dibuat oleh beberapa kriteria lain daripada tes itu sendiri (misalnya pemilihan visual, rata-rata tertinggi dll.)
Dahulu, di salah satu kelas statistik pertama saya, saya membaca tentang ini dalam sebuah teks (saya pikir itu adalah edisi lama buku Cohen tentang regreession) di mana dikatakan "ini adalah pertanyaan tentang mana orang yang masuk akal dapat berbeda".
Tidak jelas bagi saya bahwa ada orang yang perlu mengoreksi beberapa perbandingan, atau, jika mereka lakukan, selama periode atau serangkaian perbandingan apa yang harus mereka koreksi. Setiap artikel? Setiap regresi atau ANOVA? Semua yang mereka terbitkan pada subjek? Bagaimana dengan yang diterbitkan orang LAIN?
Ketika Anda menulis di baris pertama Anda, itu filosofis.
sumber
Jika Anda mencoba membuat keputusan satu kali tentang kenyataan dan ingin mengendalikan tingkat di mana Anda menolak hipotesis nol, maka Anda akan menggunakan pengujian signifikansi hipotesis nol (NHST) dan ingin menggunakan koreksi untuk beberapa perbandingan. Namun, seperti yang dicatat Peter Flom dalam jawabannya, tidak jelas bagaimana mendefinisikan set perbandingan yang akan digunakan untuk koreksi. Pilihan termudah adalah serangkaian perbandingan yang diterapkan pada kumpulan data yang diberikan, dan ini adalah pendekatan yang paling umum.
Namun, sains bisa dibilang paling baik dipahami sebagai sistem kumulatif di mana keputusan satu kali tidak diperlukan dan pada kenyataannya hanya berfungsi untuk mengurangi efisiensi akumulasi bukti (mengurangi bukti yang diperoleh menjadi sedikit informasi). Dengan demikian, jika seseorang mengikuti pendekatan ilmiah yang tepat untuk analisis statistik, menghindari NHST untuk alat-alat seperti rasio kemungkinan (mungkin juga pendekatan Bayesian), maka "masalah" dari beberapa perbandingan menghilang.
sumber
Alternatif yang mungkin untuk koreksi, tergantung pada pertanyaan Anda, adalah menguji signifikansi jumlah nilai-p. Anda bahkan dapat menghukum diri sendiri untuk tes yang tidak dilakukan dengan menambahkan nilai p tinggi.
Perpanjangan (yang tidak membutuhkan independensi) dari metode Fisher (yang membutuhkan independensi pengujian) dapat digunakan.
Misalnya. Metode Kost
sumber
Satu hal yang sangat penting untuk diingat adalah bahwa koreksi pengujian berganda mengasumsikan tes independen. Jika data yang Anda analisis tidak independen, hal-hal menjadi sedikit lebih rumit daripada sekadar mengoreksi jumlah tes yang dilakukan, Anda harus memperhitungkan korelasi antara data yang dianalisis atau koreksi Anda mungkin akan terlalu konservatif dan Anda akan memiliki tingkat kesalahan tipe II yang tinggi. Saya telah menemukan validasi silang, tes permutasi, atau bootstrap dapat menjadi cara yang efektif untuk menangani beberapa perbandingan jika digunakan dengan benar. Orang lain telah menyebutkan menggunakan FDR, tetapi ini dapat memberikan hasil yang salah jika ada banyak non-independensi dalam data Anda karena mengasumsikan nilai-p seragam di semua tes di bawah nol.
sumber