Apakah koreksi Benjamini-Hochberg lebih konservatif karena jumlah perbandingan meningkat?

Seberapa konservatifkah koreksi beberapa pengujian Benjamini-Hochberg relatif terhadap jumlah perbandingan? Misalnya, jika saya memiliki daftar 18.000 fitur untuk dua grup dan saya melakukan tes Wilcoxon untuk mendapatkan nilai-p. Saya menyesuaikan nilai-p menggunakan Benjamini-Hochberg dan hampir tidak ada yang keluar sebagai signifikan.

Saya tahu bahwa koreksi Bonferroni bisa sangat konservatif karena jumlah perbandingan meningkat, apakah Benjamini-Hochberg memiliki properti yang sama?

multiple-comparisons p-value pengguna4673
sumber

Apakah Anda benar-benar berarti konservatif dalam arti bahwa tingkat aktual tipe I jauh lebih kecil daripada nominal? Atau maksud Anda 'daya rendah'?

shabbychef

Dia mengatakan "konservatif", tidak "terlalu konservatif". Jika suatu metode konservatif, ia memiliki kekuatan rendah ...

Elvis

Jawaban:

Pertama, Anda perlu memahami bahwa dua prosedur pengujian berganda ini tidak mengontrol hal yang sama. Dengan menggunakan contoh Anda, kami memiliki dua grup dengan 18.000 variabel yang diamati, dan Anda membuat 18.000 tes untuk mengidentifikasi beberapa variabel yang berbeda dari satu grup ke yang lain.

Koreksi Bonferroni mengendalikan tingkat kesalahan Familywise , yaitu probabilitas, dengan asumsi semua 18.000 variabel memiliki distribusi yang identik dalam dua kelompok, bahwa Anda secara keliru mengklaim "di sini saya memiliki beberapa perbedaan yang signifikan". Biasanya, Anda memutuskan bahwa jika probabilitas ini <5%, klaim Anda kredibel.
Koreksi Benjamini-Hochberg mengontrol tingkat penemuan False , yaitu proporsi yang diharapkan dari false positive di antara variabel yang Anda klaim adanya perbedaan. Misalnya, jika dengan FDR dikontrol hingga 5%, 20 tes positif, "rata-rata" hanya 1 dari tes ini akan menjadi positif palsu.

Sekarang, ketika jumlah perbandingan meningkat ... yah, itu tergantung pada jumlah hipotesis nol marginal yang benar. Tetapi pada dasarnya, dengan kedua prosedur, jika Anda memiliki beberapa, katakanlah 5 atau 10, variabel yang benar-benar terkait, Anda memiliki lebih banyak peluang untuk mendeteksi mereka di antara 100 variabel daripada di antara 1.000.000 variabel. Itu harus cukup intuitif. Tidak ada cara untuk menghindari ini.

Elvis
sumber

Itu penjelasan yang bagus. Terima kasih atas tanggapan yang bijaksana.

user4673

Jawaban yang bagus (+1), mungkin ini mungkin menarik bagi Anda stats.stackexchange.com/questions/166323/…