Program statistik saya mengimplementasikan prosedur Benjamini & Hochberg (1995) dan Benjamini & Yekutieli (2001) salah. Saya telah melakukan yang terbaik untuk membaca makalah selanjutnya, tetapi secara matematis cukup padat dan saya tidak cukup yakin saya memahami perbedaan antara prosedur. Saya dapat melihat dari kode yang mendasari dalam program statistik saya bahwa mereka memang berbeda dan bahwa yang terakhir mencakup jumlah q yang telah saya lihat mengacu pada FDR, tetapi juga tidak begitu paham.
Apakah ada alasan untuk memilih prosedur Benjamini & Hochberg (1995) dibandingkan prosedur Benjamini & Yekutieli (2001)? Apakah mereka memiliki asumsi yang berbeda? Apa perbedaan praktis antara pendekatan ini?
Benjamini, Y., dan Hochberg, Y. (1995). Mengontrol laju penemuan palsu: pendekatan praktis dan kuat untuk pengujian berganda. Jurnal Royal Statistical Society Seri B, 57, 289–300.
Benjamini, Y., dan Yekutieli, D. (2001). Kontrol tingkat penemuan palsu dalam beberapa pengujian di bawah ketergantungan. Annals of Statistics 29, 1165-1188.
Makalah 1999 direferensikan dalam komentar di bawah ini: Yekutieli, D., & Benjamini, Y. (1999). Laju penemuan palsu berbasis resampling mengendalikan berbagai prosedur pengujian untuk statistik uji berkorelasi. Jurnal Perencanaan dan Inferensi Statistik, 82 (1), 171-196.
sumber
Jawaban:
Benjamini dan Hochberg (1995) memperkenalkan tingkat penemuan palsu. Benjamini dan Yekutieli (2001) membuktikan bahwa estimator itu valid di bawah beberapa bentuk ketergantungan. Ketergantungan dapat muncul sebagai berikut. Pertimbangkan variabel kontinu yang digunakan dalam uji-t dan variabel lain yang berkorelasi dengannya; misalnya, menguji apakah BMI berbeda dalam dua kelompok dan apakah lingkar pinggang berbeda pada kedua kelompok ini. Karena variabel-variabel ini berkorelasi, nilai-p yang dihasilkan juga akan dikorelasikan. Yekutieli dan Benjamini (1999) mengembangkan prosedur pengendalian FDR lain, yang dapat digunakan di bawah ketergantungan umum dengan resampling distribusi nol. Karena perbandingannya berkenaan dengan distribusi permutasi nol, ketika jumlah total positif sejati meningkat, metode menjadi lebih konservatif. Ternyata BH 1995 juga konservatif karena jumlah positif sejati meningkat. Untuk meningkatkan ini, Benjamini dan Hochberg (2000) memperkenalkan prosedur FDR adaptif. Ini membutuhkan estimasi parameter, proporsi nol, yang juga digunakan dalam estimator pFDR Storey. Storey memberikan perbandingan dan berpendapat bahwa metodenya lebih kuat dan menekankan sifat konservatif prosedur 1995. Storey juga memiliki hasil dan simulasi di bawah ketergantungan.
Semua tes di atas valid di bawah independensi. Pertanyaannya adalah seperti apa penyimpangan dari independensi yang dapat diestimasi oleh estimasi-estimasi ini.
Pemikiran saya saat ini adalah bahwa jika Anda tidak mengharapkan terlalu banyak hal positif, prosedur BY (1999) bagus karena menggabungkan fitur distribusi dan ketergantungan. Namun, saya tidak mengetahui implementasi. Metode Storey dirancang untuk banyak hal positif sejati dengan ketergantungan. BH 1995 menawarkan alternatif untuk tingkat kesalahan keluarga-bijaksana dan masih konservatif.
Benjamini, Y dan Y Hochberg. Pada Kontrol Adaptif dari Tingkat Penemuan Salah dalam Beberapa Pengujian dengan Statistik Independen. Jurnal Statistik Pendidikan dan Perilaku, 2000.
sumber
p.adjust tidak menyalahgunakan untuk BY. Referensi adalah untuk Teorema 1.3 (bukti dalam Bagian 5 pada hal.1182) dalam makalah:
Benjamini, Y., dan Yekutieli, D. (2001). Kontrol tingkat penemuan palsu dalam beberapa pengujian di bawah ketergantungan. Annals of Statistics 29, 1165-1188.
Karena makalah ini membahas beberapa penyesuaian yang berbeda, referensi pada halaman bantuan (pada saat penulisan) untuk p.adjust () agak tidak jelas. Metode dijamin untuk mengendalikan FDR, pada tingkat yang dinyatakan, di bawah struktur ketergantungan yang paling umum. Ada komentar informatif dalam slide Christopher Genovese di: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Perhatikan komentar pada slide 37, merujuk pada metode Teorema 1.3 dalam makalah BY 2001 [metode = 'OLEH' dengan p.adjust ()] bahwa: "Sayangnya, ini biasanya sangat konservatif, kadang-kadang bahkan lebih daripada Bonferroni."
Contoh numerik:
method='BY'
vsmethod='BH'
Berikut ini membandingkan metode = 'BY' dengan metode = 'BH', menggunakan fungsi R's p.adjust (), untuk nilai-p dari kolom 2 dari Tabel 2 dalam makalah Benjamini dan Hochberg (2000):
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0
Catatan: Pengganda yang menghubungkan nilai BY dengan nilai BH adalah , di mana adalah jumlah nilai-p. Pengganda adalah, misalnya nilai m = 30, 34, 226, 1674, 12365:m∑mi=1(1/i) m
Periksa bahwa untuk contoh di atas, di mana = 34, pengali adalah 4,118m
sumber