Apa perbedaan praktis antara Benjamini & Hochberg (1995) dan prosedur tingkat penemuan palsu Benjamini & Yekutieli (2001)?

34

Program statistik saya mengimplementasikan prosedur Benjamini & Hochberg (1995) dan Benjamini & Yekutieli (2001) salah. Saya telah melakukan yang terbaik untuk membaca makalah selanjutnya, tetapi secara matematis cukup padat dan saya tidak cukup yakin saya memahami perbedaan antara prosedur. Saya dapat melihat dari kode yang mendasari dalam program statistik saya bahwa mereka memang berbeda dan bahwa yang terakhir mencakup jumlah q yang telah saya lihat mengacu pada FDR, tetapi juga tidak begitu paham.

Apakah ada alasan untuk memilih prosedur Benjamini & Hochberg (1995) dibandingkan prosedur Benjamini & Yekutieli (2001)? Apakah mereka memiliki asumsi yang berbeda? Apa perbedaan praktis antara pendekatan ini?

Benjamini, Y., dan Hochberg, Y. (1995). Mengontrol laju penemuan palsu: pendekatan praktis dan kuat untuk pengujian berganda. Jurnal Royal Statistical Society Seri B, 57, 289–300.

Benjamini, Y., dan Yekutieli, D. (2001). Kontrol tingkat penemuan palsu dalam beberapa pengujian di bawah ketergantungan. Annals of Statistics 29, 1165-1188.

Makalah 1999 direferensikan dalam komentar di bawah ini: Yekutieli, D., & Benjamini, Y. (1999). Laju penemuan palsu berbasis resampling mengendalikan berbagai prosedur pengujian untuk statistik uji berkorelasi. Jurnal Perencanaan dan Inferensi Statistik, 82 (1), 171-196.

russellpierce
sumber
Saya pikir makalah 2001 menetapkan properti FDR (1995) di bawah ketergantungan. Yekutieli dan Benjamini (Jurnal Perencanaan Statistik dan Inferensi, 1999) menetapkan prosedur FDR yang berbeda. Adakah peluang yang Anda cari?
julieth
@ Juliet: Itu adalah perasaan saya tentang makalah 2001 setelah membaca abstrak saja, tetapi formula dalam makalah (misalnya 27 - 30) tampaknya melibatkan jumlah yang disebut q. Kemudian lagi, begitu juga makalah 1999 yang Anda kutip. Namun saya merasa bahwa makalah 1999 menerapkan pendekatan re-sampling yang jelas (dari melihat kode) bukan apa yang dilakukan program statistik saya (R; p.adjust) ... tapi saya mungkin salah.
russellpierce
1
Pada akhir makalah tahun 2001 makalah tahun 1999 dikutip dan mereka berkata "Akhirnya, ingat prosedur yang berdasarkan sampel dari Yekutieli dan Benjamini (1999), yang mencoba untuk mengatasi masalah di atas dan pada saat yang sama memanfaatkan informasi tentang ketergantungan struktur berasal dari sampel. Prosedur berbasis resampling lebih kuat, dengan mengorbankan kompleksitas yang lebih besar dan hanya perkiraan kontrol FDR. " ... jadi saya pikir makalah 2001 menyediakan solusi komputasi bentuk tertutup dan itulah yang diterapkan program statistik saya.
russellpierce
1
Oke, jadi Anda menggunakan p.adjust. 99 kertas berbeda sama sekali seperti yang Anda catat. Saya selalu melihat opsi BY di p.adjust dan tidak memperhatikan. Makalah 2001 biasanya dikutip dalam kaitannya dengan bukti FDR dan 'ketergantungan regresi positif'. Saya tidak pernah melihatnya mengutip estimator yang berbeda, tetapi mungkin ada di sana. Sepertinya saya perlu membacanya lagi.
julieth

Jawaban:

21

Benjamini dan Hochberg (1995) memperkenalkan tingkat penemuan palsu. Benjamini dan Yekutieli (2001) membuktikan bahwa estimator itu valid di bawah beberapa bentuk ketergantungan. Ketergantungan dapat muncul sebagai berikut. Pertimbangkan variabel kontinu yang digunakan dalam uji-t dan variabel lain yang berkorelasi dengannya; misalnya, menguji apakah BMI berbeda dalam dua kelompok dan apakah lingkar pinggang berbeda pada kedua kelompok ini. Karena variabel-variabel ini berkorelasi, nilai-p yang dihasilkan juga akan dikorelasikan. Yekutieli dan Benjamini (1999) mengembangkan prosedur pengendalian FDR lain, yang dapat digunakan di bawah ketergantungan umum dengan resampling distribusi nol. Karena perbandingannya berkenaan dengan distribusi permutasi nol, ketika jumlah total positif sejati meningkat, metode menjadi lebih konservatif. Ternyata BH 1995 juga konservatif karena jumlah positif sejati meningkat. Untuk meningkatkan ini, Benjamini dan Hochberg (2000) memperkenalkan prosedur FDR adaptif. Ini membutuhkan estimasi parameter, proporsi nol, yang juga digunakan dalam estimator pFDR Storey. Storey memberikan perbandingan dan berpendapat bahwa metodenya lebih kuat dan menekankan sifat konservatif prosedur 1995. Storey juga memiliki hasil dan simulasi di bawah ketergantungan.

Semua tes di atas valid di bawah independensi. Pertanyaannya adalah seperti apa penyimpangan dari independensi yang dapat diestimasi oleh estimasi-estimasi ini.

Pemikiran saya saat ini adalah bahwa jika Anda tidak mengharapkan terlalu banyak hal positif, prosedur BY (1999) bagus karena menggabungkan fitur distribusi dan ketergantungan. Namun, saya tidak mengetahui implementasi. Metode Storey dirancang untuk banyak hal positif sejati dengan ketergantungan. BH 1995 menawarkan alternatif untuk tingkat kesalahan keluarga-bijaksana dan masih konservatif.

Benjamini, Y dan Y Hochberg. Pada Kontrol Adaptif dari Tingkat Penemuan Salah dalam Beberapa Pengujian dengan Statistik Independen. Jurnal Statistik Pendidikan dan Perilaku, 2000.

Juliuli
sumber
Terima kasih banyak! Bisakah Anda merevisi pertanyaan Anda untuk mengklarifikasi poin / masalah berikut: "resampling distribusi nol" adalah makalah 1999? Bisakah Anda memberikan kutipan untuk kertas 2000? Anda sepertinya terbiasa dengan p.adjust, apakah ini benar-benar menerapkan prosedur BY? Haruskah seseorang menggunakan BH ketika tes hipotesis tidak tergantung? Apa yang menyebabkan tes hipotesis dianggap tergantung? - Tolong beri tahu saya jika ada pertanyaan yang melampaui ruang lingkup saat ini dan meminta pertanyaan baru diajukan.
russellpierce
p.adjust memiliki opsi untuk keduanya (BH dan BY). Namun, saya pikir ini sama, jadi saya melewatkan sesuatu.
julieth
Dan kode yang mendasarinya juga berbeda (saya periksa) sehingga mereka akan menghasilkan angka yang berbeda.
russellpierce
Jadi prosedur apa yang menurut Anda p.adjust berkinerja dengan argumen BY? Saya tidak berpikir itu adalah prosedur 1999. Kode yang mendasarinya adalah pmin (1, cummin (q * n / i * p [o])) [ro]. BH adalah pmin (1, cummin (n / i * p [o])) [ro]. Jadi mereka hanya berbeda dalam q yang merupakan jumlah (1 / (1: n)) di mana n = jumlah nilai. o dan ro hanya berfungsi untuk meletakkan nilai p dalam penurunan urutan numerik untuk fungsi dan kemudian meludahkannya kembali dalam urutan yang sama dengan yang dimasukkan pengguna.
russellpierce
1
Jadi, karena tidak ada jawaban baru yang masuk, saya akan menerima jawaban ini dan merangkum pemahaman saya. p.adjust mungkin salah untuk BY. Apa yang dilakukan tidak resampling. BH, 2000 memperkenalkan prosedur FDR adaptif, dan ini melibatkan estimasi proporsi nol, yang mungkin q yang muncul dalam kode BY. Sementara itu, tampaknya hal yang masuk akal untuk dilakukan adalah mengutip p.adjust secara langsung karena itu mencerminkan prosedur aktual yang digunakan ketika Anda menggunakan opsi "BY" dan hanya menyadari bahwa "BY" sebenarnya dapat mengimplementasikan Benjamini & Hochberg, 2000.
russellpierce
5

p.adjust tidak menyalahgunakan untuk BY. Referensi adalah untuk Teorema 1.3 (bukti dalam Bagian 5 pada hal.1182) dalam makalah:

Benjamini, Y., dan Yekutieli, D. (2001). Kontrol tingkat penemuan palsu dalam beberapa pengujian di bawah ketergantungan. Annals of Statistics 29, 1165-1188.

Karena makalah ini membahas beberapa penyesuaian yang berbeda, referensi pada halaman bantuan (pada saat penulisan) untuk p.adjust () agak tidak jelas. Metode dijamin untuk mengendalikan FDR, pada tingkat yang dinyatakan, di bawah struktur ketergantungan yang paling umum. Ada komentar informatif dalam slide Christopher Genovese di: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Perhatikan komentar pada slide 37, merujuk pada metode Teorema 1.3 dalam makalah BY 2001 [metode = 'OLEH' dengan p.adjust ()] bahwa: "Sayangnya, ini biasanya sangat konservatif, kadang-kadang bahkan lebih daripada Bonferroni."

Contoh numerik: method='BY' vsmethod='BH'

Berikut ini membandingkan metode = 'BY' dengan metode = 'BH', menggunakan fungsi R's p.adjust (), untuk nilai-p dari kolom 2 dari Tabel 2 dalam makalah Benjamini dan Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

Catatan: Pengganda yang menghubungkan nilai BY dengan nilai BH adalah , di mana adalah jumlah nilai-p. Pengganda adalah, misalnya nilai m = 30, 34, 226, 1674, 12365:mi=1m(1/i)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, tempel (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

Periksa bahwa untuk contoh di atas, di mana = 34, pengali adalah 4,118m

John Maindonald
sumber