Koreksi untuk beberapa pengujian pada sejumlah tes (10-20) dengan FDR?

8

False Discovery Rate (Benjamini-Hochberg) biasanya digunakan pada 'Big Data', seperti studi genetik menggunakan tes 100-an. Tetapi dapatkah itu juga digunakan pada sejumlah kecil tes? Misalnya, melihat hasil dari dua kelompok (laki-laki vs perempuan) pada, katakanlah, 10-20 kuesioner yang berbeda. Apakah prosedur FDR kehilangan nilai / makna / kekuatan dalam kasus ini?

Penyamaran
sumber

Jawaban:

7

Saya melihat orang-orang membingungkan ini sepanjang waktu, juga di forum ini. Saya pikir ini disebabkan sebagian besar karena dalam praktiknya prosedur Benjamini-Hochberg digunakan sebagai sinonim dari False Discovery Rate (dan sebagai kotak hitam untuk "menyesuaikan" nilai-p seperti yang diminta oleh pengulas untuk makalah mereka). Kita harus dengan jelas memisahkan konsep FDR dari metode Benjamini-Hochberg. Yang pertama adalah kesalahan tipe-I umum, sedangkan yang kedua adalah prosedur pengujian ganda yang mengontrol kesalahan itu. Ini sangat analog misalnya dengan prosedur FWER dan Bonferroni.

Memang, tidak ada alasan langsung mengapa jumlah hipotesis harus menjadi masalah ketika Anda ingin menggunakan metode pengendalian FDR. Itu tergantung pada tujuan Anda. Secara khusus, anggap Anda sedang mengujim hipotesis dan prosedur Anda ditolak R dari mereka dengan V penolakan palsu.

Sekarang Anda menggunakan FWER (=Pr[V1]) Prosedur mengendalikan jika Anda ingin ada kesalahan tipe I. Di sisi lain, Anda menggunakan , ketika dapat membuat beberapa kesalahan, asalkan mereka relatif sedikit dibandingkan dengan semua penolakan Anda buat, yaituFDRR

FDR=E[VmaxR,1]

Dengan demikian, jawaban untuk pertanyaan Anda sepenuhnya tergantung pada apa yang ingin Anda capai dan tidak ada alasan intrinsik mengapa kecil akan bermasalah. Hanya untuk menggambarkan sedikit lebih jauh: Contoh analisis data dalam makalah Benjamini-Hochberg tahun 1995 hanya memasukkan hipotesis, dan tentu saja itu juga berlaku untuk kasus itu!mm=15

Tentu saja, ada peringatan untuk jawaban saya: Prosedur BH hanya menjadi populer setelah dataset "masif" (mis. Microarrays) mulai tersedia. Dan seperti yang Anda sebutkan itu biasanya digunakan untuk aplikasi "Big data". Tetapi ini hanya karena dalam kasus seperti itu, sebagai kriteria lebih masuk akal, misalnya karena itu dapat diukur dan adaptif serta memfasilitasi penelitian eksplorasi. FWER di sisi lain sangat ketat, seperti yang diperlukan oleh studi klinis dll. Dan menghukum Anda terlalu banyak untuk mengeksplorasi terlalu banyak opsi secara bersamaan (yaitu tidak cocok untuk pekerjaan eksplorasi).FDR

Sekarang, anggap Anda telah memutuskan bahwa FDR adalah kriteria yang tepat untuk aplikasi Anda. Apakah Benjamini Hochberg pilihan yang tepat untuk mengendalikan FDR ketika jumlah hipotesis rendah? Saya akan mengatakan ya, karena secara statistik valid juga untuk rendah . Tetapi untuk low Anda bisa misalnya juga menggunakan prosedur lain, yaitu prosedur Benjamini dan Liu , yang juga mengontrol FDR. Bahkan, penulis menyarankan penggunaannya (lebih dari Benjamini-Hochberg) ketikammm14dan sebagian besar hipotesis diharapkan salah. Jadi Anda melihat bahwa ada pilihan alternatif untuk kontrol FDR! Dalam praktiknya, saya masih menggunakan BH hanya karena BH sangat mapan dan karena manfaat menggunakan Benjamini-Liu akan menjadi marginal dalam banyak kasus jika memang ada.

Pada catatan terkait terakhir, memang ada beberapa prosedur pengendalian FDR yang tidak boleh Anda gunakan untuk rendah ! Ini termasuk semua prosedur berbasis local-fdr, misalnya seperti yang diterapkan dalam paket R "fdrtool" dan "locfdr".m

udara
sumber
Jika saya memahami ini dengan benar, Anda secara teoritis dapat membuat perhitungan FDR yang sah untuk m = 1 (itu akan setara dengan nilai-p). Apakah itu benar? Sebelum membaca jawaban Anda, saya berpikir bahwa Anda tidak dapat menggunakan FDR pada ukuran sampel yang kecil karena Anda tidak dapat secara berarti menghitung jumlah "false positive" yang diharapkan ... tetapi bukan itu masalahnya, bukan?
adam.r