Benjamini dan Hochberg mengembangkan metode pertama (dan masih paling banyak digunakan, saya pikir) untuk mengendalikan tingkat penemuan palsu (FDR).
Saya ingin memulai dengan sekelompok nilai P, masing-masing untuk perbandingan yang berbeda, dan memutuskan mana yang cukup rendah untuk disebut "penemuan", mengendalikan FDR ke nilai yang ditentukan (katakanlah 10%). Salah satu asumsi dari metode yang biasa adalah bahwa seperangkat perbandingan adalah independen atau memiliki "ketergantungan positif" tetapi saya tidak dapat mengetahui dengan tepat apa arti frasa itu dalam konteks menganalisis seperangkat nilai P.
multiple-comparisons
non-independent
false-discovery-rate
Harvey Motulsky
sumber
sumber
Jawaban:
Dari pertanyaan Anda dan khususnya komentar Anda hingga jawaban lain, menurut saya Anda terutama bingung tentang "gambaran besar" di sini: yaitu, apa yang dimaksud dengan "ketergantungan positif" dalam konteks ini sama sekali - sebagai lawan dari apa adalah arti teknis dari kondisi PRDS. Jadi saya akan berbicara tentang gambaran besarnya.
Gambar besar
Bayangkan bahwa Anda menguji nol hipotesis, dan membayangkan bahwa semua dari mereka adalah benar. Masing-masing nilai- adalah variabel acak; Mengulangi percobaan berulang-ulang akan menghasilkan nilai berbeda setiap kali, sehingga orang dapat berbicara tentang distribusi nilai- (di bawah nol). Sudah diketahui umum bahwa untuk setiap pengujian, distribusi nilai- bawah nol harus seragam; jadi dalam hal pengujian multi-byte , semua distribusi marginal -nilai akan seragam.N p p p p N pN N hal hal hal hal N hal
Jika semua data dan semua tes adalah independen satu sama lain, maka distribusi dimensi bersama dari nilai- juga akan seragam. Ini akan benar misalnya dalam situasi klasik "jelly-bean" ketika banyak hal independen sedang diuji:N pN N hal
Namun, tidak harus seperti itu. Setiap pasangan nilai pada prinsipnya dapat dikorelasikan, baik secara positif atau negatif, atau bergantung dengan cara yang lebih rumit. Pertimbangkan menguji semua perbedaan berpasangan dalam cara antara empat kelompok; ini tes. Masing-masing dari enam nilai- saja didistribusikan secara seragam. Tetapi mereka semua berkorelasi positif: jika (pada upaya yang diberikan) kelompok A secara kebetulan memiliki rata-rata yang sangat rendah, maka perbandingan A-vs-B mungkin menghasilkan nilai- rendah (ini akan menjadi positif palsu). Tetapi dalam situasi ini kemungkinan bahwa A-vs-C, serta A-vs-D, juga akan menghasilkan nilai- rendah . JadiN = 4 ⋅ 3 / 2 = 6 p p p phal N= 4 ⋅ 3 / 2 = 6 hal hal hal hal -Nilai jelas tidak independen dan terlebih lagi mereka berkorelasi positif antara satu sama lain.
Ini, secara informal, apa yang dimaksud dengan "ketergantungan positif".
Ini tampaknya merupakan situasi umum dalam banyak pengujian. Contoh lain akan menguji perbedaan dalam beberapa variabel yang saling berkorelasi. Memperoleh perbedaan yang signifikan di salah satu dari mereka meningkatkan peluang untuk mendapatkan perbedaan yang signifikan di yang lain.
Sulit untuk memberikan contoh alami di mana nilai- akan "tergantung negatif". @ user43849 berkomentar di komentar di atas bahwa untuk tes satu sisi mudah:hal
Tapi saya sejauh ini tidak dapat memberikan contoh alami dengan titik nol.
Sekarang, formulasi matematis yang tepat dari "ketergantungan positif" yang menjamin validitas prosedur Benjamini-Hochberg agak rumit. Seperti disebutkan dalam jawaban lain, referensi utama adalah Benjamini & Yekutieli 2001 ; mereka menunjukkan bahwa properti PRDS ("ketergantungan regresi positif pada masing-masing dari subset") memerlukan prosedur Benjamini-Hochberg. Ini adalah bentuk relaks dari properti PRD ("dependensi regresi positif"), yang berarti PRD mengimplikasikan PRDS dan karenanya juga memerlukan prosedur Benjamini-Hochberg.
Untuk definisi PRD / PRDS lihat jawaban @ user43849 (+1) dan kertas Benjamini & Yekutieli. Definisi agak teknis dan saya tidak memiliki pemahaman intuitif yang baik tentang mereka. Bahkan, B&Y menyebutkan beberapa konsep lain yang terkait juga: kepositifan total multivariat ketertiban dua (MTP2) dan hubungan positif. Menurut B&Y, mereka terkait sebagai berikut (diagram adalah milikku):
MTP2 menyiratkan PRD yang menyiratkan PRDS yang menjamin kebenaran prosedur BH. PRD juga menyiratkan PA, tetapi PA PRDS.≠
sumber
Pertanyaan bagus! Mari melangkah mundur dan memahami apa yang dilakukan Bonferroni, dan mengapa Benjamini dan Hochberg perlu mengembangkan alternatif.
Menjadi penting dan wajib dalam beberapa tahun terakhir untuk melakukan prosedur yang disebut koreksi pengujian berganda. Hal ini disebabkan oleh meningkatnya jumlah tes yang dilakukan secara bersamaan dengan ilmu throughput yang tinggi, terutama dalam genetika dengan munculnya seluruh studi asosiasi genom (GWAS). Maafkan referensi saya untuk genetika, karena itu adalah bidang pekerjaan saya. Jika kita melakukan 1.000.000 tes secara bersamaan pada , kita akan mengharapkan 50 , 000 positif palsu. Ini luar biasa besar, dan karenanya kita harus mengendalikan tingkat di mana nilai signifikansi dinilai. Koreksi bonferroni, yaitu, membagi ambang penerimaan (0,05) dengan jumlah tes independen ( 0,05 / MP= 0,05 50 , 000 mengoreksi untuk tingkat kesalahan bijaksana keluarga ( F W E R ).( 0,05 / M) FWER
Hal ini benar karena FWER yang berkaitan dengan tingkat kesalahan uji-bijaksana ( ) dengan persamaan F W E R = 1 - ( 1 - T W E R ) M . Artinya, 100 persen minus 1 kurangi tingkat kesalahan bijak tes dinaikkan ke kekuatan jumlah tes independen yang dilakukan. Membuat asumsi bahwa ( 1 - 0,05 ) 1 / M = 1 - 0,05TWER FWER = 1 - ( 1 - TWER )M. memberikanTWER≈0,05( 1 - 0,05 )1 / M= 1 - 0,05M. , yang merupakan nilai P penerimaan disesuaikan untuk M tes sepenuhnya independen.TWER ≈ 0,05M.
Masalah yang kita hadapi sekarang, seperti halnya Benjamini dan Hochberg, adalah bahwa tidak semua tes sepenuhnya independen. Dengan demikian, koreksi Bonferroni, meskipun kuat dan fleksibel, adalah koreksi berlebihan . Pertimbangkan kasus dalam genetika di mana dua gen dihubungkan dalam kasus yang disebut disekuilibrium keterkaitan; yaitu, ketika satu gen memiliki mutasi, yang lain lebih mungkin diekspresikan. Ini jelas bukan tes independen, meskipun dalam koreksi bonferroni mereka dianggap . Di sinilah kita mulai melihat bahwa membagi nilai P dengan M menciptakan ambang batas yang secara artifisial rendah karena diasumsikan tes independen yang benar-benar saling memengaruhi, sehingga menciptakan M yang terlalu besar untuk situasi kita yang sebenarnya, di mana segala sesuatunya terjadi. tidak mandiri.
Prosedur yang disarankan oleh Benjamini dan Hochberg, dan ditambah oleh Yekutieli (dan banyak lainnya) lebih liberal daripada Bonferroni, dan sebenarnya koreksi Bonferroni hanya digunakan dalam studi yang sangat besar sekarang. Ini karena, dalam FDR, kami mengasumsikan beberapa saling ketergantungan pada bagian dari pengujian dan dengan demikian M yang terlalu besar dan tidak realistis dan menyingkirkan hasil yang kami, pada kenyataannya, pedulikan. Oleh karena itu dalam kasus 1000 tes yang tidak independen, M yang sebenarnya tidak akan 1000, tetapi sesuatu yang lebih kecil karena ketergantungan. Jadi ketika kita membagi 0,05 dengan 1000, ambangnya terlalu ketat dan menghindari beberapa tes yang mungkin menarik.
Saya tidak yakin apakah Anda peduli tentang mekanisme di balik kendali untuk ketergantungan, meskipun jika Anda melakukannya, saya telah menautkan kertas Yekutieli untuk referensi Anda. Saya juga akan melampirkan beberapa hal lain untuk informasi dan rasa ingin tahu Anda.
Semoga ini bisa membantu dalam beberapa hal, jika saya salah mengartikan sesuatu, tolong beri tahu saya.
~ ~ ~
Referensi
Makalah Yekutieli tentang dependensi positif - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(lihat 1.3 - Masalahnya.)
Penjelasan tentang Bonferroni dan hal-hal menarik lainnya - Ulasan Nature Genetics. Kekuatan Statistik dan pengujian signifikansi dalam studi genetik skala besar - Pak C Sham dan Shaun M Purcell
(lihat kotak 3.)
http://en.wikipedia.org/wiki/Familywise_error_rate
EDIT:
Dalam jawaban saya sebelumnya, saya tidak secara langsung mendefinisikan ketergantungan positif, yang diminta. Dalam makalah Yekutieli, bagian
2.2
berjudul Ketergantungan positif, dan saya menyarankan ini karena sangat rinci. Namun, saya yakin kita bisa membuatnya sedikit lebih ringkas.Singkatnya, sifat ketergantungan positif adalah benar-benar milik ketergantungan regresi positif dari seluruh rangkaian statistik uji kami pada set statistik uji nol sejati kami, dan kami mengendalikan FDR 0,05; dengan demikian ketika nilai-nilai P naik dari bawah ke atas (prosedur langkah ke atas), mereka meningkatkan probabilitas menjadi bagian dari set nol.
Jawaban saya sebelumnya dalam komentar tentang matriks kovarians tidak salah, hanya sedikit kabur. Saya harap ini sedikit membantu.
sumber
Saya menemukan pra-cetak ini membantu dalam memahami artinya. Harus dikatakan bahwa saya menawarkan jawaban ini bukan sebagai ahli dalam topik, tetapi sebagai upaya pemahaman untuk diperiksa dan divalidasi oleh komunitas.
Terima kasih kepada Amoeba untuk pengamatan yang sangat membantu tentang perbedaan antara PRD dan PRDS, lihat komentar
Diedit untuk menambahkan:
Berikut adalah contoh diduga dari sistem yang bukan PRDS (kode R di bawah). Logikanya adalah bahwa ketika sampel a dan b sangat mirip, kemungkinan besar produk mereka akan atipikal. Saya menduga bahwa efek ini (dan bukan ketidak-seragaman nilai-p di bawah nol untuk
(a*b), (c*d)
perbandingan) mendorong korelasi negatif dalam nilai-p, tetapi saya tidak bisa memastikan. Efek yang sama muncul jika kita melakukan uji-t untuk perbandingan kedua (daripada Wilcoxon), tetapi distribusi nilai-p masih seragam, mungkin karena pelanggaran asumsi normalitas.sumber
Dalam makalah mereka , Benjamini dan Yekutieli memberikan beberapa contoh tentang bagaimana ketergantungan regresi positif (PRD) berbeda dari hanya dikaitkan secara positif. Prosedur kontrol FDR bergantung pada bentuk PRD yang lebih lemah yang mereka sebut PRDS (yaitu PRD pada masing-masing dari subset variabel).
Ketergantungan positif pada awalnya diusulkan dalam pengaturan bivariat oleh Lehmann , tetapi versi multivariat dari konsep ini, yang dikenal sebagai ketergantungan regresi positif adalah apa yang relevan dengan pengujian berganda.
Berikut adalah kutipan yang relevan dari hal.6
sumber
Ketergantungan positif dalam hal ini berarti bahwa serangkaian tes berkorelasi positif. Idenya kemudian adalah bahwa jika variabel dalam set tes yang Anda miliki untuk nilai-P berkorelasi positif maka masing-masing variabel tidak independen .
Jika Anda mengingat kembali tentang koreksi nilai-p Bonferroni, misalnya, Anda dapat menjamin bahwa tingkat kesalahan tipe 1 kurang dari 10% dibandingkan dengan 100 tes independen secara statistik dengan menetapkan ambang signifikansi Anda menjadi 0,1 / 100 = 0,001. Tetapi, bagaimana jika masing-masing dari 100 tes tersebut berkorelasi dalam beberapa cara? Maka Anda belum benar-benar melakukan 100 tes terpisah.
Dalam FDR, idenya sedikit berbeda dari koreksi Bonferroni. Idenya adalah untuk menjamin bahwa hanya persen tertentu (katakanlah 10%) dari hal-hal yang Anda nyatakan signifikan secara salah dinyatakan signifikan. Jika Anda memiliki penanda berkorelasi (ketergantungan positif) dalam dataset Anda, nilai FDR dipilih berdasarkan jumlah total tes yang Anda lakukan (tetapi jumlah sebenarnya dari tes independen statistik lebih kecil). Dengan cara ini, lebih aman untuk menyimpulkan bahwa tingkat penemuan palsu secara keliru menyatakan signifikan 10% atau kurang dari tes di set nilai-P Anda.
Silakan lihat bab buku ini untuk diskusi tentang ketergantungan positif.
sumber