Kebingungan dengan tingkat penemuan yang salah dan beberapa pengujian (pada Colquhoun 2014)

19

Saya telah membaca makalah hebat ini oleh David Colquhoun: Investigasi tingkat penemuan yang salah dan salah tafsir dari nilai-p (2014). Intinya, ia menjelaskan mengapa false discovery rate (FDR) bisa setinggi meskipun kami mengontrol kesalahan tipe I dengan α = 0,05 .30%α=0,05

Namun saya masih bingung apa yang terjadi jika saya menerapkan kontrol FDR dalam kasus beberapa pengujian.

Katakanlah, saya telah melakukan tes untuk masing-masing banyak variabel, dan menghitung nilai- menggunakan prosedur Benjamini-Hochberg. Saya mendapat satu variabel yang signifikan dengan q = 0,049 . Saya bertanya apa FDR untuk temuan ini?qq=0,049

Dapatkah saya berasumsi bahwa dalam jangka panjang, jika saya melakukan analisis seperti itu secara teratur, FDR tidak , tetapi di bawah 5 % , karena saya menggunakan Benjamini-Hochberg? Itu terasa salah, saya akan mengatakan bahwa nilai- q sesuai dengan nilai- p dalam makalah Colquhoun dan alasannya berlaku di sini juga, sehingga dengan menggunakan q- ambang batas 0,05 saya berisiko untuk "mempermalukan diriku sendiri" (seperti Colquhoun mengatakannya) pada 30 % kasus. Namun, saya mencoba menjelaskannya secara lebih formal dan saya gagal.30%5%qhalq0,0530%

Januari
sumber
2
Hei @ Januari, saya bertanya-tanya mengapa Anda menawarkan hadiah besar (250) dan kemudian tidak pernah kembali untuk menghadiahkannya dan / atau memeriksa jawabannya! Semoga kamu baik-baik saja.
Amuba kata Reinstate Monica
3
Dua manuskrip turun pada saya seperti satu ton batu bata dan saya benar-benar lupa.
Januari

Jawaban:

15

Kebetulan saya kebetulan membaca makalah yang sama ini hanya beberapa minggu yang lalu. Colquhoun menyebutkan beberapa perbandingan (termasuk Benjamini-Hochberg) di bagian 4 ketika mengajukan masalah, tetapi saya menemukan bahwa dia tidak membuat masalah ini cukup jelas - jadi saya tidak terkejut melihat kebingungan Anda.

Poin penting untuk disadari adalah bahwa Colquhoun berbicara tentang situasi tanpa penyesuaian perbandingan ganda. Orang dapat memahami makalah Colquhoun sebagai mengadopsi perspektif pembaca: ia pada dasarnya bertanya apa tingkat penemuan yang keliru (FDR) yang dapat ia harapkan ketika ia membaca literatur ilmiah, dan ini berarti apa yang diharapkan FDR ketika tidak ada penyesuaian perbandingan banyak dilakukan. Beberapa perbandingan dapat dipertimbangkan ketika menjalankan beberapa uji statistik dalam satu studi, misalnya dalam satu kertas. Tapi tidak ada yang pernah menyesuaikan untuk beberapa perbandingan di seluruh kertas .

Jika Anda benar-benar mengendalikan FDR, misalnya dengan mengikuti prosedur Benjamini-Hochberg (BH), maka itu akan dikontrol. Masalahnya adalah bahwa menjalankan prosedur BH secara terpisah di setiap studi, tidak menjamin kontrol FDR secara keseluruhan.

Dapatkah saya berasumsi bahwa dalam jangka panjang, jika saya melakukan analisis seperti itu secara teratur, FDR tidak , tetapi di bawah 5 % , karena saya menggunakan Benjamini-Hochberg?30%5%

Tidak. Jika Anda menggunakan prosedur BH di setiap makalah, tetapi secara independen di masing-masing makalah Anda, maka pada dasarnya Anda dapat menginterpretasikan nilai disesuaikan dengan BH sebagai nilai p normal , dan apa yang dikatakan Colquhoun masih berlaku.halhal


Komentar umum

100%30%

Saya pikir makalah ini sebagian besar masuk akal, tetapi saya tidak suka bahwa itu membuat beberapa klaim terdengar terlalu berani. Misalnya kalimat pertama dari abstrak adalah:

hal=0,0530%

Ini dirumuskan terlalu kuat dan sebenarnya bisa menyesatkan.

amuba kata Reinstate Monica
sumber
Memang, saya hanya membaca skim dengan cepat, tetapi bagi saya sepertinya dia hanya mengulangi keangkuhan yang terkenal bahwa mudah untuk menemukan efek palsu dalam ukuran sampel yang besar (misalnya gambar 1). Yang bukan untuk mengatakan itu tidak bermakna, tetapi saya merasa itu harus memiliki interpretasi yang berbeda (dan kurang tegas dinyatakan) daripada yang penulis berikan.
Ryan Simmons
1
Saya tidak yakin mengapa @RyanSimmons mengatakan bahwa saya "pada dasarnya hanya mengulangi keangkuhan yang terkenal bahwa mudah untuk menemukan efek palsu dalam ukuran sampel yang besar". Itu tidak ada hubungannya dengan ukuran sampel besar! Saya benar-benar menyambut penjelasan mengapa menurutnya makalah itu harus memiliki "interpretasi yang berbeda (dan kurang tegas dinyatakan)".
David Colquhoun
"Tapi tidak ada yang pernah menyesuaikan untuk beberapa perbandingan di seluruh kertas. Itu juga sangat mustahil untuk dilakukan." Saya pikir salah satu keuntungan dari penyesuaian tingkat penemuan palsu daripada penyesuaian tingkat kesalahan kekeluargaan adalah bahwa sementara yang terakhir membutuhkan definisi keluarga , yang pertama dapat diukur di sejumlah perbandingan yang sewenang-wenang?
Alexis
halαhal
Nah, apa yang Anda gambarkan tentu bukan prosedur perbandingan ganda. Namun, melakukan metode penyesuaian berbasis FDR pada, katakanlah 5 tes, dan kemudian menambahkan 20 lagi ke set 10 dan melakukan metode yang sama lagi mempertahankan probabilitas penolakan di bawah FDR, tetapi probabilitas penolakan ini berubah di bawah FWER. Penyesuaian Dunn's Bonferroni memberikan contoh yang agak dramatis.
Alexis
12

Benjamini & Hochberg mendefinisikan tingkat penemuan palsu dengan cara yang sama yang saya lakukan, sebagai bagian dari tes positif yang positif palsu. Jadi, jika Anda menggunakan prosedur mereka untuk beberapa perbandingan, Anda mengontrol FDR dengan benar. Perlu dicatat, bahwa ada banyak varian pada metode BH. Seminar Benjamini di Berkeley ada di Youtube, dan layak ditonton:

Saya tidak yakin mengapa @amoeba mengatakan "Ini dirumuskan terlalu kuat dan benar-benar dapat menyesatkan". Saya tertarik untuk mengetahui mengapa dia berpikir demikian. Argumen paling persuasif berasal dari uji t simulasi (bagian 6). Itu meniru apa yang hampir semua orang lakukan dalam praktik dan itu menunjukkan bahwa jika Anda mengamati P mendekati 0,047, dan mengklaim telah membuat penemuan, Anda akan salah setidaknya 26% dari waktu. Apa yang salah?

Tentu saja, saya seharusnya tidak menggambarkan ini sebagai minimum. Itu yang Anda dapatkan jika Anda berasumsi bahwa ada kemungkinan 50% dari ada efek nyata. Tentu saja jika Anda berasumsi bahwa sebagian besar hipotesis Anda benar di muka, maka Anda bisa mendapatkan FDR lebih rendah dari 26%, tetapi dapatkah Anda bayangkan kegembiraan yang akan menyapa klaim bahwa Anda akan membuat penemuan berdasarkan asumsi bahwa Anda 90% yakin sebelumnya bahwa kesimpulan Anda akan benar. 26% adalah FDR minimum mengingat bahwa itu bukan dasar yang masuk akal untuk mengambil kesimpulan untuk probabilitas sebelumnya lebih besar dari 0,5.

Mengingat bahwa firasat sering tidak bertahan ketika diuji, bisa jadi hanya ada 10% kemungkinan hipotesis tertentu menjadi benar, dan dalam hal itu FDR akan menjadi 76% bencana.

Memang benar bahwa semua ini bergantung pada hipotesis nol bahwa tidak ada perbedaan (yang disebut titik nol). Pilihan lain dapat memberikan hasil yang berbeda. Tetapi poin nol adalah apa yang hampir semua orang gunakan dalam kehidupan nyata (meskipun mungkin tidak menyadarinya). Lebih jauh lagi, titik nol menurut saya sepenuhnya hal yang tepat untuk digunakan. Terkadang keberatan bahwa perbedaan sejati tidak pernah benar-benar nol. Saya tidak setuju. Kami ingin memberi tahu apakah hasil kami tidak dapat dibedakan dari kasus di mana kedua kelompok diberi perlakuan yang sama, sehingga perbedaan sebenarnya adalah nol. Jika kami memutuskan bahwa data yang keluar tidak kompatibel dengan tampilan itu, kami melanjutkan untuk memperkirakan ukuran efek. dan pada saat itu kami membuat penilaian terpisah tentang apakah efeknya, meskipun nyata, cukup besar untuk menjadi penting dalam praktik.Blog Deborah Mayo .


@amoeba Terima kasih atas tanggapan Anda.

Apa yang ditunjukkan oleh diskusi di blog Mayo adalah bahwa Mayo tidak setuju dengan saya, meskipun dia belum menjelaskan mengapa, paling tidak kepada saya). Stephen Senn menunjukkan dengan benar bahwa Anda bisa mendapatkan jawaban yang berbeda jika Anda mendalilkan distribusi sebelumnya yang berbeda. Bagi saya itu tampaknya menarik hanya untuk orang Bayes subyektif.

Ini tentu tidak relevan dengan praktik sehari-hari yang selalu mengasumsikan titik nol. Dan seperti yang saya jelaskan, menurut saya itu adalah hal yang sangat masuk akal untuk dilakukan.

Banyak ahli statistik profesional sampai pada kesimpulan yang hampir sama dengan saya. Coba Sellke & Berger, dan Valen Johnson (referensi di makalah saya). Tidak ada yang sangat kontroversial (atau sangat orisinal) tentang klaim saya.

Poin Anda yang lain, tentang asumsi 0,5 sebelumnya, bagi saya tampaknya tidak menjadi asumsi sama sekali. Seperti yang saya jelaskan di atas, apa pun di atas 0,5 akan menjadi tidak dapat diterima dalam praktik. Dan apa pun di bawah 0,5 membuat tingkat penemuan palsu lebih tinggi (misalnya 76% jika sebelumnya adalah 0,1). Oleh karena itu sangat masuk akal untuk mengatakan bahwa 26% adalah tingkat penemuan palsu minimum yang dapat Anda harapkan jika Anda mengamati P = 0,047 dalam satu percobaan.


Saya telah memikirkan lebih lanjut tentang pertanyaan ini. Definisi saya tentang FDR adalah sama dengan Benjamini - sebagian kecil dari tes positif yang salah. Tapi itu diterapkan pada masalah yang sangat berbeda, yaitu interpretasi dari satu tes. Dengan melihat ke belakang mungkin akan lebih baik jika saya memilih istilah yang berbeda.

Dalam kasus pengujian tunggal, B&H membiarkan nilai P tidak berubah, sehingga tidak mengatakan apa-apa tentang tingkat penemuan palsu dalam arti bahwa saya menggunakan istilah tersebut.


es tentu saja kamu benar. Benjamini & Hochberg, dan orang lain yang bekerja pada banyak perbandingan, bertujuan hanya untuk memperbaiki tingkat kesalahan tipe 1. Jadi mereka berakhir dengan nilai P "benar". Ini memiliki masalah yang sama dengan nilai P lainnya. Dalam makalah terbaru saya, saya mengubah nama dari FDR menjadi False Positive Risk (FPR) dalam upaya untuk menghindari kesalahpahaman ini.

Kami juga telah menulis aplikasi web untuk melakukan beberapa perhitungan (setelah memperhatikan bahwa beberapa orang mengunduh skrip R yang kami sediakan). Ada di https://davidcolquhoun.shinyapps.io/3-calcs-final/ Semua pendapat tentang hal itu disambut baik (harap baca tab Notes terlebih dahulu).

PS Kalkulator web sekarang memiliki yang baru (permanen, saya harap) di http://fpr-calc.ucl.ac.uk/ Shiny.io mudah digunakan, tetapi sangat mahal jika ada yang benar-benar menggunakan aplikasi :-(


Saya telah kembali ke diskusi ini, sekarang makalah kedua saya tentang topik ini akan muncul di Royal Society Open Science. Itu ada di https://www.biorxiv.org/content/early/2017/08/07/144337

Saya menyadari bahwa kesalahan terbesar yang saya buat di koran pertama adalah menggunakan istilah "tingkat penemuan palsu (FDR)". Dalam makalah baru saya membuatnya lebih eksplisit bahwa saya tidak mengatakan apa-apa tentang masalah perbandingan banyak. Saya hanya berurusan dengan pertanyaan tentang bagaimana menafsirkan nilai P yang diamati dalam tes tunggal yang tidak bias.

Dalam versi terbaru, saya merujuk pada probabilitas bahwa hasilnya sebagai risiko positif palsu (FPR) daripada FDR, dengan harapan mengurangi kebingungan. Saya juga menganjurkan pendekatan Bayesian terbalik -menentukan probabilitas sebelumnya yang akan diperlukan untuk memastikan FPR dari, katakanlah, 5%. Jika Anda mengamati P = 0,05, itu berarti 0,87. Dengan kata lain Anda harus hampir (87%) yakin bahwa ada efek nyata sebelum melakukan percobaan untuk mencapai FPR 5% (yang sebagian besar orang masih percaya, keliru, p = 0,05 berarti).

David Colquhoun
sumber
David terkasih, selamat datang di CrossValidated dan terima kasih telah bergabung! Tampaknya kami sepakat tentang pertanyaan asli @ Januari: FDR hanya dapat dikontrol oleh prosedur BH keseluruhan; jika BH diterapkan di setiap kertas secara terpisah, maka argumen Anda masih berlaku. Jika demikian, ini akan menjawab pertanyaan awal. Mengenai komentar saya tentang formulasi "terlalu kuat" Anda: setelah membaca 147 komentar di blog Mayo, saya ragu untuk memulai diskusi lain. Saat saya menulis, saya sebagian besar setuju dengan makalah Anda, dan keberatan saya hanya tentang beberapa formulasi. [lanjutan]
amoeba berkata Reinstate Monica
1
[...] Kalimat pertama dalam abstrak adalah "terlalu kuat" persis untuk alasan yang Anda sebutkan di sini: misalnya ia mengasumsikan titik nol dan mengasumsikan 0,5 sebelumnya, tetapi terdengar seolah-olah tidak menganggap apa-apa (tapi saya mengerti Anda mencoba menjadi provokatif). Diskusi besar di blog Mayo menunjukkan bahwa banyak orang tidak setuju bahwa asumsi ini masuk akal untuk praktik ilmiah yang sebenarnya. Saya memiliki keberatan saya sendiri juga, tetapi saya setuju dengan Anda bahwa asumsi ini mungkin secara akurat menggambarkan beberapa bidang ilmiah. Dan jika demikian, bidang ini memang memiliki masalah besar, ya.
Amoeba berkata Reinstate Monica
2

Sebagian besar kebingungan adalah bahwa, terlepas dari komentarnya di sini yang bertentangan, Colquhoun TIDAK mendefinisikan FDR dengan cara yang sama seperti yang dilakukan Benjamini-Hochberg. Sangat disayangkan bahwa Colquhoun telah mencoba untuk membuat koin istilah tanpa terlebih dahulu memeriksa untuk memastikan bahwa istilah tersebut belum memiliki definisi yang berbeda dan mapan. Lebih buruk lagi, Colquhoun mendefinisikan FDR persis seperti yang sering disalahartikan oleh FDR konvensional.

Dalam jawabannya di sini, Colquhoun mendefinisikan FDR sebagai "sebagian kecil dari tes positif yang salah." Itu mirip dengan apa yang Benjamini-Hochberg definisikan sebagai FDP (proporsi penemuan palsu, tidak menjadi bingung dengan tingkat penemuan palsu). Benjamini-Hochberg mendefinisikan FDR sebagai NILAI YANG DIHARAPKAN dari FDP, dengan ketentuan khusus bahwa FDP dianggap sebagai 0 ketika tidak ada tes positif (ketentuan yang terjadi untuk membuat FDR sama dengan FWER ketika semua nol adalah benar, dan menghindari nilai yang tidak dapat ditentukan karena pembagian dengan nol).

Untuk menghindari kebingungan, saya sarankan untuk tidak mengkhawatirkan perincian dalam makalah Colquhoun, dan sebagai gantinya hanya mengingat-ingat titik gambaran besar (yang juga telah dilakukan oleh banyak orang) bahwa tingkat alfa tidak secara langsung sesuai dengan proporsi tes signifikan yang adalah tipe I kesalahan (apakah kita berbicara tentang tes signifikan dalam satu studi atau dalam beberapa studi digabungkan). Proporsi itu tidak hanya bergantung pada alpha, tetapi juga pada kekuatan dan pada proporsi hipotesis nol yang diuji yang benar.

Bonferroni
sumber