Mengapa koreksi hipotesis berganda tidak diterapkan pada semua percobaan sejak awal waktu?

Kita tahu bahwa kita harus menerapkan koreksi seperti Benjamini Hochberg untuk pengujian hipotesis berganda untuk eksperimen yang didasarkan pada satu set data tunggal, untuk mengendalikan laju penemuan palsu, jika tidak semua eksperimen yang memberikan hasil positif bisa salah.

Tapi mengapa kita tidak menerapkan prinsip yang sama ini untuk semua percobaan sejak awal waktu, terlepas dari mana data berasal?

Lagipula, lebih dari setengah hasil ilmiah yang dipublikasikan yang dianggap "signifikan" kini diketahui palsu dan tidak dapat diproduksi ulang, dan tidak ada alasan mengapa ini tidak semudah 100%. Karena para ilmuwan hanya cenderung mempublikasikan hasil positif, kami tidak tahu jumlah hasil negatif, jadi kami tidak tahu jika apa yang kami terbitkan hanya positif palsu - hasil positif yang dipangkas secara kebetulan acak murni di bawah hipotesis nol. Sementara itu, tidak ada yang mengatakan bahwa matematika di balik koreksi pengujian hipotesis berganda harus berlaku hanya untuk hasil dari set data yang sama, dan tidak untuk hasil dari semua data eksperimen yang diperoleh dari waktu ke waktu.

Tampaknya seluruh ilmu pengetahuan telah menjadi satu ekspedisi penangkapan ikan besar berdasarkan hipotesis salah atau lemah, jadi bagaimana kita bisa mengendalikan ini?

Bagaimana kita bisa mengendalikan tingkat penemuan palsu, jika semua yang pernah kita publikasikan adalah hasil independen yang diambil tanpa menerapkan koreksi untuk pengujian hipotesis berganda atas semua percobaan yang dilakukan hingga saat ini?

Apakah mungkin untuk mengendalikan laju penemuan palsu tanpa menerapkan beberapa koreksi seperti itu?

hypothesis-testing multiple-comparisons bonferroni false-discovery-rate Kelvin
sumber

Meta.stats.stackexchange.com/questions/3049/… pertanyaan Anda sendiri berlaku. Ini membundel beberapa pernyataan kontroversial (dalam beberapa kasus sangat berlebihan) dengan beberapa pertanyaan besar. Saya pikir ini bertentangan dengan konsensus nasihat yang sudah diberikan kepada Anda.

Nick Cox

Maaf, saya tidak tahu tanggapan apa yang Anda maksud: Saya tidak melihat referensi di sini. Saya tidak memilih untuk menutup, juga (secara alami) saya tidak memiliki keinginan atau kekuatan untuk menghentikan orang menjawab. Tetapi, misalnya, "sejak fajar waktu" adalah contoh kecil dari pemborosan yang tidak ada gunanya dan ada beberapa yang lain dalam posting Anda. Menjadi provokatif untuk kepentingannya sendiri, menurut pengalaman saya di situs ini, tidak akan membantu pertanyaan mendasar Anda. Pembaca harus melepaskan gaya dari substansi.

Nick Cox

Terima kasih atas undangannya, tetapi hidup ini singkat. Saya akan membiarkan referensi silang saya ke thread meta berdiri sebagai poin utama saya. Saya telah menyatakan pendapat saya tentang gaya dan substansi, yang dapat bertahan atau jatuh pada manfaatnya di sini.

Nick Cox

Jika saya melakukan sains, saya tidak terlalu peduli dengan penemuan palsu yang Anda buat. Memang, sehubungan dengan membuat klaim ilmiah tertentu, saya mungkin tidak terlalu peduli dengan penemuan-penemuan palsu lainnya yang saya buat. Jika saya tidak melakukan sains, saya bahkan mungkin tidak peduli tentang apa penemuan palsu lain yang saya buat dalam analisis khusus ini - karena jika saya memilih tingkat kesalahan tipe I saya berdasarkan biaya relatif dari dua jenis kesalahan, saya sudah sudah memilih tradeoff di antara keduanya, dan tidak boleh mengoreksi beberapa perbandingan sama sekali.

Glen_b -Reinstate Monica

Untungnya, orang lain telah menyajikan pandangan yang serupa dengan saya dengan meyakinkan dan jernih. Sebagai komentar tambahan, saya menyarankan untuk tidak menggabungkan ilmu pengetahuan (apa pun yang bernilai lama) dengan literaturnya. Ada banyak cara di mana literatur mengecewakan: ketidakjelasan, hal-hal sepele, kesalahan logis, dll. Dalam abstrak semua orang bingung dengan pemikiran semua tes positif palsu yang dipublikasikan, tetapi mereka harus dipercaya dan ditindaklanjuti untuk memiliki efek yang bertahan lama. (Jika ini adalah uji coba obat bius, itu bisa menjadi masalah besar.) Jadi, ada banyak hal yang perlu dikhawatirkan, tetapi saya tidak berpikir sains hancur.

Nick Cox

Jawaban:

Ini jelas akan menjadi mimpi buruk yang harus dilakukan dalam praktik, tetapi anggap itu bisa dilakukan: kami menunjuk seorang Sultan Statistik dan semua orang yang menjalankan tes hipotesis melaporkan nilai- mentah mereka ke lalim ini. Dia melakukan beberapa jenis koreksi perbandingan global dan membalas dengan versi yang dikoreksi. $p$

Apakah ini akan mengantar ke zaman keemasan sains dan akal? Tidak, mungkin juga tidak.

Mari kita mulai dengan mempertimbangkan satu pasang hipotesis, seperti dalam uji- . Kami mengukur beberapa properti dari dua grup dan ingin membedakan antara dua hipotesis tentang properti itu: Dalam sampel terbatas, nilai rata-rata tidak mungkin sama persis walaupun benar: kesalahan pengukuran dan sumber variabilitas lainnya dapat mendorong nilai individual. Namun,

t

$t$

\begin{aligned} H_{0} : & The groups have the same mean. \\ H_{A} : & The groups have different means. \end{aligned}

$\begin{align} H_0:& \textrm{ The groups have the same mean.} \\ H_A:& \textrm{ The groups have different means.} \end{align}$

H_{0}

$H_0$

H_{0}

$H_0$ hipotesis dalam beberapa hal "membosankan", dan para peneliti biasanya khawatir dengan menghindari situasi "positif palsu" di mana mereka mengklaim telah menemukan perbedaan antara kelompok-kelompok di mana tidak ada yang benar-benar ada. Oleh karena itu, kami hanya menyebut hasil "signifikan" jika tampaknya tidak mungkin di bawah hipotesis nol, dan, dengan konvensi, bahwa ambang ketidaksamaan ditetapkan sebesar 5%.

Ini berlaku untuk satu tes. Sekarang anggaplah Anda memutuskan untuk menjalankan beberapa tes dan bersedia menerima 5% kemungkinan salah menerima untuk masing-masing. Dengan tes yang cukup, karena itu Anda hampir pasti akan mulai membuat kesalahan, dan banyak dari mereka. $H_0$

Berbagai pendekatan beberapa koreksi dimaksudkan untuk membantu Anda kembali ke tingkat kesalahan nominal yang telah Anda pilih untuk ditoleransi untuk tes individu. Mereka melakukannya dengan cara yang sedikit berbeda. Metode yang mengontrol Tingkat Kesalahan Keluarga-Bijaksana , seperti prosedur Bonferroni , Sidak , dan Holm , mengatakan "Anda menginginkan peluang 5% untuk membuat kesalahan pada satu pengujian, jadi kami akan memastikan bahwa Anda tidak lebih dari 5 % kemungkinan membuat kesalahan di semua tes Anda. " Metode yang mengontrol Tingkat Penemuan Salahalih-alih katakan, "Anda tampaknya baik-baik saja dengan salah hingga 5% dari waktu dengan satu tes, jadi kami akan memastikan bahwa tidak lebih dari 5% dari 'panggilan' Anda salah ketika melakukan beberapa tes". (Lihat perbedaannya?)

Sekarang, anggaplah Anda mencoba untuk mengendalikan tingkat kesalahan menurut keluarga dari semua tes hipotesis yang pernah dijalankan. Anda pada dasarnya mengatakan bahwa Anda menginginkan peluang <5% untuk menolak hipotesis nol apa pun, selamanya. Ini menetapkan ambang batas yang sangat tidak mungkin dan inferensi akan menjadi tidak berguna secara efektif tetapi ada masalah yang lebih mendesak: koreksi global Anda berarti Anda menguji "hipotesis gabungan" yang sama sekali tidak masuk akal seperti

\begin{aligned} H_{1} : & Drug XYZ changes T-cell count \land \\ Grapes grow better in some fields \land \\ \dots \land \dots \land \dots \land \dots \land \\ Men and women eat different amounts of ice cream \end{aligned}

$\begin{align} H_1: &\textrm{Drug XYZ changes T-cell count } \wedge \\ &\textrm{Grapes grow better in some fields } \wedge&\\ &\ldots \wedge \ldots \wedge \ldots \wedge \ldots \wedge \\&\textrm{Men and women eat different amounts of ice cream} \end{align}$

Dengan koreksi False Discovery Rate, masalah numerik tidak begitu parah, tetapi masih berantakan secara filosofis. Alih-alih, masuk akal untuk mendefinisikan "keluarga" tes terkait, seperti daftar gen kandidat selama studi genomik, atau satu set nampan frekuensi waktu selama analisis spektral. Menyesuaikan keluarga Anda dengan pertanyaan spesifik memungkinkan Anda benar-benar menafsirkan kesalahan Tipe I Anda secara langsung. Misalnya, Anda bisa melihat sekumpulan nilai p yang dikoreksi FWER dari data genom Anda sendiri dan berkata, "Ada kemungkinan <5% bahwa salah satu gen ini adalah positif palsu." Ini jauh lebih baik daripada jaminan samar-samar yang mencakup kesimpulan yang dilakukan oleh orang yang tidak Anda pedulikan tentang topik yang tidak Anda pedulikan.

Sisi lain dari hal ini adalah bahwa ia memilih "keluarga" yang tepat dapat diperdebatkan dan sedikit subyektif (Apakah semua gen adalah satu keluarga atau bisakah saya mempertimbangkan kinase?) Tetapi itu harus diinformasikan oleh masalah Anda dan saya tidak percaya siapa pun telah secara serius menganjurkan mendefinisikan keluarga hampir secara luas.

Bagaimana dengan Bayes?

Analisis Bayesian menawarkan alternatif yang koheren untuk masalah ini - jika Anda bersedia untuk menjauh dari kerangka kesalahan Frequentist Type I / Type II. Kita mulai dengan beberapa non-komitmen sebelum berakhir ... yah ... semuanya. Setiap kali kita mempelajari sesuatu, informasi itu digabungkan dengan sebelum menghasilkan distribusi posterior, yang pada gilirannya menjadi prioritas untuk kali berikutnya kita mempelajari sesuatu. Ini memberi Anda aturan pembaruan yang koheren dan Anda bisa membandingkan berbagai hipotesis tentang hal-hal tertentu dengan menghitung faktor Bayes antara dua hipotesis. Anda mungkin bisa mempertimbangkan potongan besar model, yang bahkan tidak akan membuat ini sangat sulit.

Ada meme yang terus-menerus ... bahwa metode Bayesian tidak memerlukan beberapa koreksi perbandingan. Sayangnya, peluang posterior hanyalah statistik uji untuk frequentist (yaitu, orang yang peduli dengan kesalahan Tipe I / II). Mereka tidak memiliki properti khusus yang mengontrol jenis kesalahan ini (Mengapa mereka?) Dengan demikian, Anda kembali ke wilayah yang sulit ditembus, tetapi mungkin di tanah yang sedikit lebih berprinsip.

Argumen kontra Bayesian adalah bahwa kita harus fokus pada apa yang dapat kita ketahui sekarang dan dengan demikian tingkat kesalahan ini tidak sepenting itu.

Pada Reproduciblity

Anda tampaknya menyarankan bahwa beberapa perbandingan-koreksi yang tidak tepat adalah alasan di balik banyak hasil yang salah / tidak dapat diproduksi kembali. Perasaan saya adalah bahwa faktor-faktor lain lebih cenderung menjadi masalah. Yang jelas adalah bahwa tekanan untuk menerbitkan membuat orang menghindari eksperimen yang benar-benar menekankan hipotesis mereka (yaitu, desain eksperimen yang buruk).

Sebagai contoh, [dalam percobaan ini] (bagian dari reproduksi reproduksi Amgen (ir) 6 , ternyata tikus memiliki mutasi pada gen selain gen yang diinginkan. Andrew Gelman juga suka berbicara tentang Garden Forking Paths , di mana peneliti memilih rencana analisis (masuk akal) berdasarkan data, tetapi mungkin telah melakukan analisis lain jika data tampak berbeda. Ini mengembang -nilai dengan cara yang mirip dengan beberapa perbandingan, tetapi jauh lebih sulit untuk memperbaikinya setelah itu. mungkin juga memainkan peran, tetapi perasaan saya (dan harapan) adalah bahwa hal itu secara bertahap membaik. $p$

Matt Krause
sumber

Terima kasih, Matt. Saya suka ide "Statistik Sultan". Namun, apakah mungkin untuk mengendalikan tingkat penemuan palsu tanpa menerapkan beberapa koreksi seperti itu?

Kelvin

Poin yang saya coba sampaikan adalah bahwa tidak masuk akal untuk khawatir tentang The False Discovery Rate (atau tingkat kesalahan keluarga) di semua upaya manusia. Melakukan hal itu akan membutuhkan begitu banyak penghindaran risiko sehingga Anda tidak akan pernah menyelesaikan sesuatu. Sebagai gantinya, Anda mempertahankan FDR / FWER untuk percobaan individual cukup rendah dan mencoba untuk mereplikasi hal-hal penting yang juga menarik / berguna / dll.

Matt Krause

Terima kasih, saya kira pada akhirnya semuanya bereplikasi pada hal-hal yang penting. Ini sepenuhnya konsisten dengan filosofi sains, bahwa tidak ada hipotesis yang dapat dibuktikan, hanya diperkuat dari waktu ke waktu oleh percobaan berulang.

Kelvin

+1 untuk Sultan Statistik. Satu pertimbangan penting: bagaimana seharusnya Sultan menangani fakta bahwa nilai-p tiba secara berurutan? A p = 0,045 tiba pertama akan dianggap signifikan tetapi setelah beberapa abad tidak akan memiliki kesempatan? Itu sepertinya tidak masuk akal (cc to @Kelvin). Pertimbangan lain: bayangkan bahwa Sultan akan menunggu katakanlah 1 tahun dan menerapkan koreksi untuk semua hasil dari tahun terakhir ini; Saya bertanya-tanya seperti apa ambang alfa yang disesuaikan dalam praktiknya. Ada ide tentang itu, Matt? Itu (salah!) Dengan asumsi semua orang setuju pada alpha umum.

Amuba mengatakan Reinstate Monica

@amoeba, itu pertanyaan yang menarik dan saya tidak yakin saya tahu. Data Despot kami yang tercinta dapat memaksa semua orang untuk menggunakan semacam desain sekuensial, yang mungkin bisa membantu, tapi dia masih menguji hipotesis majemuk aneh ini. Bergantian, kita semua bisa menjadi Bayesians dan berhenti mengkhawatirkan tentang rekam jejak kesalahan Tipe I / II kami sebagian besar waktu. Ini sedikit murah (jika Anda tidak bisa mengalahkan mereka, abaikan mereka!), Tapi saya pikir itu dekat dengan bagaimana orang berperilaku.

Matt Krause

Saya pikir Anda sengaja melukiskan pandangan pesimistis tentang sains yang dihasilkan oleh statistik. Memang, menurut pendapat saya, statistik bukan hanya seperangkat alat yang menyediakan nilai p. Ada juga keadaan ketelitian, kepedulian dan kewaspadaan tentang beberapa kemungkinan efek yang terlibat dalam prosedur induksi ilmiah ... dan sementara menurut saya, segala sesuatu yang Anda nyatakan hampir benar, berikut adalah beberapa pendapat saya tentang mengapa kami memiliki beberapa jaminan tentang pengetahuan yang kami hasilkan:

Pertama secara umum, kesimpulan tidak harus dicapai hanya dengan argumen nilai p lebih rendah dari ambang batas yang diberikan.
Kedua, menurut pengetahuan saya, argumen tentang jenis "lebih dari setengah hasil ilmiah yang diterbitkan salah" adalah relevan dan menarik tetapi dihitung berdasarkan nilai p kira-kira sama dengan 0,05 (lihat misalnya Kebingungan mengenai nilai p dan tingkat penemuan palsu ) . Untuk nilai p yang lebih rendah pengaruhnya jauh lebih rendah dari yang diumumkan dan dalam praktiknya, tidak jarang mendapatkan nilai p jauh lebih rendah dari 0,05. Selain itu, beberapa kali hipotesis yang diberikan dikonfirmasi oleh beberapa sub-hipotesis yang sekali lagi mengurangi efek yang diumumkan.
Ketiga, pertanyaan tentang reproduktifitas adalah asli tetapi juga merupakan masalah yang harus ditangani oleh ahli statistik dengan mengidentifikasi dan berurusan dengan efek pengganggu, desain kelompok ... dan ini dapat dilakukan dengan sangat baik jika dilakukan dengan keahlian dan ketelitian.
Akhirnya, seperti yang saya pahami, sebuah studi statistik pola dasar harus kurang lebih berdiri pada 5 langkah berturut-turut berikut:
```
Formulate one or a few hypotheses
Design the corresponding study
Acquire the data
Analyse the data
Make conclusions about the above hypotheses (and only these ones)
```
Pedoman umum ini mencegah kita dari ekspedisi penangkapan ikan sebagai alat untuk menghasilkan kesimpulan umum.

Untuk menyimpulkan, saya akan mengatakan bahwa niat Anda untuk melindungi kami dari kesimpulan ilmiah yang buruk dengan over-thresholding nilai-p adalah sedikit ilusi. Saya lebih suka melindungi kita dari kesimpulan ilmiah yang buruk dengan memastikan dan mendorong analisis yang tepat dan tepat (dan saya ingin berpikir bahwa inilah alasan mengapa begitu banyak orang yang memenuhi syarat ada di sini untuk membantu orang lain di situs ini).

peuhp
sumber

Saya tidak berpikir itu membantu untuk bersikap defensif. Masalah irreproducibilitas dalam sains saat ini bukan hanya "menarik", tetapi juga berada pada titik kritis dan telah dibahas di Nature dan bahkan the Economist, karena apakah akan percaya pada studi tertentu (atau bahkan kemanjuran obat yang disetujui) ) sekarang tidak lebih baik daripada koin flip, meskipun miliaran dolar diinvestasikan.

Kelvin

Saya setuju bahwa ada krisis. Maksud saya adalah Anda dapat memeriksa kualitas koin. Tidak semua kertas memiliki kualitas yang sama dan dari pengalaman saya terkadang mudah untuk menunjukkan kertas cacat. Saya tidak menyangkal masalah saya menyangkal solusinya: hanya menghasilkan analisis yang tepat :)

peuhp

Ok, terima kasih, saya menghargai jawaban Anda. Tapi tetap dari sudut pandang statistik, dan terlepas dari kualitas eksperimen, kita tidak pernah bisa mengendalikan tingkat penemuan palsu keseluruhan tanpa menerapkan beberapa koreksi seperti itu, bukan?

Kelvin

Apakah mungkin untuk mengendalikan laju penemuan palsu tanpa menerapkan beberapa koreksi seperti itu?

$100\,a$ $a$

Ingat bahwa tingkat kesalahan (frequentist) sama sekali tidak menyangkut probabilitas tentang hipotesis yang diuji oleh tes individu, tetapi sebagai metode untuk melakukan tes dengan tingkat kegagalan jangka panjang yang dijamin. Koreksi untuk beberapa perbandingan adalah metode lain untuk menjamin tingkat kegagalan jangka panjang: satu untuk membangun metode senyawa yang berisi beberapa tes sehingga beberapa tingkat kegagalan jangka panjang dijamin untuk memegang senyawa.

Jika Anda melakukan percobaan tunggal dengan 100 tes dan melaporkan bahwa 5 di antaranya berbicara menentang nol, dengan demikian mengklaim bahwa Anda telah mengamati beberapa hasil nyata, tidak ada yang akan terkesan, mengetahui bahwa rata-rata, di antara 100 tes nol sejati, 5% akan menolak; metode yang Anda gunakan, "lakukan 100 tes dan laporkan jika ada yang memenuhi ambang 5%", memiliki tingkat kegagalan lebih tinggi dari 5%. Dengan demikian, Anda dapat memilih untuk mengontrol beberapa perbandingan dan melaporkan bahwa misalnya 2 dari 100 tes memiliki nilai p lebih rendah dari (5/100 == 0,05)%. Sekarang Anda menggunakan metode yang lagi-lagi memiliki tingkat kegagalan dijamin (untuk kesalahan pelaporan setidaknya satu tes signifikan meskipun tidak ada hipotesis yang salah) sebesar 5%.

$a$ , ambang tidak dikoreksi). Sebaliknya, jika setiap orang selalu menguji 100 hipotesis sejati per studi dan tidak menerapkan BEBERAPA, jumlah percobaan yang melaporkan efek signifikan akan melebihi tingkat kesalahan dijamin 5%. (Kontras dengan FDR / False Detection Rate, yang bukan merupakan metode yang menjamin tingkat pelaporan setiap tes signifikan dalam studi beberapa tes hipotesis sejati.)

jona
sumber

Apa yang Anda sebut "tingkat penemuan palsu" dalam paragraf pertama Anda bukanlah apa yang dikenal sebagai "tingkat penemuan palsu".

Amuba mengatakan Reinstate Monica