Kita tahu bahwa kita harus menerapkan koreksi seperti Benjamini Hochberg untuk pengujian hipotesis berganda untuk eksperimen yang didasarkan pada satu set data tunggal, untuk mengendalikan laju penemuan palsu, jika tidak semua eksperimen yang memberikan hasil positif bisa salah.
Tapi mengapa kita tidak menerapkan prinsip yang sama ini untuk semua percobaan sejak awal waktu, terlepas dari mana data berasal?
Lagipula, lebih dari setengah hasil ilmiah yang dipublikasikan yang dianggap "signifikan" kini diketahui palsu dan tidak dapat diproduksi ulang, dan tidak ada alasan mengapa ini tidak semudah 100%. Karena para ilmuwan hanya cenderung mempublikasikan hasil positif, kami tidak tahu jumlah hasil negatif, jadi kami tidak tahu jika apa yang kami terbitkan hanya positif palsu - hasil positif yang dipangkas secara kebetulan acak murni di bawah hipotesis nol. Sementara itu, tidak ada yang mengatakan bahwa matematika di balik koreksi pengujian hipotesis berganda harus berlaku hanya untuk hasil dari set data yang sama, dan tidak untuk hasil dari semua data eksperimen yang diperoleh dari waktu ke waktu.
Tampaknya seluruh ilmu pengetahuan telah menjadi satu ekspedisi penangkapan ikan besar berdasarkan hipotesis salah atau lemah, jadi bagaimana kita bisa mengendalikan ini?
Bagaimana kita bisa mengendalikan tingkat penemuan palsu, jika semua yang pernah kita publikasikan adalah hasil independen yang diambil tanpa menerapkan koreksi untuk pengujian hipotesis berganda atas semua percobaan yang dilakukan hingga saat ini?
Apakah mungkin untuk mengendalikan laju penemuan palsu tanpa menerapkan beberapa koreksi seperti itu?
Jawaban:
Ini jelas akan menjadi mimpi buruk yang harus dilakukan dalam praktik, tetapi anggap itu bisa dilakukan: kami menunjuk seorang Sultan Statistik dan semua orang yang menjalankan tes hipotesis melaporkan nilai- mentah mereka ke lalim ini. Dia melakukan beberapa jenis koreksi perbandingan global dan membalas dengan versi yang dikoreksi.hal
Apakah ini akan mengantar ke zaman keemasan sains dan akal? Tidak, mungkin juga tidak.
Mari kita mulai dengan mempertimbangkan satu pasang hipotesis, seperti dalam uji- . Kami mengukur beberapa properti dari dua grup dan ingin membedakan antara dua hipotesis tentang properti itu: Dalam sampel terbatas, nilai rata-rata tidak mungkin sama persis walaupun benar: kesalahan pengukuran dan sumber variabilitas lainnya dapat mendorong nilai individual. Namun,H 0 : Kelompok-kelompok tersebut memiliki rata-rata yang sama. H A : Kelompok-kelompok memiliki cara yang berbeda. H 0 H 0
Ini berlaku untuk satu tes. Sekarang anggaplah Anda memutuskan untuk menjalankan beberapa tes dan bersedia menerima 5% kemungkinan salah menerima untuk masing-masing. Dengan tes yang cukup, karena itu Anda hampir pasti akan mulai membuat kesalahan, dan banyak dari mereka.H0
Berbagai pendekatan beberapa koreksi dimaksudkan untuk membantu Anda kembali ke tingkat kesalahan nominal yang telah Anda pilih untuk ditoleransi untuk tes individu. Mereka melakukannya dengan cara yang sedikit berbeda. Metode yang mengontrol Tingkat Kesalahan Keluarga-Bijaksana , seperti prosedur Bonferroni , Sidak , dan Holm , mengatakan "Anda menginginkan peluang 5% untuk membuat kesalahan pada satu pengujian, jadi kami akan memastikan bahwa Anda tidak lebih dari 5 % kemungkinan membuat kesalahan di semua tes Anda. " Metode yang mengontrol Tingkat Penemuan Salahalih-alih katakan, "Anda tampaknya baik-baik saja dengan salah hingga 5% dari waktu dengan satu tes, jadi kami akan memastikan bahwa tidak lebih dari 5% dari 'panggilan' Anda salah ketika melakukan beberapa tes". (Lihat perbedaannya?)
Sekarang, anggaplah Anda mencoba untuk mengendalikan tingkat kesalahan menurut keluarga dari semua tes hipotesis yang pernah dijalankan. Anda pada dasarnya mengatakan bahwa Anda menginginkan peluang <5% untuk menolak hipotesis nol apa pun, selamanya. Ini menetapkan ambang batas yang sangat tidak mungkin dan inferensi akan menjadi tidak berguna secara efektif tetapi ada masalah yang lebih mendesak: koreksi global Anda berarti Anda menguji "hipotesis gabungan" yang sama sekali tidak masuk akal seperti
Dengan koreksi False Discovery Rate, masalah numerik tidak begitu parah, tetapi masih berantakan secara filosofis. Alih-alih, masuk akal untuk mendefinisikan "keluarga" tes terkait, seperti daftar gen kandidat selama studi genomik, atau satu set nampan frekuensi waktu selama analisis spektral. Menyesuaikan keluarga Anda dengan pertanyaan spesifik memungkinkan Anda benar-benar menafsirkan kesalahan Tipe I Anda secara langsung. Misalnya, Anda bisa melihat sekumpulan nilai p yang dikoreksi FWER dari data genom Anda sendiri dan berkata, "Ada kemungkinan <5% bahwa salah satu gen ini adalah positif palsu." Ini jauh lebih baik daripada jaminan samar-samar yang mencakup kesimpulan yang dilakukan oleh orang yang tidak Anda pedulikan tentang topik yang tidak Anda pedulikan.
Sisi lain dari hal ini adalah bahwa ia memilih "keluarga" yang tepat dapat diperdebatkan dan sedikit subyektif (Apakah semua gen adalah satu keluarga atau bisakah saya mempertimbangkan kinase?) Tetapi itu harus diinformasikan oleh masalah Anda dan saya tidak percaya siapa pun telah secara serius menganjurkan mendefinisikan keluarga hampir secara luas.
Bagaimana dengan Bayes?
Analisis Bayesian menawarkan alternatif yang koheren untuk masalah ini - jika Anda bersedia untuk menjauh dari kerangka kesalahan Frequentist Type I / Type II. Kita mulai dengan beberapa non-komitmen sebelum berakhir ... yah ... semuanya. Setiap kali kita mempelajari sesuatu, informasi itu digabungkan dengan sebelum menghasilkan distribusi posterior, yang pada gilirannya menjadi prioritas untuk kali berikutnya kita mempelajari sesuatu. Ini memberi Anda aturan pembaruan yang koheren dan Anda bisa membandingkan berbagai hipotesis tentang hal-hal tertentu dengan menghitung faktor Bayes antara dua hipotesis. Anda mungkin bisa mempertimbangkan potongan besar model, yang bahkan tidak akan membuat ini sangat sulit.
Ada meme yang terus-menerus ... bahwa metode Bayesian tidak memerlukan beberapa koreksi perbandingan. Sayangnya, peluang posterior hanyalah statistik uji untuk frequentist (yaitu, orang yang peduli dengan kesalahan Tipe I / II). Mereka tidak memiliki properti khusus yang mengontrol jenis kesalahan ini (Mengapa mereka?) Dengan demikian, Anda kembali ke wilayah yang sulit ditembus, tetapi mungkin di tanah yang sedikit lebih berprinsip.
Argumen kontra Bayesian adalah bahwa kita harus fokus pada apa yang dapat kita ketahui sekarang dan dengan demikian tingkat kesalahan ini tidak sepenting itu.
Pada Reproduciblity
Anda tampaknya menyarankan bahwa beberapa perbandingan-koreksi yang tidak tepat adalah alasan di balik banyak hasil yang salah / tidak dapat diproduksi kembali. Perasaan saya adalah bahwa faktor-faktor lain lebih cenderung menjadi masalah. Yang jelas adalah bahwa tekanan untuk menerbitkan membuat orang menghindari eksperimen yang benar-benar menekankan hipotesis mereka (yaitu, desain eksperimen yang buruk).
Sebagai contoh, [dalam percobaan ini] (bagian dari reproduksi reproduksi Amgen (ir) 6 , ternyata tikus memiliki mutasi pada gen selain gen yang diinginkan. Andrew Gelman juga suka berbicara tentang Garden Forking Paths , di mana peneliti memilih rencana analisis (masuk akal) berdasarkan data, tetapi mungkin telah melakukan analisis lain jika data tampak berbeda. Ini mengembang -nilai dengan cara yang mirip dengan beberapa perbandingan, tetapi jauh lebih sulit untuk memperbaikinya setelah itu. mungkin juga memainkan peran, tetapi perasaan saya (dan harapan) adalah bahwa hal itu secara bertahap membaik.hal
sumber
Saya pikir Anda sengaja melukiskan pandangan pesimistis tentang sains yang dihasilkan oleh statistik. Memang, menurut pendapat saya, statistik bukan hanya seperangkat alat yang menyediakan nilai p. Ada juga keadaan ketelitian, kepedulian dan kewaspadaan tentang beberapa kemungkinan efek yang terlibat dalam prosedur induksi ilmiah ... dan sementara menurut saya, segala sesuatu yang Anda nyatakan hampir benar, berikut adalah beberapa pendapat saya tentang mengapa kami memiliki beberapa jaminan tentang pengetahuan yang kami hasilkan:
Pertama secara umum, kesimpulan tidak harus dicapai hanya dengan argumen nilai p lebih rendah dari ambang batas yang diberikan.
Kedua, menurut pengetahuan saya, argumen tentang jenis "lebih dari setengah hasil ilmiah yang diterbitkan salah" adalah relevan dan menarik tetapi dihitung berdasarkan nilai p kira-kira sama dengan 0,05 (lihat misalnya Kebingungan mengenai nilai p dan tingkat penemuan palsu ) . Untuk nilai p yang lebih rendah pengaruhnya jauh lebih rendah dari yang diumumkan dan dalam praktiknya, tidak jarang mendapatkan nilai p jauh lebih rendah dari 0,05. Selain itu, beberapa kali hipotesis yang diberikan dikonfirmasi oleh beberapa sub-hipotesis yang sekali lagi mengurangi efek yang diumumkan.
Ketiga, pertanyaan tentang reproduktifitas adalah asli tetapi juga merupakan masalah yang harus ditangani oleh ahli statistik dengan mengidentifikasi dan berurusan dengan efek pengganggu, desain kelompok ... dan ini dapat dilakukan dengan sangat baik jika dilakukan dengan keahlian dan ketelitian.
Akhirnya, seperti yang saya pahami, sebuah studi statistik pola dasar harus kurang lebih berdiri pada 5 langkah berturut-turut berikut:
Pedoman umum ini mencegah kita dari ekspedisi penangkapan ikan sebagai alat untuk menghasilkan kesimpulan umum.
Untuk menyimpulkan, saya akan mengatakan bahwa niat Anda untuk melindungi kami dari kesimpulan ilmiah yang buruk dengan over-thresholding nilai-p adalah sedikit ilusi. Saya lebih suka melindungi kita dari kesimpulan ilmiah yang buruk dengan memastikan dan mendorong analisis yang tepat dan tepat (dan saya ingin berpikir bahwa inilah alasan mengapa begitu banyak orang yang memenuhi syarat ada di sini untuk membantu orang lain di situs ini).
sumber
Ingat bahwa tingkat kesalahan (frequentist) sama sekali tidak menyangkut probabilitas tentang hipotesis yang diuji oleh tes individu, tetapi sebagai metode untuk melakukan tes dengan tingkat kegagalan jangka panjang yang dijamin. Koreksi untuk beberapa perbandingan adalah metode lain untuk menjamin tingkat kegagalan jangka panjang: satu untuk membangun metode senyawa yang berisi beberapa tes sehingga beberapa tingkat kegagalan jangka panjang dijamin untuk memegang senyawa.
Jika Anda melakukan percobaan tunggal dengan 100 tes dan melaporkan bahwa 5 di antaranya berbicara menentang nol, dengan demikian mengklaim bahwa Anda telah mengamati beberapa hasil nyata, tidak ada yang akan terkesan, mengetahui bahwa rata-rata, di antara 100 tes nol sejati, 5% akan menolak; metode yang Anda gunakan, "lakukan 100 tes dan laporkan jika ada yang memenuhi ambang 5%", memiliki tingkat kegagalan lebih tinggi dari 5%. Dengan demikian, Anda dapat memilih untuk mengontrol beberapa perbandingan dan melaporkan bahwa misalnya 2 dari 100 tes memiliki nilai p lebih rendah dari (5/100 == 0,05)%. Sekarang Anda menggunakan metode yang lagi-lagi memiliki tingkat kegagalan dijamin (untuk kesalahan pelaporan setidaknya satu tes signifikan meskipun tidak ada hipotesis yang salah) sebesar 5%.
sumber