Saya sangat baru dalam statistik, dan saya baru belajar untuk memahami dasar-dasarnya, termasuk nilai- . Tetapi ada tanda tanya besar di pikiran saya saat ini, dan saya agak berharap pemahaman saya salah. Inilah proses pemikiran saya:
Tidak semua penelitian di seluruh dunia agak seperti monyet di "teorema monyet tak terbatas"? Anggap ada 23887 universitas di dunia. Jika setiap universitas memiliki 1000 siswa, itu berarti 23 juta siswa setiap tahun.
Katakanlah setiap tahun, setiap siswa melakukan setidaknya satu penelitian, menggunakan pengujian hipotesis dengan .
Bukankah itu berarti bahwa bahkan jika semua sampel penelitian ditarik dari populasi acak, sekitar 5% dari mereka akan "menolak hipotesis nol sebagai tidak valid". Wow. Berpikir tentang itu. Itu sekitar satu juta makalah penelitian per tahun yang diterbitkan karena hasil "signifikan".
Jika ini cara kerjanya, ini menakutkan. Ini berarti bahwa banyak "kebenaran ilmiah" yang kita anggap remeh didasarkan pada keacakan murni.
Sebagian besar kode R tampaknya mendukung pemahaman saya:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
Begitu juga artikel tentang -fishing yang sukses : Saya Membodohi Jutaan Orang Menjadi Berpikir Cokelat Membantu Menurunkan Berat Badan. Begini caranya .
Apakah ini benar-benar semua yang ada untuk itu? Apakah ini cara "sains" seharusnya bekerja?
sumber
Jawaban:
Ini memang masalah yang wajar, tetapi ini tidak sepenuhnya benar.
Jika 1.000.000 penelitian dilakukan dan semua hipotesis nol adalah benar maka sekitar 50.000 akan memiliki hasil yang signifikan pada p <0,05. Itulah yang dimaksud dengan nilai ap. Namun, nol pada dasarnya tidak pernah sepenuhnya benar. Tetapi bahkan jika kita mengendurkannya menjadi "hampir benar" atau "tentang benar" atau semacamnya, itu berarti bahwa 1.000.000 studi semua harus tentang hal-hal seperti
dan seterusnya. Omong kosong.
Satu masalah adalah, tentu saja, bahwa kita tidak tahu nol mana yang benar. Masalah lain adalah @Glen_b yang disebutkan dalam komentarnya - masalah laci file.
Inilah mengapa saya sangat menyukai ide-ide Robert Abelson yang ia kemukakan dalam Statistik sebagai Argumen Berprinsip . Yaitu, bukti statistik harus menjadi bagian dari argumen berprinsip mengapa sesuatu terjadi dan harus dinilai berdasarkan kriteria MAGIC:
sumber
Ingat, para ilmuwan secara kritis TIDAK seperti monyet yang tak terbatas, karena perilaku penelitian mereka - terutama eksperimen - sama sekali tidak acak. Eksperimen (setidaknya seharusnya) manipulasi dan pengukuran yang dikendalikan dengan sangat hati-hati yang didasarkan pada hipotesis yang diinformasikan secara mekanis yang dibangun di atas tubuh besar penelitian sebelumnya. Itu bukan hanya bidikan acak dalam gelap (atau jari monyet pada mesin tik).
Perkiraan untuk jumlah temuan penelitian yang diterbitkan harus jauh. Saya tidak tahu apakah ada 23 juta "mahasiswa" (apakah itu termasuk universitas, atau juga perguruan tinggi?) Di dunia, tetapi saya tahu bahwa sebagian besar dari mereka tidak pernah menerbitkan temuan ilmiah apa pun. Maksudku, kebanyakan dari mereka bukan jurusan sains, dan bahkan sebagian besar jurusan sains tidak pernah mempublikasikan temuan.
Perkiraan yang lebih mungkin (beberapa diskusi ) untuk jumlah publikasi ilmiah setiap tahun adalah sekitar 1-2 juta.
Perlu diingat, tidak semua penelitian yang diterbitkan memiliki statistik di mana signifikansinya tepat pada nilai p = 0,05. Seringkali orang melihat nilai p seperti p <0,01 atau bahkan p <0,001. Saya tidak tahu apa nilai p "berarti" lebih dari satu juta kertas, tentu saja.
Juga perlu diingat, para ilmuwan benar - benar tidak seharusnya mengambil sejumlah kecil hasil di p sekitar 0,05 sebagai "kebenaran ilmiah". Bahkan tidak dekat. Para ilmuwan seharusnya mengintegrasikan banyak penelitian, yang masing-masing memiliki kekuatan statistik yang sesuai, mekanisme yang masuk akal, reproduktifitas, besarnya efek, dll., Dan menggabungkannya ke dalam model tentatif bagaimana beberapa fenomena bekerja.
Tetapi, apakah ini berarti bahwa hampir semua sains itu benar? Tidak mungkin. Para ilmuwan adalah manusia, dan menjadi mangsa bias, metodologi penelitian yang buruk (termasuk pendekatan statistik yang tidak tepat), penipuan, kesalahan manusia sederhana, dan nasib buruk. Mungkin lebih dominan dalam mengapa sebagian yang sehat dari sains yang diterbitkan salah adalah faktor-faktor ini daripada konvensi p <0,05. Bahkan, mari kita langsung saja ke pengejaran, dan buat pernyataan "lebih menakutkan" dari apa yang telah Anda kemukakan:
Mengapa Kebanyakan Temuan Penelitian yang Diterbitkan Adalah Palsu
sumber
Pemahaman Anda tentang nilai- tampaknya benar.p
Kekhawatiran serupa juga cukup sering disuarakan. Apa yang masuk akal untuk dihitung dalam contoh Anda, bukan hanya jumlah studi dari 23 juta yang mencapai positif palsu, tetapi juga proporsi studi yang mendapatkan efek signifikan yang salah. Ini disebut "tingkat penemuan palsu". Itu tidak sama dengan dan tergantung pada berbagai hal lain seperti misalnya proporsi nol di 23 juta studi Anda. Ini tentu saja mustahil untuk diketahui, tetapi orang bisa menebak. Beberapa orang mengatakan bahwa tingkat penemuan palsu setidaknya 30%.α
Lihat misalnya diskusi terbaru dari makalah 2014 oleh David Colquhoun: Kebingungan dengan tingkat penemuan yang salah dan beberapa pengujian (pada Colquhoun 2014) . Saya telah berdebat di sana terhadap perkiraan "setidaknya 30%" ini, tetapi saya setuju bahwa dalam beberapa bidang penelitian tingkat penemuan palsu bisa jauh lebih tinggi dari 5%. Ini memang mengkhawatirkan.
Saya tidak berpikir bahwa mengatakan nol hampir tidak pernah benar membantu di sini; Kesalahan Tipe S dan Tipe M (seperti yang diperkenalkan oleh Andrew Gelman) tidak jauh lebih baik daripada kesalahan tipe I / II.
Saya pikir apa yang sebenarnya dimaksud adalah bahwa seseorang tidak boleh mempercayai hasil "signifikan" yang terisolasi.
Ini bahkan berlaku dalam fisika energi tinggi dengan kriteria super-ketat ; kami percaya penemuan boson Higgs sebagian karena sangat cocok dengan prediksi teori. Ini tentu saja jauh JAUH lebih banyak dalam beberapa disiplin ilmu lain dengan kriteria signifikansi konvensional yang jauh lebih rendah ( ) dan kurangnya prediksi teoritis yang sangat spesifik. α = 0,05α≈10−7 α=0.05
Studi yang baik, setidaknya di bidang saya, tidak melaporkan hasil terisolasi . Temuan semacam itu perlu dikonfirmasi oleh analisis lain (setidaknya sebagian independen), dan oleh beberapa percobaan independen lainnya. Jika saya melihat studi terbaik di bidang saya, saya selalu melihat sejumlah eksperimen yang bersama-sama menunjukkan hasil tertentu; nilai "kumulatif" mereka (yang tidak pernah dihitung secara eksplisit) sangat rendah.pp<0.05 p
Dengan kata lain, saya berpikir bahwa jika seorang peneliti mendapatkan beberapa temuan , itu hanya berarti dia harus pergi dan menyelidiki lebih lanjut. Jelas tidak berarti bahwa itu harus dianggap sebagai "kebenaran ilmiah".p<0.05
sumber
Kekhawatiran Anda persis kekhawatiran yang mendasari banyak diskusi saat ini dalam sains tentang reproduksibilitas. Namun, keadaan sebenarnya sedikit lebih rumit dari yang Anda sarankan.
Pertama, mari kita tentukan beberapa terminologi. Pengujian signifikansi hipotesis nol dapat dipahami sebagai masalah deteksi sinyal - hipotesis nol adalah benar atau salah, dan Anda dapat memilih untuk menolak atau mempertahankannya. Kombinasi dua keputusan dan dua kemungkinan keadaan "benar" menghasilkan tabel berikut ini, yang sebagian besar orang lihat di beberapa titik ketika mereka pertama kali belajar statistik:
Ilmuwan yang menggunakan pengujian signifikansi hipotesis nol berusaha untuk memaksimalkan jumlah keputusan yang benar (ditunjukkan dengan warna biru) dan meminimalkan jumlah keputusan yang salah (ditunjukkan dalam warna merah). Para ilmuwan yang bekerja juga mencoba untuk mempublikasikan hasil mereka sehingga mereka bisa mendapatkan pekerjaan dan memajukan karier mereka.
Tentu saja, ingatlah bahwa, seperti banyak penjawab lain telah sebutkan, hipotesis nol tidak dipilih secara acak - sebagai gantinya, biasanya dipilih secara khusus karena, berdasarkan teori sebelumnya, ilmuwan percaya itu salah . Sayangnya, sulit untuk mengukur proporsi kali bahwa para ilmuwan benar dalam prediksi mereka, tetapi ingatlah bahwa, ketika para ilmuwan berurusan dengan kolom " is false", mereka harus khawatir tentang negatif palsu daripada positif positif palsu.H0
Bias publikasi
Tingkat kebebasan peneliti
Penting untuk dicatat bahwa penggunaan derajat kebebasan peneliti yang tidak tepat (yang kadang-kadang dikenal sebagai praktik penelitian yang dipertanyakan; Martinson, Anderson, & de Vries, 2005 ) tidak sama dengan membuat data. Dalam beberapa kasus, mengecualikan pencilan adalah hal yang benar untuk dilakukan, baik karena peralatan gagal atau karena alasan lain. Masalah utama adalah bahwa, di hadapan derajat kebebasan peneliti, keputusan yang diambil selama analisis sering bergantung pada bagaimana data berubah ( Gelman & Loken, 2014), bahkan jika para peneliti yang bersangkutan tidak mengetahui fakta ini. Selama peneliti menggunakan derajat kebebasan peneliti (secara sadar atau tidak sadar) untuk meningkatkan probabilitas hasil yang signifikan (mungkin karena hasil yang signifikan lebih "dapat dipublikasi"), keberadaan derajat kebebasan peneliti akan kelebihan populasi literatur penelitian dengan positif palsu di cara yang sama seperti bias publikasi.
Peringatan penting untuk diskusi di atas adalah bahwa makalah ilmiah (setidaknya dalam psikologi, yang merupakan bidang saya) jarang terdiri dari hasil tunggal. Yang lebih umum adalah beberapa penelitian, yang masing-masing melibatkan beberapa tes - penekanannya adalah pada membangun argumen yang lebih besar dan mengesampingkan penjelasan alternatif untuk bukti yang disajikan. Namun, presentasi hasil selektif (atau adanya derajat kebebasan peneliti) dapat menghasilkan bias dalam serangkaian hasil semudah hasil tunggal. Ada bukti bahwa hasil yang disajikan dalam makalah multi-studi sering jauh lebih bersih dan lebih kuat daripada yang diharapkan bahkan jika semua prediksi studi ini semuanya benar ( Francis, 2013 ).
Kesimpulan
Pada dasarnya, saya setuju dengan intuisi Anda bahwa pengujian signifikansi nol hipotesis bisa salah. Namun, saya berpendapat bahwa pelaku sebenarnya yang menghasilkan tingkat positif palsu yang tinggi adalah proses seperti bias publikasi dan adanya derajat kebebasan peneliti. Memang, banyak ilmuwan sangat menyadari masalah ini, dan meningkatkan kemampuan reproduksi ilmiah adalah topik diskusi yang sangat aktif saat ini (misalnya, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Jadi Anda berada di perusahaan yang baik dengan kekhawatiran Anda, tetapi saya juga berpikir ada juga alasan untuk optimisme hati-hati.
Referensi
Stern, JM, & Simes, RJ (1997). Bias publikasi: Bukti keterlambatan publikasi dalam studi kohort proyek penelitian klinis. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Tinjauan sistematis dari bukti empiris bias publikasi penelitian dan bias pelaporan hasil. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin Psikologis, 86 (3), 638-641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif-palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu Psikologi, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS, & de Vries, R. (2005). Ilmuwan berperilaku buruk. Alam, 435, 737-738. http://doi.org/10.1038/435737a
Gelman, A., & Loken, E. (2014). Krisis statistik dalam sains. American Scientist, 102, 460-465.
Francis, G. (2013). Replikasi, konsistensi statistik, dan bias publikasi. Jurnal Psikologi Matematika, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA, & Bar-Anan, Y. (2012). Utopia ilmiah: I. Membuka komunikasi ilmiah. Penyelidikan Psikologis, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia ilmiah: II. Restrukturisasi insentif dan praktik untuk mempromosikan kebenaran daripada publikasi. Perspektif tentang Ilmu Psikologis, 7 (6), 615-631. http://doi.org/10.1177/1745691612459058
sumber
Pemeriksaan penting pada masalah penting yang diangkat dalam pertanyaan ini adalah bahwa "kebenaran ilmiah" tidak didasarkan pada publikasi individual dan terisolasi. Jika suatu hasil cukup menarik itu akan mendorong ilmuwan lain untuk mengejar implikasi hasil. Pekerjaan itu akan cenderung untuk mengkonfirmasi atau membantah temuan asli. Mungkin ada peluang 1/20 untuk menolak hipotesis nol sejati dalam studi individu, tetapi hanya 1/400 yang melakukannya dua kali berturut-turut.
Jika para ilmuwan benar-benar mengulangi eksperimen sampai mereka menemukan "signifikansi" dan kemudian menerbitkan hasilnya, masalahnya mungkin sebesar yang disarankan OP. Tapi itu bukan cara sains bekerja, setidaknya dalam hampir 50 tahun pengalaman saya dalam penelitian biomedis. Lebih lanjut, publikasi jarang tentang percobaan "signifikan" tunggal tetapi lebih didasarkan pada serangkaian eksperimen yang saling terkait (masing-masing diperlukan untuk menjadi "signifikan" sendiri) yang bersama-sama memberikan dukungan untuk hipotesis substantif yang lebih luas.
Masalah yang jauh lebih besar datang dari para ilmuwan yang terlalu berkomitmen pada hipotesis mereka sendiri. Mereka kemudian dapat menginterpretasikan secara berlebihan implikasi percobaan individu untuk mendukung hipotesis mereka, terlibat dalam penyuntingan data yang meragukan (seperti menghapus pencilan yang sewenang-wenang), atau (seperti yang telah saya lihat dan bantu tangkap) hanya membuat data.
Ilmu pengetahuan, bagaimanapun, adalah proses yang sangat sosial, terlepas dari mitologi tentang ilmuwan gila yang bersembunyi di menara gading. Memberi dan menerima di antara ribuan ilmuwan yang mengejar minat mereka, berdasarkan apa yang telah mereka pelajari dari karya orang lain, adalah perlindungan institusional utama dari kesalahan positif. Temuan-temuan palsu terkadang dapat diabadikan selama bertahun-tahun, tetapi jika suatu masalah cukup penting, proses tersebut pada akhirnya akan mengidentifikasi kesimpulan yang salah.
sumber
Hanya untuk menambah diskusi, berikut adalah posting yang menarik dan diskusi selanjutnya tentang bagaimana orang-orang umumnya salah paham nilai-p.
Apa yang harus dipertahankan dalam setiap kasus adalah bahwa nilai-p hanyalah ukuran dari kekuatan bukti dalam menolak hipotesis yang diberikan. Nilai-p jelas bukan ambang keras di bawah di mana sesuatu itu "benar" dan di atasnya hanya karena kebetulan. Sebagaimana dijelaskan dalam pos yang dirujuk di atas:
sumber
Seperti juga ditunjukkan dalam jawaban lain, ini hanya akan menimbulkan masalah jika Anda akan secara selektif mempertimbangkan hasil positif di mana hipotesis nol dikesampingkan. Inilah sebabnya mengapa para ilmuwan menulis artikel ulasan di mana mereka mempertimbangkan hasil penelitian yang diterbitkan sebelumnya dan mencoba mengembangkan pemahaman yang lebih baik tentang subjek berdasarkan itu. Namun, masih ada masalah, yang disebabkan oleh apa yang disebut "bias publikasi", yaitu para ilmuwan lebih cenderung menulis artikel tentang hasil positif daripada pada hasil negatif, juga makalah tentang hasil negatif adalah lebih mungkin ditolak untuk publikasi daripada makalah tentang hasil positif.
Terutama di bidang di mana tes statistik sangat penting apakah ini akan menjadi masalah besar, bidang kedokteran adalah contoh yang terkenal. Inilah sebabnya mengapa wajib untuk mendaftarkan uji klinis sebelum dilakukan (misalnya di sini ). Jadi, Anda harus menjelaskan pengaturannya, bagaimana analisis statistik akan dilakukan, dll. Sebelum uji coba berlangsung. Jurnal medis terkemuka akan menolak untuk mempublikasikan makalah jika uji coba yang mereka laporkan tidak terdaftar.
Sayangnya, terlepas dari ukuran ini, sistem tidak berfungsi dengan baik .
sumber
Ini dekat dengan fakta yang sangat penting tentang metode ilmiah: ini menekankan kepalsuan. Filsafat sains yang paling populer saat ini memiliki konsep kepalsuan Karl Popper sebagai batu penjuru.
Dengan demikian proses ilmiah dasar adalah:
Siapa pun dapat mengklaim teori apa pun yang mereka inginkan, kapan saja. Ilmu pengetahuan akan mengakui teori apa pun yang "dapat dipalsukan". Arti paling harfiah dari kata itu adalah bahwa, jika orang lain tidak menyukai klaim tersebut, orang itu bebas untuk menghabiskan sumber daya untuk membantah klaim tersebut. Jika Anda tidak berpikir kaus kaki argyle menyembuhkan kanker, Anda bebas menggunakan bangsal medis Anda sendiri untuk membantahnya.
Karena bilah untuk masuk ini sangat rendah, maka tradisional bahwa "Sains" sebagai kelompok budaya tidak akan benar-benar menghibur ide sampai Anda telah melakukan "upaya yang baik" untuk memalsukan teori Anda sendiri.
Penerimaan gagasan cenderung berjalan bertahap. Anda bisa memasukkan konsep Anda ke artikel jurnal dengan satu studi dan nilai p yang agak rendah. Apa yang membeli Anda adalah publisitas dan kredibilitas. Jika seseorang tertarik pada ide Anda, seperti jika sains Anda memiliki aplikasi teknik, mereka mungkin ingin menggunakannya. Pada saat itu, mereka lebih cenderung mendanai putaran pemalsuan tambahan.
Proses ini berjalan maju, selalu dengan sikap yang sama: percaya apa yang Anda inginkan, tetapi untuk menyebutnya sains, saya harus dapat membuktikannya nanti.
Bilah rendah untuk masuk inilah yang memungkinkannya menjadi sangat inovatif. Jadi ya, ada sejumlah besar artikel jurnal yang secara teoritis "salah" di luar sana. Namun, kuncinya adalah bahwa setiap artikel yang diterbitkan secara teori dapat dipalsukan, sehingga pada suatu saat, seseorang dapat menghabiskan uang untuk mengujinya.
Ini kuncinya: jurnal tidak hanya berisi hal-hal yang lulus uji-p yang masuk akal, tetapi juga berisi kunci untuk orang lain untuk membongkarnya jika hasilnya ternyata salah.
sumber
Begitulah cara banyak ilmu sosial bekerja. Tidak banyak dengan ilmu fisika. Pikirkan ini: Anda mengetik pertanyaan Anda di komputer. Orang-orang dapat membangun binatang buas yang rumit ini yang disebut komputer menggunakan pengetahuan fisika, kimia, dan bidang ilmu fisika lainnya. Jika situasinya seburuk yang Anda gambarkan, tidak ada satu pun elektronik yang akan berfungsi. Atau pikirkan hal-hal seperti massa elektron, yang dikenal dengan presisi gila. Mereka melewati miliaran gerbang logika di komputer selama lebih dari satu, dan komputer Anda masih bekerja dan bekerja selama bertahun-tahun.
UPDATE: Untuk menanggapi suara turun yang saya terima, saya merasa terinspirasi untuk memberi Anda beberapa contoh.
Yang pertama adalah dari fisika: Bystritsky, VM, et al. " Mengukur faktor S astrofisika dan penampang reaksi p (d, γ) 3 Dia di wilayah energi ultralow menggunakan target zirconium deuteride ." Fisika Partikel dan Nuclei Letters 10.7 (2013): 717-722.
Contoh saya berikutnya adalah dari ... psikologi: Paustian-Underdahl, Samantha C., Lisa Slattery Walker, dan David J. Woehr. " Jenis kelamin dan persepsi efektivitas kepemimpinan: Sebuah meta-analisis moderator kontekstual ." Jurnal Psikologi Terapan, 2014, Vol. 99, No. 6, 1129 –1145.
Sekarang, lihat beberapa tabel dari kertas dan tebak dari kertas mana mereka berasal:
Itulah jawaban mengapa dalam satu kasus Anda membutuhkan statistik "keren" dan dalam kasus lain Anda tidak: karena datanya jelek atau tidak. Ketika Anda memiliki data yang baik, Anda tidak perlu banyak statistik di luar kesalahan standar.
UPDATE2: @ PatrickS.Forscher membuat pernyataan menarik dalam komentar:
Saya harus tidak setuju. Dalam bidang Ekonomi dan Keuangan, teorinya tidak "lunak" sama sekali. Anda dapat secara acak mencari kertas di bidang ini dan mendapatkan sesuatu seperti ini:
dan seterusnya.
Ini dari Schervish, Mark J., Teddy Seidenfeld, dan Joseph B. Kadane. " Perpanjangan teori utilitas yang diharapkan dan beberapa batasan perbandingan berpasangan ." (2003). Apakah ini terlihat lembut bagi Anda?
Saya mengulangi poin saya di sini bahwa ketika teori Anda tidak bagus dan datanya jelek, Anda dapat menggunakan matematika yang paling sulit dan masih mendapatkan hasil yang jelek.
Dalam makalah ini mereka berbicara tentang utilitas, konsep seperti kebahagiaan dan kepuasan - benar-benar tidak dapat diamati. Seperti apa kegunaan memiliki rumah vs makan burger keju? Agaknya ada fungsi ini, di mana Anda bisa pasang "eat cheeseburger" atau "tinggal di rumah sendiri" dan fungsi tersebut akan mengeluarkan jawabannya di beberapa unit. Separah kedengarannya inilah yang menjadi dasar dibangunnya ecnomics modern, terima kasih kepada von Neuman.
sumber