Dalam beberapa tahun terakhir, berbagai cendekiawan telah mengangkat masalah pengujian hipotesis ilmiah yang merugikan, dijuluki "derajat kebebasan peneliti," yang berarti bahwa para ilmuwan memiliki banyak pilihan untuk membuat selama analisis mereka yang bias terhadap penemuan dengan nilai p <5%. Pilihan ambigu ini, misalnya, kasus mana yang akan dimasukkan, kasus mana yang dikategorikan sebagai pencilan, menjalankan banyak spesifikasi model hingga sesuatu muncul, jangan mempublikasikan hasil nol, dll. (Makalah yang memicu debat psikologi ini ada di sini , lihat artikel Slate yang populer dan debat lanjutan oleh Andrew Gelman di sini , dan majalah Time juga menyentuh topik ini di sini .)
Pertama , satu pertanyaan klarifikasi:
The Waktu majalah menulis,
"Kekuatan 0,8 berarti bahwa dari sepuluh hipotesis sejati yang diuji, hanya dua yang akan dikesampingkan karena efeknya tidak diambil dalam data;"
Saya tidak yakin bagaimana ini cocok dengan definisi fungsi daya yang saya temukan di buku teks, yang merupakan probabilitas menolak nol sebagai fungsi dari parameter . Dengan berbeda, kami memiliki kekuatan yang berbeda, jadi saya tidak mengerti kutipan di atas.
Kedua , beberapa implikasi penelitian:
Di bidang ilmu / ekonomi politik saya, para sarjana hanya menggunakan semua data negara-tahun yang tersedia. Jadi, haruskah kita tidak khawatir dengan sampel biola di sini?
Dapatkah masalah menjalankan beberapa tes tetapi melaporkan hanya satu model diperbaiki hanya dengan fakta bahwa orang lain dalam disiplin akan menguji ulang kertas Anda dan segera menjatuhkan Anda karena tidak memiliki hasil yang kuat? Mengantisipasi hal ini, para sarjana di bidang saya lebih cenderung memasukkan
robustness check
bagian, di mana mereka menunjukkan bahwa beberapa spesifikasi model tidak mengubah hasilnya. Apakah ini cukup?Andrew Gelman dan yang lainnya mengangkat poin bahwa tidak masalah data, akan selalu mungkin untuk menemukan dan menerbitkan beberapa "pola" yang tidak benar-benar ada. Tetapi ini seharusnya tidak menjadi perhatian, mengingat fakta bahwa "pola" empiris apa pun harus didukung oleh sebuah teori, dan teori-teori saingan dalam suatu disiplin hanya akan terlibat dalam debat / ras untuk menemukan kubu mana yang mampu menemukan lebih banyak "pola" di berbagai tempat. Jika suatu pola benar-benar palsu, maka teori di baliknya akan dengan cepat dihancurkan ketika tidak ada pola yang serupa dalam sampel / pengaturan lain. Bukankah ini bagaimana ilmu pengetahuan berkembang?
Dengan asumsi bahwa tren jurnal saat ini untuk hasil nol benar-benar akan berkembang, apakah ada cara bagi kita untuk mengumpulkan semua hasil nol dan positif bersama-sama dan membuat kesimpulan pada teori bahwa mereka semua mencoba menguji?
Jawaban:
Alih-alih menggunakan nilai-p untuk menilai klaim, kita harus mengikuti saran Robert Abelson dan menggunakan kriteria MAGIC:
Untuk lebih lanjut tentang Abelson lihat review saya tentang bukunya
Dan kita harus berkonsentrasi pada ukuran efek, bukan nilai p dalam output statistik (dengan kemungkinan pengecualian dari beberapa jenis data mining, di mana saya tidak ahli sama sekali). Dan ukuran efek harus dinilai dalam konteks:
Seorang analis statistik / data tidak boleh orang yang aneh, digunakan seperti kotak hitam di mana data dimasukkan dan keluar dari mana nilai p diperoleh; dia harus menjadi kolaborator dalam penelitian yang dirancang untuk membuat argumen yang masuk akal tentang makna beberapa set data dalam konteks beberapa bidang, mengingat teori saat ini (atau kekurangannya) dan bukti saat ini (atau kurang sama).
Sayangnya, pendekatan ini memerlukan pemikiran dari para peneliti substantif, analis data dan siapa pun yang meninjau hasilnya (baik itu bos berambut runcing, komite disertasi, editor jurnal atau siapa pun). Anehnya, bahkan para akademisi tampaknya menolak pemikiran semacam ini.
Untuk lebih lanjut tentang pandangan saya, berikut adalah artikel yang saya tulis yang dipublikasikan di Sciences360.
sumber
Bidang ilmu statistik telah menangani masalah ini sejak awal. Saya terus mengatakan peran ahli statistik adalah untuk memastikan bahwa tingkat kesalahan tipe 1 tetap tetap. Ini menyiratkan bahwa risiko membuat kesimpulan positif palsu tidak dapat dihilangkan, tetapi dapat dikendalikan. Ini harus menarik perhatian kita pada volume yang sangat besar dari penelitian ilmiah yang dilakukan daripada menuju filosofi dan etika praktik statistik umum. Untuk setiap hasil (luar biasa) luar biasa yang muncul di media (atau dalam kebijakan pemerintah) setidaknya 19 hasil tak terduga lainnya ditembak jatuh untuk temuan nol mereka.
Memang, jika Anda pergi ke, katakanlah, clinicaltrials.gov, Anda akan mengamati ada (untuk hampir semua indikasi penyakit) lebih dari 1.000 uji klinis untuk agen farmasi yang sedang berlangsung di AS saat ini. Itu berarti, bahwa dengan tingkat kesalahan positif palsu 0,001, rata-rata setidaknya 1 obat akan diletakkan di rak yang tidak memiliki efek. Validitas 0,05 sebagai ambang batas yang divalidasi untuk signifikansi statistik telah ditantang berulang kali. Ironisnya, hanya para ahli statistik yang merasa tidak nyaman dengan menggunakan tingkat kesalahan positif palsu 1/20 sedangkan para pemangku kepentingan keuangan (baik mereka PI, atau Merck) akan mengejar kepercayaan dengan kuat terlepas dari hasil in-vitro, bukti teoretis, atau kekuatan bukti sebelumnya. Secara jujur, bahwa kegigihan adalah kualitas pribadi yang sukses dan terpuji dari banyak individu yang berhasil dalam peran non-statistik. Mereka umumnya duduk di atas ahli statistik, dalam totem masing-masing, yang cenderung memanfaatkan keuletan itu.
Saya pikir kutipan waktu yang Anda ajukan benar-benar salah. Kekuatan adalah probabilitas untuk menolak hipotesis nol mengingat itu salah. Ini lebih penting tergantung pada seberapa tepatnya "salah" hipotesis nol itu (yang pada gilirannya tergantung pada ukuran efek yang dapat diukur). Saya jarang berbicara tentang kekuatan di luar konteks efek yang kita anggap "menarik" untuk dideteksi. (misalnya, kelangsungan hidup 4 bulan setelah pengobatan kemoterapi kanker pankreas stadium 4 tidak menarik, maka tidak ada alasan untuk merekrut 5.000 orang untuk uji coba fase 3).
Untuk menjawab pertanyaan yang Anda ajukan
???
Multiplisitas sulit karena tidak mengarah pada aturan keputusan yang jelas tentang bagaimana menangani data. Sebagai contoh, misalkan kita tertarik pada tes sederhana dari perbedaan rata-rata. Terlepas dari protes tak terbatas dari kolega saya, mudah untuk menunjukkan uji-t yang dikalibrasi dengan baik untuk mendeteksi perbedaan rata-rata terlepas dari distribusi sampel data. Misalkan kita secara berurutan mengejar jalan mereka. Mereka akan mulai dengan menguji normalitas menggunakan beberapa varian dari tes distribusi terkenal (katakanlah kalibrasi qqplot). Jika data muncul cukup tidak normal, mereka kemudian akan bertanya apakah data mengikuti transformasi yang diketahui, dan kemudian menerapkan transformasi Box Cox untuk menentukan transformasi daya (mungkin logaritmik) yang memaksimalkan entropi. Jika nilai numerik yang jelas muncul, mereka akan menggunakan transformasi itu. Jika tidak, mereka akan menggunakan tes Wilcoxon "bebas distribusi". Untuk urutan peristiwa khusus ini, saya tidak bisa mulai berharap bagaimana menghitung kalibrasi dan kekuatan untuk uji sederhana perbedaan rata-rata ketika uji-t sederhana dan bodoh sudah mencukupi. Saya menduga tindakan bodoh seperti ini dapat dikaitkan secara matematis dengan estimasi supereisien Hodge: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kami inginkan benar. Meskipun demikian, proses ini adalah Estimasi supereisien: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kita inginkan benar. Meskipun demikian, proses ini adalah Estimasi supereisien: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kita inginkan benar. Meskipun demikian, proses ini adalahbukan statistik karena tingkat kesalahan positif palsu belum dikontrol.
Konsep bahwa tren dapat "ditemukan" secara keliru dalam set data acak apa pun mungkin ditelusuri kembali ke artikel yang ditulis dengan baik oleh Martin yang disebut "Grid Statistik Munchaesen" . Ini adalah bacaan yang sangat mencerahkan dan berasal dari tahun 1984 sebelum anak lembu emas pembelajaran mesin lahir bagi kita seperti yang kita ketahui sekarang. Memang, hipotesis yang dinyatakan dengan benar dapat dipalsukan, tetapi kesalahan tipe 1 telah berkembang menjadi jauh lebih mahal dalam masyarakat yang didorong oleh data kami daripada sebelumnya. Pertimbangkan, misalnya, bukti palsu dari penelitian anti-vaksin yang telah menyebabkan serangkaian besar kematian pertusis. Hasil yang menolak defenestrasi publik vaksin dikaitkan dengan satu studi(yang, meskipun salah, tidak dikonfirmasi oleh penelitian eksternal). Ada dorongan etis untuk melakukan hasil dan melaporkan kekuatan bukti yang jujur. Seberapa kuat bukti? Ini tidak ada hubungannya dengan nilai-p yang Anda peroleh, tetapi nilai-p yang Anda katakan akan signifikan. Dan ingat, memalsukan data Anda mengubah nilai p, bahkan ketika tes konfirmasi akhir melaporkan sesuatu yang berbeda (seringkali jauh lebih kecil).
IYA! Anda dapat dengan jelas melihat dalam meta-analisis yang diterbitkan oleh jurnal seperti laporan Cochrane bahwa distribusi hasil tes terlihat lebih bimodal daripada noraml, dengan hanya hasil positif dan negatif yang menjadikannya sebagai jurnal. Bukti ini benar-benar gila dan membingungkan bagi siapa pun dalam praktik klinis. Sebaliknya, jika kami mempublikasikan hasil nol (yang berasal dari penelitian yang hasilnya menarik bagi kami, terlepas dari apa hasilnya ), maka kami dapat mengharapkan meta-analisis untuk benar-benar mewakili bukti yang bermakna dan representatif.
sumber
Pertama, saya bukan seorang ahli statistik, hanya seorang peneliti yang telah melihat ke dalamnya banyak beberapa tahun terakhir untuk mencari tahu mengapa metode yang saya amati digunakan di sekitar saya sangat kurang dan mengapa ada begitu banyak kebingungan tentang konsep dasar seperti "apa adalah nilai p? " Saya akan memberikan perspektif saya.
Kekuatan adalah fungsi θ, varians, dan ukuran sampel. Saya tidak yakin apa kebingungannya. Juga untuk banyak kasus di mana pengujian signifikansi digunakan hipotesis nol mean1 = mean2 selalu salah. Dalam kasus ini signifikansi hanya fungsi ukuran sampel. Tolong baca "Teori-Pengujian dalam Psikologi dan Fisika: Sebuah Paradoks Metodologis" karya Paul Meehl " ini mengklarifikasi banyak hal bagi saya dan saya belum pernah melihat respons yang memadai. Paul Meehl memiliki beberapa makalah lain tentang ini yang dapat Anda temukan dengan mencari namanya.
Jika Anda membaca makalah Simmons 2011, ini hanya salah satu dari teknik "peretasan" yang disebutkan. Jika benar bahwa hanya ada satu set data dan tidak ada yang mengambil sampel selektif dari itu maka saya kira tidak ada ruang untuk meningkatkan ukuran sampel.
Jika replikasi terjadi tanpa bias publikasi maka tidak perlu untuk "jurnal hasil nol". Saya akan mengatakan bagian pemeriksaan ketahanan baik untuk dimiliki tetapi tidak cukup di hadapan peneliti gagal untuk mempublikasikan apa yang mereka anggap hasil nol. Juga saya tidak akan menganggap hasil yang kuat hanya karena beberapa teknik analisis pada data yang sama sampai pada kesimpulan yang sama. Hasil yang kuat adalah hasil yang membuat prediksi efek / korelasi / dll yang benar pada data baru .
Replikasi tidak mendapatkan p <0,05 kedua kali. Teori harus dianggap lebih kuat jika diprediksi memiliki efek / korelasi / dll yang berbeda daripada yang digunakan dalam penelitian pertama. Saya tidak merujuk pada adanya efek atau korelasi, tetapi nilai yang tepat atau rentang nilai yang kecil dibandingkan dengan rentang nilai yang mungkin. Kehadiran peningkatan / penurunan efek atau korelasi positif / negatif adalah 100% kemungkinan benar dalam kasus hipotesis nol menjadi salah. Baca Meehl.
Sains tidak dapat berfungsi dengan baik jika peneliti gagal mempublikasikan hasil nol. Juga hanya karena pola itu tidak ditemukan dalam sampel / pengaturan kedua tidak berarti itu tidak ada di bawah kondisi penelitian awal.
Ini akan menjadi meta-analisis . Tidak ada yang istimewa tentang hasil nol dalam kasus ini selain bahwa peneliti tidak mempublikasikannya karena nilai p berada di atas ambang batas arbitrer. Di hadapan bias publikasi meta-analisis tidak dapat diandalkan seperti halnya seluruh literatur yang menderita bias publikasi. Meskipun bisa bermanfaat, analisis meta jauh lebih rendah untuk menilai suatu teori daripada membuat teori itu membuat prediksi yang tepat yang kemudian diuji. Bias publikasi hampir tidak penting selama prediksi baru berjalan dan direplikasi oleh kelompok independen.
sumber
Saya akan mengatakannya sebagai pengujian hipotesis nol benar-benar hanya tentang hipotesis nol. Dan umumnya, hipotesis nol biasanya bukan yang menarik, dan bahkan mungkin bukan "status quo" - terutama dalam jenis regresi pengujian hipotesis. Seringkali dalam ilmu sosial tidak ada status quo, sehingga hipotesis nol bisa sangat sewenang-wenang. Ini membuat perbedaan besar pada analisis, karena titik awalnya tidak ditentukan, sehingga penelitian yang berbeda dimulai dengan hipotesis nol yang berbeda, kemungkinan besar didasarkan pada data apa pun yang mereka miliki. Bandingkan ini dengan sesuatu seperti hukum gerak Newton - masuk akal untuk menganggap ini sebagai hipotesis nol, dan mencoba menemukan teori yang lebih baik dari titik awal ini.
Selain itu, nilai-p tidak menghitung probabilitas yang benar - kami tidak ingin tahu tentang probabilitas ekor, kecuali hipotesis alternatif lebih mungkin ketika Anda bergerak lebih jauh ke dalam ekor. Yang benar-benar Anda inginkan adalah seberapa baik teori tersebut memprediksi apa yang sebenarnya dilihat. Sebagai contoh, misalkan saya memperkirakan bahwa ada kemungkinan 50% "hujan ringan", dan pesaing saya memperkirakan bahwa ada peluang 75%. Ini ternyata benar, dan kami mengamati mandi ringan. Sekarang ketika memutuskan orang cuaca mana yang benar, Anda tidak boleh memberikan prediksi saya kredit tambahan karena juga memberi peluang 40% "badai petir", atau mengambil kredit dari pesaing saya karena memberi "badai petir" peluang 0%.
Ada contoh empiris yang terkenal dan mudah disalahpahami tentang hal ini di mana koin dilemparkan kali dan jumlah kepala adalah 52 ,104,490,000 52,263,471 y∼Bin(n,0.5) y|θ∼Bin(n,θ) θ∼U(0,1) y∼BetaBin(n,1,1)∼DU(0,…,n) p=0.00015
Ini terutama benar untuk contoh yang dikritik Gelman - hanya ada satu hipotesis yang diuji, dan tidak banyak pemikiran yang masuk ke a) apa penjelasan alternatif itu (terutama pada perancu dan efek yang tidak dikendalikan), b) berapa banyak alternatif yang didukung oleh penelitian sebelumnya, dan yang paling penting, c) prediksi apa yang mereka buat (jika ada) yang secara substansial berbeda dari nol?
Poin utama untuk menekankan adalah bahwa suatu hipotesis tidak akan pernah bisa ada dalam isolasi terhadap alterantives. Karena, setelah menentukan teori / model , Anda selalu dapat menambahkan hipotesis baru H K + 1 = Sesuatu yang lain belum dipikirkanK
sumber