Artikel ini " The Odds, Continuous Updated" dari NY Times kebetulan menarik perhatian saya. Singkatnya, ini menyatakan itu
[Statistik Bayesian] terbukti sangat berguna dalam mendekati masalah kompleks, termasuk pencarian seperti yang digunakan Coast Guard pada 2013 untuk menemukan nelayan yang hilang, John Aldridge (meskipun tidak, sejauh ini, dalam perburuan untuk Malaysia Airlines Penerbangan 370) .. ......, statistik Bayesian beriak melalui segala hal mulai dari fisika hingga penelitian kanker, ekologi hingga psikologi ...
Dalam artikel tersebut, ada juga beberapa kritik tentang nilai-p frequentist, misalnya:
Hasil biasanya dianggap "signifikan secara statistik" jika nilai-p kurang dari 5 persen. Tetapi ada bahaya dalam tradisi ini, kata Andrew Gelman, seorang profesor statistik di Columbia. Bahkan jika para ilmuwan selalu melakukan perhitungan dengan benar - dan mereka tidak melakukannya, dia berpendapat - menerima semuanya dengan nilai p 5 persen berarti bahwa satu dari 20 hasil "signifikan secara statistik" tidak lain hanyalah suara acak.
Selain di atas, mungkin makalah yang paling terkenal yang mengkritik nilai-p adalah ini - "Metode ilmiah: Kesalahan statistik" oleh Regina Nuzzo dari Nature , di mana banyak masalah ilmiah yang diangkat oleh pendekatan nilai-p telah dibahas, seperti masalah kemampuan reproduksi, peretasan nilai-p, dll.
Nilai P, 'standar emas' dari validitas statistik, tidak dapat diandalkan seperti yang diasumsikan oleh banyak ilmuwan. ...... Mungkin kekeliruan terburuk adalah jenis penipuan diri sendiri yang oleh psikolog Uri Simonsohn dari University of Pennsylvania dan rekan-rekannya telah mempopulerkan istilah P-hacking; itu juga dikenal sebagai pengerukan data, pengintaian, penangkapan ikan, pengejaran signifikan dan pencelupan ganda. “Peretasan,” kata Simonsohn, “sedang mencoba banyak hal sampai Anda mendapatkan hasil yang diinginkan” - bahkan tanpa disadari. ...... "Temuan itu tampaknya telah diperoleh melalui p-hacking, penulis menjatuhkan salah satu syarat sehingga nilai-p keseluruhan akan kurang dari 0,05", dan "Dia adalah p-hacker, dia selalu memonitor data saat sedang dikumpulkan. ”
Hal lain adalah plot yang menarik sebagai berikut dari sini , dengan komentar tentang plot:
Tidak peduli seberapa kecil efek Anda, Anda selalu dapat melakukan kerja keras mengumpulkan data untuk melewati ambang p <.05. Selama efek yang Anda pelajari tidak ada, nilai-p hanya mengukur seberapa banyak upaya yang Anda lakukan untuk mengumpulkan data.
Dengan semua hal di atas, pertanyaan saya adalah:
Apa argumen Andrew Gelman, dalam kutipan blok kedua, tepatnya? Mengapa dia menafsirkan nilai 5-persen sebagai "satu dari 20 hasil yang signifikan secara statistik mencatat tetapi suara acak"? Saya tidak yakin karena bagi saya p-value digunakan untuk membuat kesimpulan pada satu studi tunggal. Maksudnya tampaknya terkait dengan beberapa pengujian.
Pembaruan: Periksa blog Andrew Gelman tentang ini: Tidak, saya tidak mengatakan itu! (Kredit ke @Scortchi, @whuber).
Mengingat kritik tentang p-nilai, dan juga mengingat ada banyak kriteria informasi, seperti AIC, BIC, Mallow untuk mengevaluasi signifikansi model (maka variabel), seharusnya kita tidak menggunakan p-value untuk seleksi variabel di semua kecuali menggunakan kriteria pemilihan model itu?
- Adakah pedoman praktis yang baik untuk menggunakan nilai-p untuk analisis statistik yang dapat menghasilkan hasil penelitian yang lebih andal?
Apakah kerangka pemodelan Bayesian cara yang lebih baik untuk mengejar, karena beberapa ahli statistik menganjurkan? Secara khusus, akankah pendekatan Bayesian lebih mungkin menyelesaikan penemuan yang salah atau memanipulasi masalah data? Saya tidak yakin di sini juga karena prior sangat subjektif dalam pendekatan Bayesian. Adakah penelitian praktis dan terkenal yang menunjukkan pendekatan Bayesian lebih baik daripada nilai-p frequentist, atau setidaknya dalam beberapa kasus tertentu?
Pembaruan: Saya akan sangat tertarik pada apakah ada kasus bahwa pendekatan Bayesian lebih dapat diandalkan daripada pendekatan p-value frequentist. Dengan "dapat diandalkan", maksud saya pendekatan Bayesian cenderung untuk memanipulasi data untuk hasil yang diinginkan. Ada saran?
Pembaruan 6/9/2015
Hanya memperhatikan berita, dan berpikir akan lebih baik untuk meletakkannya di sini untuk diskusi.
Jurnal psikologi melarang nilai-nilai P.
Sebuah uji statistik kontroversial akhirnya menemui akhirnya, setidaknya dalam satu jurnal. Awal bulan ini, para editor Psikologi Sosial Dasar dan Terapan (BASP) mengumumkan bahwa jurnal tidak akan lagi menerbitkan makalah yang mengandung nilai P karena statistik terlalu sering digunakan untuk mendukung penelitian berkualitas rendah.
Seiring dengan makalah baru-baru ini, "Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi" dari Nature , tentang nilai P.
Perbarui 5/8/2016
Kembali pada bulan Maret, American Statistics Association (ASA) merilis pernyataan tentang signifikansi statistik dan nilai-p, ".... Pernyataan ASA dimaksudkan untuk mengarahkan penelitian ke era 'pasca p <0,05.'"
Pernyataan ini berisi 6 prinsip yang membahas penyalahgunaan nilai-p:
- Nilai-P dapat menunjukkan seberapa tidak kompatibelnya data dengan model statistik yang ditentukan.
- Nilai-P tidak mengukur probabilitas bahwa hipotesis yang diteliti itu benar, atau probabilitas bahwa data dihasilkan oleh kebetulan acak saja.
- Kesimpulan ilmiah dan keputusan bisnis atau kebijakan tidak boleh hanya didasarkan pada apakah nilai-p melewati ambang tertentu.
- Inferensi yang tepat membutuhkan pelaporan dan transparansi penuh.
- Nilai p, atau signifikansi statistik, tidak mengukur ukuran efek atau pentingnya hasil.
- Dengan sendirinya, nilai-p tidak memberikan ukuran bukti yang baik mengenai model atau hipotesis.
Detail: "Pernyataan ASA tentang nilai-p: konteks, proses, dan tujuan" .
sumber
Jawaban:
Berikut ini beberapa pemikiran:
sumber
Bagi saya, salah satu hal yang paling menarik tentang kontroversi p-hacking adalah bahwa seluruh sejarah p <= 0,05 sebagai standar "sekali dalam bulan biru" untuk signifikansi statistik, seperti yang dicatat Joseph Kaldane dalam artikel JASA pada statistik forensik. kembali tahun 90-an, sama sekali tidak bersandar pada teori statistik sama sekali. Ini adalah konvensi, heuristik sederhana dan aturan praktis yang dimulai dengan RA Fisher dan sejak itu telah ditata ulang atau disucikan menjadi status "tidak dipertanyakan" saat ini. Baik Bayesian atau tidak, waktunya sudah lama tertunda untuk menantang standar metrik ini atau setidaknya memberinya skeptisisme yang pantas.
Yang mengatakan, interpretasi saya tentang poin Gelman adalah bahwa, seperti yang diketahui, proses peer review menghargai signifikansi statistik positif dan menghukum hasil yang tidak signifikan dengan tidak menerbitkan makalah tersebut. Ini terlepas dari apakah atau tidak menerbitkan temuan yang tidak signifikan akan berpotensi berdampak besar pada pemikiran dan berteori untuk domain tertentu. Gelman, Simonshohn dan yang lainnya telah berulang kali menunjuk pada penyalahgunaan tingkat signifikansi 0,05 dalam penelitian yang ditinjau oleh rekan sejawat dan dipublikasikan dengan mengangkat contoh temuan konyol, namun signifikan secara statistik dalam penelitian paranormal, sosial dan psikologis. Salah satu yang paling mengerikan adalah temuan yang signifikan secara statistik bahwa wanita hamil lebih cenderung mengenakan gaun merah. Gelman menyatakan bahwa, dengan tidak adanya tantangan logis untuk hasil statistik,penjelasan yang berpotensi tidak berarti. Di sini, ia merujuk pada bahaya pekerjaan industri dengan argumen teknis dan muslihat yang terlalu banyak, yang hanya sedikit atau tidak melakukan apa pun untuk memajukan perdebatan di kalangan audiens awam.
Ini adalah poin yang dibuat Gary King dengan penuh semangat ketika dia secara praktis memohon para ilmuwan politik kuantitatif (dan, selanjutnya, semua pertanyaan) untuk menghentikan mekanistik, reportase teknis seperti "hasil ini signifikan pada p <0,05 level" dan bergerak ke arah interpretasi yang lebih substantif . Berikut kutipan dari makalah yang ditulisnya,
Poin King diambil dengan sangat baik dan memetakan arah perdebatan yang perlu diambil.
Memaksimalkan Analisis Statistik: Meningkatkan Interpretasi dan Presentasi , King, Tomz dan Wittenberg, 2002, Am Jour dari Poli Sci .
sumber
Berikut adalah beberapa pemikiran saya mengenai Pertanyaan 3 setelah membaca semua komentar dan jawaban yang mendalam.
Mungkin satu petunjuk praktis dalam analisis statistik untuk menghindari peretasan nilai-p adalah dengan melihat ukuran efek signifikan / bermakna secara ilmiah (atau, secara biologis, klinis, dll).
Selain itu, untuk menghindari penggunaan ukuran sampel terlalu besar untuk mendeteksi efek, ukuran sampel yang diperlukan juga harus diperhitungkan. Artinya, kita harus memberi batasan pada ukuran sampel maksimum yang digunakan untuk percobaan.
Untuk menyimpulkan,
Dengan di atas, mungkin karena itu kita dapat menghindari efek "signifikan" kecil yang diklaim oleh ukuran sampel yang sangat besar.
[Pembaruan 6/9/2015]
Mengenai Pertanyaan 3, berikut adalah beberapa saran berdasarkan pada makalah baru - baru ini dari alam: "Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi" seperti yang saya sebutkan di bagian Pertanyaan.
[Akhiri pembaruan 6/9/2015]
sumber
Ini menyiratkan bahwa hasil 1/20 dapat menolak nol ketika seharusnya tidak. Jika sains mendasarkan kesimpulannya pada percobaan tunggal maka pernyataan itu akan dapat dipertahankan. Jika tidak, jika percobaan dapat diulangi maka itu menyiratkan bahwa 19/20 tidak akan ditolak. Moral dari cerita ini adalah eksperimen harus dapat diulang.
Ilmu pengetahuan adalah tradisi yang didasarkan pada "objektivitas" sehingga "probabilitas obyektif" secara alami menarik. Ingatlah bahwa eksperimen seharusnya menunjukkan tingkat kontrol yang tinggi sering kali menggunakan desain blok dan pengacakan untuk mengendalikan faktor-faktor di luar penelitian. Dengan demikian, perbandingan dengan acak memang masuk akal karena semua faktor lain seharusnya dikontrol kecuali untuk faktor-faktor yang diteliti. Teknik-teknik ini sangat berhasil di bidang pertanian dan industri sebelum diangkut ke ilmu pengetahuan.
Saya tidak yakin apakah kurangnya informasi benar-benar menjadi masalah. Perlu dicatat bahwa bagi banyak orang dalam ilmu non-matematika bahwa statistik hanyalah sebuah kotak untuk dicentang.
Saya sarankan membaca umum tentang teori keputusan yang menyatukan dua kerangka kerja. Ini hanya karena menggunakan informasi sebanyak yang Anda miliki. Statistik Frequentist mengasumsikan parameter dalam model memiliki nilai yang tidak diketahui dari distribusi tetap. Bayesian menganggap parameter dalam model berasal dari distribusi yang dikondisikan oleh apa yang kita ketahui. Jika ada cukup informasi untuk membentuk informasi sebelum dan cukup untuk memperbaruinya ke posterior yang akurat maka itu hebat. Jika tidak ada maka Anda mungkin berakhir dengan hasil yang lebih buruk.
sumber
Reproduksibilitas hasil uji statistik
Ini adalah latihan singkat dan sederhana untuk menilai reproduksibilitas keputusan berdasarkan pengujian statistik.
Pertimbangkan hipotesis nol H0 dengan seperangkat hipotesis alternatif yang mengandung H1 dan H2. Menyiapkan prosedur uji hipotesis statistik pada tingkat signifikansi 0,05 untuk memiliki kekuatan 0,8, jika H1 benar. Lebih lanjut berasumsi bahwa kekuatan untuk H2 adalah 0,5. Untuk menilai reproduktifitas hasil pengujian, percobaan dianggap melaksanakan prosedur pengujian dua kali. Dimulai dengan situasi, di mana H0 benar, probabilitas untuk hasil percobaan bersama ditampilkan pada Tabel 1. Probabilitas tidak dapat mereproduksi keputusan adalah 0,095.
Tabel 1. Frekuensi, jika H0 benarFrekuensi berubah ketika keadaan sebenarnya berubah. Dengan asumsi H1 adalah benar, H0 dapat ditolak karena dirancang dengan kekuatan 0,8. Frekuensi yang dihasilkan untuk hasil yang berbeda dari percobaan bersama ditampilkan pada Tabel 2. Probabilitas tidak dapat mereproduksi keputusan adalah 0,32.
Tabel 2. Frekuensi, jika H1 benarDengan asumsi H2 benar, H0 akan ditolak dengan probabilitas 0,5. Frekuensi yang dihasilkan untuk hasil yang berbeda dari percobaan bersama ditampilkan pada Tabel 3. Probabilitas tidak dapat mereproduksi keputusan adalah 0,5.
Tabel 3. Frekuensi, jika H2 benarProsedur pengujian dirancang untuk mengontrol kesalahan tipe I (penolakan hipotesis nol meskipun itu benar) dengan probabilitas 0,05 dan batas kesalahan tipe II (tidak ada penolakan terhadap hipotesis nol meskipun itu salah dan H1 benar) ke 0,2. Untuk kedua kasus, dengan H0 atau H1 dianggap benar, ini mengarah ke frekuensi yang tidak dapat diabaikan, masing-masing 0,095 dan 0,32, dari keputusan "tidak dapat direproduksi", "bertentangan", jika percobaan yang sama diulang dua kali. Situasi semakin memburuk dengan frekuensi hingga 0,5 untuk keputusan "tidak dapat direproduksi", "bertentangan", jika keadaan sebenarnya adalah antara nol- dan hipotesis alternatif yang digunakan untuk merancang percobaan.
Situasi juga bisa menjadi lebih baik - jika kesalahan tipe 1 dikendalikan lebih ketat, atau jika keadaan sebenarnya jauh dari nol, yang menghasilkan kekuatan untuk menolak nol yang mendekati 1.
Dengan demikian, jika Anda menginginkan keputusan yang lebih dapat direproduksi, tingkatkan tingkat signifikansi dan kekuatan tes Anda. Tidak terlalu mencengangkan ...
sumber