Kami telah memiliki beberapa utas yang ditandai sebagai nilai-p yang mengungkapkan banyak kesalahpahaman tentangnya. Sepuluh bulan yang lalu kami memiliki thread tentang jurnal psikologis yang "dilarang" -valuesp , sekarang Amerika statistik Association (2016) mengatakan bahwa dengan analisis kita "tidak harus diakhiri dengan perhitungan dari -nilai".
American Statistics Association (ASA) percaya bahwa komunitas ilmiah dapat mengambil manfaat dari pernyataan formal yang mengklarifikasi beberapa prinsip yang disepakati secara luas yang mendasari penggunaan yang tepat dan interpretasi nilai- .
Komite mencantumkan pendekatan lain sebagai alternatif atau suplemen yang memungkinkan untuk nilai- :
Mengingat penyalahgunaan yang lazim dan kesalahpahaman tentang nilai- , beberapa ahli statistik lebih memilih untuk menambah atau bahkan mengganti nilai- dengan pendekatan lain. Ini termasuk metode yang menekankan pada estimasi pengujian, seperti kepercayaan, kredibilitas, atau interval prediksi; Metode Bayesian; ukuran alternatif bukti, seperti rasio kemungkinan atau Faktor Bayes; dan pendekatan lainnya seperti pemodelan teoritik keputusan dan tingkat penemuan yang salah. Semua tindakan dan pendekatan ini bergantung pada asumsi lebih lanjut, tetapi mereka mungkin lebih langsung membahas ukuran efek (dan ketidakpastian yang terkait) atau apakah hipotesis itu benar.p
Jadi mari kita bayangkan realitas post- -values. ASA mendaftar beberapa metode yang dapat digunakan sebagai ganti nilai- , tetapi mengapa mereka lebih baik? Manakah dari mereka yang bisa menjadi pengganti kehidupan nyata bagi seorang peneliti yang menggunakan nilai untuk seluruh hidupnya? Saya membayangkan bahwa pertanyaan-pertanyaan semacam ini akan muncul dalam realitas post- -values, jadi mungkin mari kita coba selangkah di depan mereka. Apa alternatif yang masuk akal yang dapat diterapkan di luar kotak? Mengapa pendekatan ini harus meyakinkan peneliti utama, editor, atau pembaca Anda?p p p
Seperti yang disarankan oleh entri blog tindak lanjut ini , nilai- tidak terkalahkan dalam kesederhanaannya:
Nilai-p hanya membutuhkan model statistik untuk perilaku suatu statistik berdasarkan hipotesis nol untuk dipegang. Bahkan jika model hipotesis alternatif digunakan untuk memilih statistik "baik" (yang akan digunakan untuk membangun nilai-p), model alternatif ini tidak harus benar agar nilai-p menjadi valid dan berguna (yaitu: kontrol tipe I kesalahan pada tingkat yang diinginkan sambil menawarkan kekuatan untuk mendeteksi efek nyata). Sebaliknya, metode statistik lainnya (luar biasa dan berguna) seperti rasio kemungkinan, estimasi ukuran efek, interval kepercayaan, atau metode Bayesian semua membutuhkan model yang diasumsikan untuk menampung berbagai situasi yang lebih luas, tidak hanya di bawah nol yang diuji.
Apakah mereka, atau mungkin itu tidak benar dan kita dapat dengan mudah menggantinya?
Saya tahu, ini luas, tetapi pertanyaan utamanya sederhana: apa yang terbaik (dan mengapa), alternatif kehidupan nyata dari nilai- yang dapat digunakan sebagai pengganti?
ASA (2016). Pernyataan ASA tentang Signifikansi Statistik dan Nilai- . Ahli Statistik Amerika. (dalam pers)
Jawaban:
Saya akan memfokuskan jawaban ini pada pertanyaan spesifik tentang apa saja alternatif untuk nilai- .p
Ada 21 makalah diskusi yang diterbitkan bersama dengan pernyataan ASA (sebagai Bahan Tambahan): oleh Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark, dan Steve Ziliak (beberapa dari mereka menulis bersama ; Saya daftar semua untuk pencarian di masa depan). Orang-orang ini mungkin membahas semua pendapat yang ada tentang nilai- dan inferensi statistik.p
Saya telah memeriksa semua 21 makalah.
Sayangnya, sebagian besar dari mereka tidak membahas alternatif nyata apa pun, meskipun mayoritas tentang keterbatasan, kesalahpahaman, dan berbagai masalah lainnya dengan nilai- (untuk pertahanan nilai- , lihat Benjamini, Mayo, dan Senn). Ini sudah menunjukkan bahwa alternatif, jika ada, tidak mudah ditemukan dan / atau dipertahankan.pp p
Jadi mari kita lihat daftar "pendekatan lain" yang diberikan dalam pernyataan ASA itu sendiri (seperti dikutip dalam pertanyaan Anda):
Interval kepercayaan diri
Interval kepercayaan adalah alat yang sering berjalan seiring dengan nilai- ; melaporkan interval kepercayaan (atau yang setara, misalnya, mean standard error dari mean) bersama dengan -value hampir selalu merupakan ide yang baik.± pp ± p
Beberapa orang (tidak termasuk dalam ASA yang berselisih) menyarankan bahwa interval kepercayaan harus menggantikan nilai- . Salah satu pendukung paling vokal dari pendekatan ini adalah Geoff Cumming yang menyebutnya statistik baru (nama yang menurut saya mengerikan). Lihat misalnya posting blog ini oleh Ulrich Schimmack untuk kritik terperinci: Tinjauan Kritis Cumming's (2014) Statistik Baru: Reselling Statistik Lama sebagai Statistik Baru . Lihat juga Kami tidak mampu mempelajari ukuran efek di posting blog lab oleh Uri Simonsohn untuk poin terkait.p
Lihat juga utas ini (dan jawaban saya di dalamnya) tentang saran serupa oleh Norm Matloff di mana saya berpendapat bahwa ketika melaporkan CI seseorang masih ingin memiliki nilai dilaporkan juga: Apa yang merupakan contoh yang baik dan meyakinkan di mana p-nilai berguna?p
Namun, beberapa orang lain (tidak termasuk di antara yang berselisih ASA) berpendapat bahwa interval kepercayaan, sebagai alat yang sering dilakukan, sesat seperti nilai- dan juga harus dibuang. Lihat, misalnya, Morey et al. 2015, Kekeliruan Menempatkan Keyakinan dalam Interval Kepercayaan yang ditautkan oleh @Tim di komentar ini. Ini adalah perdebatan yang sangat lama.p
Metode Bayesian
(Saya tidak suka bagaimana pernyataan ASA merumuskan daftar. Interval kredibel dan faktor Bayes didaftar secara terpisah dari "metode Bayesian", tetapi mereka jelas alat Bayesian. Jadi saya menghitungnya bersama-sama di sini.)
Ada literatur besar dan sangat keras tentang perdebatan Bayesian vs. frequentist. Lihat, misalnya, utas baru-baru ini untuk beberapa pemikiran: Kapan (jika pernah) pendekatan yang sering secara substantif lebih baik daripada orang Bayes? Analisis Bayesian masuk akal jika seseorang memiliki prioror informatif yang baik, dan semua orang akan dengan senang hati menghitung dan melaporkan atau sebagai gantinya darip ( H 0 : θ = 0 | data ) p ( data setidaknya sama ekstrim | H 0 )p(θ|data) p(H0:θ=0|data) p(data at least as extreme|H0) —Tapi sayangnya, orang biasanya tidak memiliki prior yang baik. Eksperimen mencatat 20 tikus melakukan sesuatu dalam satu kondisi dan 20 tikus melakukan hal yang sama dalam kondisi lain; prediksi adalah bahwa kinerja tikus yang terdahulu akan melebihi kinerja tikus yang terakhir, tetapi tidak ada yang mau atau memang bisa menyatakan dengan jelas sebelum perbedaan kinerja. (Tapi lihat jawaban @ FrankHarrell di mana ia mengadvokasi menggunakan "priorors skeptis".)
Bayesian Die-hard menyarankan untuk menggunakan metode Bayes bahkan jika seseorang tidak memiliki prior informatif. Salah satu contoh baru-baru ini adalah Krushke, 2012, estimasi Bayes menggantikan uji-t , dengan rendah hati disingkat sebagai BEST. Idenya adalah untuk menggunakan model Bayesian dengan prior uninformative lemah untuk menghitung posterior untuk efek yang menarik (seperti, misalnya, perbedaan kelompok). Perbedaan praktis dengan penalaran yang sering nampaknya biasanya kecil, dan sejauh yang saya bisa lihat pendekatan ini tetap tidak populer. Lihat Apa yang dimaksud dengan "pemberitahuan sebelumnya"? Bisakah kita punya satu yang benar-benar tanpa informasi? untuk diskusi tentang apa yang "tidak informatif" (jawaban: tidak ada hal seperti itu, maka kontroversi).
Pendekatan alternatif, kembali ke Harold Jeffreys, didasarkan pada pengujian Bayesian (yang bertentangan dengan estimasi Bayesian ) dan menggunakan faktor Bayes. Salah satu pendukung yang lebih fasih dan produktif adalah Eric-Jan Wagenmakers, yang telah banyak menerbitkan topik ini dalam beberapa tahun terakhir. Dua fitur pendekatan ini patut ditekankan di sini. Pertama, lihat Wetzels et al., 2012, Tes Hipotesis Bayesian Default untuk Desain ANOVA untuk ilustrasi seberapa kuat hasil tes Bayesian dapat bergantung pada pilihan spesifik dari hipotesis alternatif pH1 dan distribusi parameter ("prior") yang ada. Kedua, setelah "masuk akal" sebelumnya dipilih (Wagenmakers mengiklankan apa yang disebut priors "default" Jeffreys), sehingga faktor Bayes sering berubah menjadi cukup konsisten dengan nilai- standar , lihat misalnya angka ini dari pracetak ini oleh Marsman & Pembuat Wagen :p
Jadi sementara Wagenmakers et al. tetap bersikeras bahwa nilai- sangat cacat dan faktor Bayes adalah cara untuk pergi, orang tidak bisa tidak bertanya-tanya ... (Agar adil, titik Wetzels et al. 2011 adalah bahwa untuk nilai- dekat dengan faktor Bayes saja menunjukkan bukti yang sangat lemah terhadap nol, tetapi perhatikan bahwa ini dapat dengan mudah ditangani dalam paradigma frequentist hanya dengan menggunakan lebih ketat , sesuatu yang banyak orang menganjurkan pula.) p 0,05 αp p 0.05 α
Salah satu makalah yang lebih populer oleh Wagenmakers et al. dalam membela faktor Bayes adalah 2011, Mengapa psikolog harus mengubah cara mereka menganalisis data mereka: Kasus psi di mana ia berpendapat bahwa makalah Bem yang terkenal tentang memprediksi masa depan tidak akan mencapai kesimpulan salah mereka jika saja mereka menggunakan faktor Bayes sebagai gantinya. nilai- . Lihat posting blog yang dipikirkan oleh Ulrich Schimmack ini untuk argumen balasan yang terperinci (dan IMHO meyakinkan): Mengapa Para Psikolog Tidak Harus Mengubah Cara Mereka Menganalisa Data Mereka: Iblis ada di dalam Default Default .p
Lihat juga The Default Bayesian Test adalah Prasangka Terhadap Efek Kecil dari posting blog oleh Uri Simonsohn.
Untuk kelengkapan, saya menyebutkan bahwa Wagenmakers 2007, Sebuah solusi praktis untuk masalah meresap -valuesp disarankan untuk menggunakan BIC sebagai sebuah pendekatan untuk faktor Bayes untuk menggantikan -values. BIC tidak tergantung pada sebelumnya dan karenanya, meskipun namanya, tidak benar-benar Bayesian; Saya tidak yakin apa yang harus dipikirkan tentang proposal ini. Tampaknya baru-baru ini pembuat Wagen lebih menyukai tes Bayesian dengan prior Jeffreys yang tidak informatif, lihat di atas.p
Untuk diskusi lebih lanjut tentang estimasi Bayes vs pengujian Bayesian, lihat estimasi parameter Bayesian atau pengujian hipotesis Bayesian? dan tautan di dalamnya.
Faktor Bayes minimum
Di antara para pihak yang berselisih ASA, ini secara eksplisit disarankan oleh Benjamin & Berger dan oleh Valen Johnson (satu-satunya dua makalah yang semuanya menyarankan alternatif konkret). Saran spesifik mereka sedikit berbeda tetapi mereka memiliki semangat yang sama.
Ide-ide dari Berger kembali ke Berger & Sellke 1987 dan ada sejumlah makalah oleh Berger, Sellke, dan kolaborator sampai tahun lalu menguraikan pekerjaan ini. Idenya adalah bahwa di bawah lonjakan dan lempengan sebelumnya di mana titik nol hipotesis mendapat probabilitas dan semua nilai lain dari mendapat probabilitas menyebar secara simetris sekitar ("alternatif lokal"), maka posterior minimal atas semua alternatif lokal, yaitu faktor Bayes minimal , jauh lebih tinggi daripada nilai . Ini adalah dasar dari klaim (yang banyak diperebutkan) ituμ=0 0.5 μ 0.5 0 p(H0) p p -nilai "melebih-lebihkan bukti" terhadap nol. Sarannya adalah menggunakan batas yang lebih rendah pada faktor Bayes untuk nilai nol, bukan nilai ; di bawah beberapa asumsi luas batas bawah ini ternyata diberikan oleh , yaitu, -value secara efektif dikalikan dengan yang merupakan faktor sekitar hingga untuk persamaan rentang -nilai. Pendekatan ini telah didukung oleh Steven Goodman juga.p −eplog(p) p −elog(p) 10 20 p
Pembaruan selanjutnya: Lihat kartun yang bagus yang menjelaskan ide-ide ini dengan cara yang sederhana.
Bahkan kemudian pembaruan: Lihat Dimiliki & Ott, 2018, On -Values dan Bayes Factorsp untuk tinjauan komprehensif dan analisis lebih lanjut dari mengkonversi nilai untuk faktor Bayes minimum. Berikut ini satu tabel dari sana:p
Valen Johnson menyarankan hal serupa dalam makalah PNAS 2013-nya ; sarannya kira-kira bermuara pada mengalikan nilai- dengan yaitu sekitar hingga .p −4πlog(p)−−−−−−−−−√ 5 10
Untuk kritik singkat terhadap makalah Johnson, lihat balasan Andrew Gelman's dan @ Xi'an di PNAS. Untuk pertentangan argumen dengan Berger & Sellke 1987, lihat Casella & Berger 1987 (Berger berbeda!). Di antara makalah diskusi APA, Stephen Senn berargumen secara eksplisit menentang salah satu dari pendekatan ini:
Lihat juga referensi di koran Senn, termasuk yang ada di blog Mayo.
Pernyataan ASA mencantumkan "pemodelan keputusan-teoritik dan tingkat penemuan yang salah" sebagai alternatif lain. Saya tidak tahu apa yang mereka bicarakan, dan saya senang melihat ini dinyatakan dalam makalah diskusi oleh Stark:
Saya sangat skeptis bahwa ada sesuatu yang dapat menggantikan nilai- dalam praktik ilmiah aktual sehingga masalah yang sering dikaitkan dengan nilai- (krisis replikasi, -hacking, dll.) Akan hilang. Prosedur keputusan tetap, misalnya satu Bayesian, mungkin dapat "hack" dalam cara yang sama seperti -values dapat -hacked (untuk beberapa diskusi dan demonstrasi ini melihat ini 2014 posting blog oleh Uri Simonsohn ).p p p p p
Mengutip dari makalah diskusi Andrew Gelman:
Dan dari Stephen Senn:
Dan di sini adalah bagaimana Cohen memasukkannya ke dalam makalahnya yang terkenal dan sangat banyak dikutip (kutipan 3.5k) 1994 Bumi itu bulat ( ) dip<0.05 mana ia berargumen dengan sangat kuat terhadap nilai- :p
sumber
Ini dua sen saya.
Saya berpikir bahwa pada titik tertentu, banyak ilmuwan terapan menyatakan "teorema" berikut:
dan sebagian besar praktik buruk datang dari sini.
Saya dulu bekerja dengan orang-orang yang menggunakan statistik tanpa benar-benar memahaminya dan ini adalah beberapa hal yang saya lihat:
Semua itu dilakukan oleh para ilmuwan yang fasih dan jujur dan tidak memiliki rasa kecurangan yang kuat. Mengapa IMHO, karena Teorema 1.
Kasus terkait lainnya adalah ketika para ahli ingin:
Menyebutkan hipotesis alternatif adalah satu-satunya solusi untuk menyelesaikan kasus ini.
Jadi dengan menggunakan peluang posterior, faktor Bayes atau rasio kemungkinan bersama dengan interval kepercayaan / kredibilitas tampaknya mengurangi masalah utama yang terlibat.
Salah tafsir umum dari value / interval kepercayaan adalah kelemahan yang relatif kecil (dalam praktiknya)p
Walaupun saya seorang penggemar Bayesian, saya benar-benar berpikir bahwa kesalahpahaman umum dari -value dan CI (yaitu -value bukan probabilitas bahwa hipotesis nol salah dan CI bukan interval yang berisi nilai parameter dengan 95). % kesempatan) bukan perhatian utama untuk pertanyaan ini (sementara saya yakin ini adalah poin utama dari sudut pandang filosofis). Pandangan Bayesian / Frequentist memiliki kedua jawaban yang relevan untuk membantu praktisi dalam "krisis" ini. pp p
Kesimpulan saya dua sen
Menggunakan interval yang kredibel dan faktor Bayes atau peluang posterior adalah apa yang saya coba lakukan dalam praktik saya dengan para ahli (tetapi saya juga antusias dalam rasio kemungkinan CI +). Saya datang ke statistik beberapa tahun yang lalu terutama dengan belajar sendiri dari web (terima kasih banyak kepada Cross Validated!) Dan tumbuh dengan banyak agitasi di sekitar nilai- . Saya tidak tahu apakah praktik saya bagus, tetapi secara pragmatis saya menemukan itu sebagai kompromi yang baik antara menjadi efisien dan membuat pekerjaan saya dengan benar.p
sumber
Kecuali untuk model linear Gaussian dan distribusi eksponensial, hampir semua yang kita lakukan dengan inferensi frequentist adalah perkiraan (contoh yang baik adalah model logistik biner yang menyebabkan masalah karena fungsi kemungkinan lognya sangat non-kuadratik). Dengan inferensi Bayesian, semuanya tepat dalam kesalahan simulasi (dan Anda selalu dapat melakukan lebih banyak simulasi untuk mendapatkan probabilitas posterior / interval kredibel).
Saya telah menulis akuntansi yang lebih rinci mengenai pemikiran dan evolusi saya di http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html
sumber
Seorang peramal Brilliant Scott Armstrong dari Wharton menerbitkan sebuah artikel hampir 10 tahun yang lalu berjudul Uji Signifikansi Membahayakan Kemajuan dalam Peramalan dalam jurnal internasional peramalan jurnal yang ia dirikan bersama. Meskipun ini dalam peramalan, ini dapat digeneralisasikan untuk analisis data atau pengambilan keputusan. Dalam artikel itu ia menyatakan bahwa:
Ini adalah bacaan yang sangat baik untuk setiap orang yang tertarik pada pandangan antitesis dari pengujian signifikansi dan nilai P.
Alasan mengapa saya suka artikel ini adalah karena Armstrong memberikan alternatif untuk pengujian signifikansi yang ringkas dan dapat dengan mudah dipahami terutama untuk non-ahli statistik seperti saya. Ini jauh lebih baik menurut saya daripada artikel ASA yang dikutip dalam pertanyaan:
Semuanya saya terus merangkul dan sejak itu berhenti menggunakan pengujian signifikansi atau melihat nilai-nilai P kecuali ketika saya melakukan studi eksperimental acak atau eksperimen semu. Saya harus menambahkan eksperimen acak sangat jarang dalam praktiknya kecuali dalam industri farmasi / ilmu kehidupan dan dalam beberapa bidang Teknik.
sumber
Kita perlu mengakhiri keputusan inferensi statistik teoretis. Kita harus berusaha untuk berpikir di luar hipotesis. Kesenjangan yang tumbuh antara utilitas klinis dan investigasi yang didorong oleh hipotesis membahayakan integritas ilmiah. Studi "signifikan" sangat sugestif tetapi jarang menjanjikan temuan klinis yang berarti.
Ini terbukti jika kita memeriksa atribut inferensi didorong hipotesis:
Bagi saya, alternatifnya ada pendekatan meta-analitik, setidaknya pendekatan kualitatif. Semua hasil harus diperiksa dengan teliti terhadap temuan dan perbedaan "serupa" lainnya yang dijelaskan dengan sangat hati-hati, terutama kriteria inklusi / eksklusi, unit atau skala yang digunakan untuk paparan / hasil, serta ukuran efek dan interval ketidakpastian (yang diringkas dengan CI 95% terbaik) ).
Kita juga perlu melakukan uji coba konfirmasi independen. Banyak orang terombang-ambing oleh satu percobaan yang tampaknya signifikan, tetapi tanpa replikasi kita tidak dapat percaya bahwa penelitian ini dilakukan secara etis. Banyak yang membuat karier ilmiah karena pemalsuan bukti.
sumber
Dua referensi dari literatur medis adalah (1) oleh Langman, MJS berjudul Menuju estimasi dan interval kepercayaan dan Gardner MJ dan Altman, DG berjudul Interval kepercayaan daripada nilai {P}: estimasi daripada pengujian hipotesis
sumber
Pilihan saya adalah terus menggunakan nilai p, tetapi hanya menambahkan interval kepercayaan / kredibel, dan mungkin untuk interval prediksi hasil primer. Ada buku yang sangat bagus dari Douglas Altman (Statistics with Confidence, Wiley), dan berkat pendekatan boostrap dan MCMC, Anda selalu dapat membangun interval yang cukup kuat.
sumber
Dengan segala cara ini tidak menghalangi pengujian signifikansi hipotesis normal, tetapi ini menggarisbawahi bahwa temuan signifikan secara statistik sangat awal, langkah perantara dalam perjalanan menuju penemuan nyata dan kita harus mengharapkan para peneliti untuk melakukan lebih banyak lagi dengan temuan mereka.
sumber