Konteks
Sekelompok ilmuwan sosial dan ahli statistik ( Benjamin et al., 2017 ) baru-baru ini menyarankan bahwa tingkat false-positive tipikal ( = .05) digunakan sebagai ambang batas untuk menentukan "signifikansi statistik" perlu disesuaikan dengan ambang batas yang lebih konservatif. ( = .005). Sekelompok ilmuwan sosial dan ahli statistik yang bersaing ( Lakens et al., 2018 ) telah merespons, dengan alasan menentang penggunaan ambang batas ini - atau yang lainnya - yang dipilih secara sewenang-wenang. Berikut ini adalah kutipan dari Lakens et al. (hal. 16) yang membantu mencontohkan pokok masalah dari pertanyaan saya:α
Idealnya, tingkat alfa ditentukan dengan membandingkan biaya dan manfaat terhadap fungsi utilitas menggunakan teori keputusan. Analisis biaya-manfaat ini (dan dengan demikian tingkat alfa) berbeda ketika menganalisis set data besar yang ada dibandingkan dengan mengumpulkan data dari sampel yang sulit diperoleh. Sains beragam, dan tergantung pada ilmuwan untuk membenarkan tingkat alfa yang mereka putuskan untuk digunakan. ... Penelitian harus dipandu oleh prinsip-prinsip ilmu pengetahuan yang ketat, bukan oleh heuristik dan ambang batas yang sewenang-wenang.
Pertanyaan
Saya bertanya-tanya bagaimana orang bisa membenarkan alpha yang dipilih dengan cara yang "dibimbing oleh prinsip-prinsip ilmu pengetahuan yang ketat", seperti Lakens et al. menyarankan, dalam sebagian besar konteks ilmu sosial (yaitu, di luar kasus-kasus tertentu di mana seseorang memiliki kualitas yang lebih konkret, seperti laba, untuk mengoptimalkan)?
Setelah penyebaran Lakens dkk., Saya mulai melihat kalkulator daring beredar untuk membantu para peneliti membuat keputusan ini. Ketika menggunakannya, para peneliti perlu menentukan "rasio biaya" dari kesalahan positif palsu dan negatif palsu. Namun, seperti kalkulator ini di sini menunjukkan, menentukan rasio biaya tersebut dapat melibatkan banyak kuantitatif menebak-kerja:
Sementara beberapa biaya kesalahan mudah dikuantifikasi dalam istilah moneter (biaya langsung), yang lain sulit untuk menempatkan jumlah dolar (biaya tidak langsung). ... Meskipun sulit untuk dikuantifikasi, Anda harus melakukan upaya untuk memberikan nomor kepada mereka.
Sebagai contoh, meskipun Lakens et al. menyarankan mempelajari sampel yang sulit dijangkau sebagai faktor yang dapat dipertimbangkan dalam membenarkan alpha, tampaknya seseorang masih menebak-nebak seberapa sulit mencapai sampel itu, dan dengan demikian, bagaimana menyesuaikan pemilihan alpha yang sesuai. Sebagai contoh lain, akan tampak sulit bagi saya untuk menghitung biaya penerbitan positif palsu, dalam hal berapa banyak waktu / uang yang kemudian akan dilakukan orang lain untuk melakukan penelitian berdasarkan kesimpulan yang salah.
Jika menentukan rasio biaya ini sebagian besar merupakan masalah perkiraan terbaik subjektif, saya bertanya-tanya apakah keputusan ini dapat (lagi, di luar mengoptimalkan sesuatu seperti laba) dapat "dibenarkan". Artinya, dengan cara yang ada di luar asumsi yang dibuat tentang pengambilan sampel, pengorbanan, dampak, dll.,? Dengan cara ini, bagi saya, menentukan rasio biaya kesalahan positif-palsu / negatif-negatif merupakan sesuatu yang mirip dengan memilih sebelumnya dalam inferensi Bayesian - keputusan yang bisa agak subyektif, memengaruhi hasil, dan karenanya diperdebatkan- - Meskipun saya tidak yakin itu perbandingan yang masuk akal.
Ringkasan
Untuk membuat pertanyaan saya konkret:
- Bisakah angka false-positive / false-negative dan rasio biayanya "bisa dibenarkan" dalam kebanyakan konteks ilmu sosial?
- Jika demikian, apa saja prinsip yang dapat digeneralisasikan yang dapat diikuti seseorang untuk membenarkan pilihan analitik ini (dan mungkin satu atau dua contoh dari mereka yang sedang beraksi)
- Jika tidak, apakah analogi saya tentang subjektivitas potensial dalam memilih rasio biaya - sebagai yang mirip dengan seleksi sebelumnya Bayesian - yang masuk akal?
Referensi
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Pembuat Wagen, E., ... Johnson, V. (2017, 22 Juli). Tetapkan ulang signifikansi statistik. Diperoleh dari psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Aplikasi, MA, ... Zwaan, RA (2018, 15 Januari). Ratakan Alfa Anda. Diperoleh dari psyarxiv.com/9s3y6
Jawaban:
(juga diposting di twitter, tetapi diposting kembali di sini) Upaya saya pada jawaban: Saya tidak berpikir pembenaran dapat menjadi tujuan "murni", tetapi dapat didasarkan pada kriteria yang dapat dipertahankan berdasarkan alasan rasional / empiris. Saya pikir RSS adalah contoh cara Anda dapat membenarkan p <0,005 untuk jenis penelitian tertentu, tetapi saya juga berpikir ada keadaan lain di mana alpha yang berbeda akan lebih optimal daripada <.005 (baik lebih tinggi atau lebih rendah) tergantung pada alfa apa yang layak dan apa tujuan dari penelitian ini. Jadi misalnya, jika Anda memiliki 5.000 peserta dan ukuran minat efek terkecil adalah 0,10, Anda mungkin ingin menggunakan p <0,001 dan memiliki kekuatan 90% (angka semuanya dibuat-buat). Sebaliknya, katakanlah Anda menjalankan eksperimen kecil sebagai “bukti konsep” awal untuk lini penelitian. Anda mungkin memiliki N = 100, p <.10, daya 90%,
sumber
Saya telah memikirkan pertanyaan yang sama belakangan ini, dan saya rasa banyak orang lain dalam psikologi juga.
Pertama, masing-masing pertanyaan Anda berhubungan dengan apakah suatu pilihan dibuat secara obyektif versus subyektif, tetapi (seperti yang telah dicatat orang lain di sini) Anda belum sepenuhnya menjelaskan apa yang merupakan (dalam pandangan Anda) pilihan obyektif versus subyektif.
Anda mungkin tertarik pada makalah Gelman & Hennig 2015 yang membongkar berbagai nilai yang terbungkus dalam penggunaan umum label "obyektif" dan "subyektif" dalam sains. Dalam perumusannya, "obyektif" berkaitan dengan nilai-nilai transparansi, konsensus, imparsialitas, dan korespondensi dengan realitas yang dapat diamati, sedangkan "subyektif" berhubungan dengan nilai-nilai dari berbagai perspektif dan ketergantungan konteks.
Terkait dengan Pertanyaan Anda 3, dalam pandangan Bayesian, probabilitas didefinisikan sebagai mengukur ketidakpastian tentang dunia. Dari apa yang saya pahami, ada ketegangan yang tampak di seluruh “subyektivis Bayesian” (probabilitas mencerminkan keadaan kepercayaan individu) dan aliran pemikiran “objektivis Bayesian” (probabilitas mencerminkan masuk akalnya konsensus). Di dalam sekolah objektivis, ada penekanan yang lebih kuat pada pembenaran distribusi sebelumnya (dan model lebih umum) secara transparan yang sesuai dengan konsensus dan yang dapat diperiksa, tetapi pilihan model tentu tergantung pada konteks (yaitu , tergantung pada status pengetahuan konsensus untuk masalah tertentu).
Dalam konsepsi frequentist, probabilitas mencerminkan berapa kali suatu peristiwa akan terjadi diberikan replikasi independen yang tak terbatas. Dalam kerangka kerja Neyman-Pearson, seseorang menetapkan hipotesis alternatif yang tepat dan alpha yang tepat, menerima nol yang tepat atau alternatif yang tepat (bahwa efek populasi persis sama dengan yang ditentukan) berdasarkan data, dan kemudian melaporkan frekuensi jangka panjang melakukan kesalahan.
Dalam kerangka kerja ini, kami jarang memiliki estimasi titik yang tepat dari ukuran efek populasi, melainkan rentang nilai yang masuk akal. Oleh karena itu, tergantung pada alfa yang diberikan, kami tidak memiliki perkiraan yang tepat dari tingkat kesalahan Tipe 2, melainkan kisaran tingkat kesalahan Tipe 2 yang masuk akal. Demikian pula, saya setuju dengan poin umum Anda bahwa kami biasanya tidak memiliki pengertian yang tepat mengenai biaya dan manfaat dari kesalahan Tipe 1 atau Tipe 2 yang sebenarnya. Berarti kita sering dihadapkan pada situasi di mana kita memiliki informasi yang sangat tidak lengkap tentang apa hipotesis kita seharusnya, dan bahkan lebih sedikit informasi tentang apa yang akan menjadi biaya dan manfaat relatif dari menerima vs menolak hipotesis ini.
untuk pertanyaan Anda:
Saya pikir begitu, bahwa pembenaran bisa transparan, dapat berbarengan dengan konsensus, bisa tidak memihak, dan dapat sesuai dengan kenyataan (sejauh kita menggunakan informasi terbaik yang tersedia tentang biaya dan manfaat).
Namun, saya berpikir bahwa pembenaran seperti itu juga subyektif, dalam hal itu bisa ada beberapa perspektif yang valid tentang bagaimana mengatur alpha untuk masalah yang diberikan, dan bahwa apa yang merupakan alpha yang tepat dapat bermakna tergantung konteks.
Sebagai contoh, dalam beberapa tahun terakhir, telah menjadi jelas bahwa banyak efek dalam literatur mencerminkan kesalahan Tipe M atau Tipe S. Mereka juga dapat mencerminkan kesalahan Tipe 1, sejauh studi replikasi mampu memberikan bukti untuk nol dengan efek nol.
Terkait dengan pengamatan ini, ada konsensus yang muncul bahwa ambang nilai p untuk klaim dengan kepastian harus dijaga agar tetap sama atau dibuat lebih ketat (yaitu, tidak ada yang memperdebatkan peningkatan selimut alfa menjadi 0,10 atau 0,20) . Demikian pula, ada konsensus yang muncul bahwa nilai p tidak boleh digunakan sebagai kriteria untuk publikasi (misalnya, format Laporan Terdaftar).
Bagi saya, ini mencerminkan semacam sumber informasi "obyektif" - yaitu, untuk bacaan saya ada konsensus yang berkembang bahwa klaim palsu mahal untuk bidang (bahkan jika kita tidak dapat menempatkan jumlah dolar pada biaya ini). Untuk bacaan saya, tidak ada konsensus yang jelas bahwa gagal memenuhi ambang batas p-value adalah biaya yang dramatis bagi lapangan. Jika ada biaya, biaya tersebut dapat dikurangi jika gagal memenuhi ambang batas p-value tidak memengaruhi apakah estimasi membuatnya menjadi makalah yang diterbitkan.
Saya tidak yakin, tetapi saya akan condong ke semacam prinsip bahwa keputusan harus dibuat berdasarkan penilaian konsensus transparan (lokal atau global) tentang biaya dan manfaat dari berbagai jenis pilihan analitik dalam konteks tertentu, bahkan dalam wajah informasi yang sangat tidak lengkap tentang apa biaya dan manfaat ini.
Ya, di antara tradisi frequentist dan Bayesian, ada ruang untuk subjektivitas (yaitu, beragam perspektif dan ketergantungan konteks) serta objektivitas (yaitu, transparansi, konsensus, imparsialitas, dan korespondensi dengan realitas yang dapat diamati) dalam banyak aspek berbeda dari model statistik dan bagaimana model itu digunakan (yang dipilih sebelumnya, kemungkinan yang dipilih, ambang keputusan yang dipilih, dll.).
sumber