Bagaimana membenarkan tingkat kesalahan false-positif / false-negative yang dipilih dan rasio biaya yang mendasarinya?

12

Konteks

Sekelompok ilmuwan sosial dan ahli statistik ( Benjamin et al., 2017 ) baru-baru ini menyarankan bahwa tingkat false-positive tipikal ( = .05) digunakan sebagai ambang batas untuk menentukan "signifikansi statistik" perlu disesuaikan dengan ambang batas yang lebih konservatif. ( = .005). Sekelompok ilmuwan sosial dan ahli statistik yang bersaing ( Lakens et al., 2018 ) telah merespons, dengan alasan menentang penggunaan ambang batas ini - atau yang lainnya - yang dipilih secara sewenang-wenang. Berikut ini adalah kutipan dari Lakens et al. (hal. 16) yang membantu mencontohkan pokok masalah dari pertanyaan saya:ααα

Idealnya, tingkat alfa ditentukan dengan membandingkan biaya dan manfaat terhadap fungsi utilitas menggunakan teori keputusan. Analisis biaya-manfaat ini (dan dengan demikian tingkat alfa) berbeda ketika menganalisis set data besar yang ada dibandingkan dengan mengumpulkan data dari sampel yang sulit diperoleh. Sains beragam, dan tergantung pada ilmuwan untuk membenarkan tingkat alfa yang mereka putuskan untuk digunakan. ... Penelitian harus dipandu oleh prinsip-prinsip ilmu pengetahuan yang ketat, bukan oleh heuristik dan ambang batas yang sewenang-wenang.

Pertanyaan

Saya bertanya-tanya bagaimana orang bisa membenarkan alpha yang dipilih dengan cara yang "dibimbing oleh prinsip-prinsip ilmu pengetahuan yang ketat", seperti Lakens et al. menyarankan, dalam sebagian besar konteks ilmu sosial (yaitu, di luar kasus-kasus tertentu di mana seseorang memiliki kualitas yang lebih konkret, seperti laba, untuk mengoptimalkan)?

Setelah penyebaran Lakens dkk., Saya mulai melihat kalkulator daring beredar untuk membantu para peneliti membuat keputusan ini. Ketika menggunakannya, para peneliti perlu menentukan "rasio biaya" dari kesalahan positif palsu dan negatif palsu. Namun, seperti kalkulator ini di sini menunjukkan, menentukan rasio biaya tersebut dapat melibatkan banyak kuantitatif menebak-kerja:

Sementara beberapa biaya kesalahan mudah dikuantifikasi dalam istilah moneter (biaya langsung), yang lain sulit untuk menempatkan jumlah dolar (biaya tidak langsung). ... Meskipun sulit untuk dikuantifikasi, Anda harus melakukan upaya untuk memberikan nomor kepada mereka.

Sebagai contoh, meskipun Lakens et al. menyarankan mempelajari sampel yang sulit dijangkau sebagai faktor yang dapat dipertimbangkan dalam membenarkan alpha, tampaknya seseorang masih menebak-nebak seberapa sulit mencapai sampel itu, dan dengan demikian, bagaimana menyesuaikan pemilihan alpha yang sesuai. Sebagai contoh lain, akan tampak sulit bagi saya untuk menghitung biaya penerbitan positif palsu, dalam hal berapa banyak waktu / uang yang kemudian akan dilakukan orang lain untuk melakukan penelitian berdasarkan kesimpulan yang salah.

Jika menentukan rasio biaya ini sebagian besar merupakan masalah perkiraan terbaik subjektif, saya bertanya-tanya apakah keputusan ini dapat (lagi, di luar mengoptimalkan sesuatu seperti laba) dapat "dibenarkan". Artinya, dengan cara yang ada di luar asumsi yang dibuat tentang pengambilan sampel, pengorbanan, dampak, dll.,? Dengan cara ini, bagi saya, menentukan rasio biaya kesalahan positif-palsu / negatif-negatif merupakan sesuatu yang mirip dengan memilih sebelumnya dalam inferensi Bayesian - keputusan yang bisa agak subyektif, memengaruhi hasil, dan karenanya diperdebatkan- - Meskipun saya tidak yakin itu perbandingan yang masuk akal.

Ringkasan

Untuk membuat pertanyaan saya konkret:

  1. Bisakah angka false-positive / false-negative dan rasio biayanya "bisa dibenarkan" dalam kebanyakan konteks ilmu sosial?
  2. Jika demikian, apa saja prinsip yang dapat digeneralisasikan yang dapat diikuti seseorang untuk membenarkan pilihan analitik ini (dan mungkin satu atau dua contoh dari mereka yang sedang beraksi)
  3. Jika tidak, apakah analogi saya tentang subjektivitas potensial dalam memilih rasio biaya - sebagai yang mirip dengan seleksi sebelumnya Bayesian - yang masuk akal?

Referensi

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Pembuat Wagen, E., ... Johnson, V. (2017, 22 Juli). Tetapkan ulang signifikansi statistik. Diperoleh dari psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Aplikasi, MA, ... Zwaan, RA (2018, 15 Januari). Ratakan Alfa Anda. Diperoleh dari psyarxiv.com/9s3y6

jsakaluk
sumber
4
Bisakah Anda mendefinisikan bagaimana Anda menggunakan "dibenarkan secara objektif?" Probabilitas kesalahan tipe I adalah preferensi peneliti ... seperti probabilitas kesalahan tipe priori II. Dengan cara apa seorang peneliti akan "membenarkan secara objektif," katakanlah, agenda penelitian yang disukai, kolaborator atau pemberi dana penelitian yang disukai, atau pelatihan asisten penelitian dan pendekatan pendampingan yang disukai?
Alexis
1
Secara objektif dibenarkan karena lebih dari sekadar preferensi. Makalah Lakens et al., Saat ini beredar di bawah judul "JYA" [Justify Your Alpha], dan bacaan saya tentang argumen mereka, berdasarkan kutipan di atas, adalah bahwa tidak ada preferensi lama yang akan dilakukan. Untuk lebih jelasnya: Saya tidak perlu mengajukan argumen bahwa seseorang dapat secara objektif membenarkan tingkat kesalahan Tipe I / II yang dipilih. Sebaliknya, pertanyaan saya didasarkan pada interpretasi Lakens et al. untuk menyarankan bahwa Anda bisa, dan jika itu masalahnya, maka saya tidak mengerti bagaimana orang akan melakukannya.
jsakaluk
3
Saya tidak melihat kata "secara objektif" dalam kutipan dari Lakens et al. Apakah mereka benar-benar menggunakannya di kertas mereka? Jika demikian, mungkin Anda dapat menambahkan penawaran lain untuk memberikan konteks yang lebih spesifik? Jika tidak, maka saya tidak yakin Anda dapat mengatakan hal-hal seperti "secara objektif membenarkan alpha yang dipilih, seperti yang disarankan Lakens et al.".
Amuba kata Reinstate Monica
2
Saya telah memperbarui posting, yang sekarang dilucuti "objektivitas". Bukan maksud saya untuk menyalahartikan argumen itu, tetapi saya bisa mengerti jika pembaca berpikir saya menulis dengan sembarangan. Lakens et al. jangan menggunakan deskriptor dari "dipandu oleh prinsip-prinsip kekuatan ilmiah", jadi pertanyaan saya adalah sekarang lebih pasti pijakan. Saya masih bertanya-tanya, apa artinya itu; bagaimana dugaan itu tampaknya diperlukan lebih keras daripada heuristik? Jika itu membuat perbedaan, saya terutama ingin tahu bagaimana seorang realis ilmiah akan mencapai standar pembenaran "secara ilmiah" untuk alpha.
jsakaluk
2
Sekali lagi, ini bukan istilah saya, dan bagian dari pertanyaan saya ditujukan untuk mendapatkan jawaban yang dapat membantu saya memahami apa arti istilah itu - saya meminta contoh prinsip umum - dalam batasan apa yang dikatakan oleh Lakens dkk. berarti (yaitu, bukan heuristik; bukan ambang batas yang sewenang-wenang). Jika Anda memiliki beberapa definisi "justifikasi ilmiah yang ketat" dalam pikiran, yang dapat menghasilkan s yang berbeda , dan yang memenuhi kendala non-heuristik / non-aribitrary, saya akan senang membacanya. α
jsakaluk

Jawaban:

1

(juga diposting di twitter, tetapi diposting kembali di sini) Upaya saya pada jawaban: Saya tidak berpikir pembenaran dapat menjadi tujuan "murni", tetapi dapat didasarkan pada kriteria yang dapat dipertahankan berdasarkan alasan rasional / empiris. Saya pikir RSS adalah contoh cara Anda dapat membenarkan p <0,005 untuk jenis penelitian tertentu, tetapi saya juga berpikir ada keadaan lain di mana alpha yang berbeda akan lebih optimal daripada <.005 (baik lebih tinggi atau lebih rendah) tergantung pada alfa apa yang layak dan apa tujuan dari penelitian ini. Jadi misalnya, jika Anda memiliki 5.000 peserta dan ukuran minat efek terkecil adalah 0,10, Anda mungkin ingin menggunakan p <0,001 dan memiliki kekuatan 90% (angka semuanya dibuat-buat). Sebaliknya, katakanlah Anda menjalankan eksperimen kecil sebagai “bukti konsep” awal untuk lini penelitian. Anda mungkin memiliki N = 100, p <.10, daya 90%,

Mark Hoffarth
sumber
1

Saya telah memikirkan pertanyaan yang sama belakangan ini, dan saya rasa banyak orang lain dalam psikologi juga.

Pertama, masing-masing pertanyaan Anda berhubungan dengan apakah suatu pilihan dibuat secara obyektif versus subyektif, tetapi (seperti yang telah dicatat orang lain di sini) Anda belum sepenuhnya menjelaskan apa yang merupakan (dalam pandangan Anda) pilihan obyektif versus subyektif.

Anda mungkin tertarik pada makalah Gelman & Hennig 2015 yang membongkar berbagai nilai yang terbungkus dalam penggunaan umum label "obyektif" dan "subyektif" dalam sains. Dalam perumusannya, "obyektif" berkaitan dengan nilai-nilai transparansi, konsensus, imparsialitas, dan korespondensi dengan realitas yang dapat diamati, sedangkan "subyektif" berhubungan dengan nilai-nilai dari berbagai perspektif dan ketergantungan konteks.

Terkait dengan Pertanyaan Anda 3, dalam pandangan Bayesian, probabilitas didefinisikan sebagai mengukur ketidakpastian tentang dunia. Dari apa yang saya pahami, ada ketegangan yang tampak di seluruh “subyektivis Bayesian” (probabilitas mencerminkan keadaan kepercayaan individu) dan aliran pemikiran “objektivis Bayesian” (probabilitas mencerminkan masuk akalnya konsensus). Di dalam sekolah objektivis, ada penekanan yang lebih kuat pada pembenaran distribusi sebelumnya (dan model lebih umum) secara transparan yang sesuai dengan konsensus dan yang dapat diperiksa, tetapi pilihan model tentu tergantung pada konteks (yaitu , tergantung pada status pengetahuan konsensus untuk masalah tertentu).

Dalam konsepsi frequentist, probabilitas mencerminkan berapa kali suatu peristiwa akan terjadi diberikan replikasi independen yang tak terbatas. Dalam kerangka kerja Neyman-Pearson, seseorang menetapkan hipotesis alternatif yang tepat dan alpha yang tepat, menerima nol yang tepat atau alternatif yang tepat (bahwa efek populasi persis sama dengan yang ditentukan) berdasarkan data, dan kemudian melaporkan frekuensi jangka panjang melakukan kesalahan.

Dalam kerangka kerja ini, kami jarang memiliki estimasi titik yang tepat dari ukuran efek populasi, melainkan rentang nilai yang masuk akal. Oleh karena itu, tergantung pada alfa yang diberikan, kami tidak memiliki perkiraan yang tepat dari tingkat kesalahan Tipe 2, melainkan kisaran tingkat kesalahan Tipe 2 yang masuk akal. Demikian pula, saya setuju dengan poin umum Anda bahwa kami biasanya tidak memiliki pengertian yang tepat mengenai biaya dan manfaat dari kesalahan Tipe 1 atau Tipe 2 yang sebenarnya. Berarti kita sering dihadapkan pada situasi di mana kita memiliki informasi yang sangat tidak lengkap tentang apa hipotesis kita seharusnya, dan bahkan lebih sedikit informasi tentang apa yang akan menjadi biaya dan manfaat relatif dari menerima vs menolak hipotesis ini.

untuk pertanyaan Anda:

  1. Dapatkah angka false-positive / false-negative dan rasio biayanya dapat dibenarkan secara objektif dalam sebagian besar konteks ilmu sosial?

Saya pikir begitu, bahwa pembenaran bisa transparan, dapat berbarengan dengan konsensus, bisa tidak memihak, dan dapat sesuai dengan kenyataan (sejauh kita menggunakan informasi terbaik yang tersedia tentang biaya dan manfaat).

Namun, saya berpikir bahwa pembenaran seperti itu juga subyektif, dalam hal itu bisa ada beberapa perspektif yang valid tentang bagaimana mengatur alpha untuk masalah yang diberikan, dan bahwa apa yang merupakan alpha yang tepat dapat bermakna tergantung konteks.

Sebagai contoh, dalam beberapa tahun terakhir, telah menjadi jelas bahwa banyak efek dalam literatur mencerminkan kesalahan Tipe M atau Tipe S. Mereka juga dapat mencerminkan kesalahan Tipe 1, sejauh studi replikasi mampu memberikan bukti untuk nol dengan efek nol.

Terkait dengan pengamatan ini, ada konsensus yang muncul bahwa ambang nilai p untuk klaim dengan kepastian harus dijaga agar tetap sama atau dibuat lebih ketat (yaitu, tidak ada yang memperdebatkan peningkatan selimut alfa menjadi 0,10 atau 0,20) . Demikian pula, ada konsensus yang muncul bahwa nilai p tidak boleh digunakan sebagai kriteria untuk publikasi (misalnya, format Laporan Terdaftar).

Bagi saya, ini mencerminkan semacam sumber informasi "obyektif" - yaitu, untuk bacaan saya ada konsensus yang berkembang bahwa klaim palsu mahal untuk bidang (bahkan jika kita tidak dapat menempatkan jumlah dolar pada biaya ini). Untuk bacaan saya, tidak ada konsensus yang jelas bahwa gagal memenuhi ambang batas p-value adalah biaya yang dramatis bagi lapangan. Jika ada biaya, biaya tersebut dapat dikurangi jika gagal memenuhi ambang batas p-value tidak memengaruhi apakah estimasi membuatnya menjadi makalah yang diterbitkan.

  1. Jika demikian, apa saja prinsip yang dapat digeneralisasikan yang dapat diikuti seseorang untuk membenarkan pilihan analitik ini (dan mungkin satu atau dua contoh dari mereka yang sedang beraksi)

Saya tidak yakin, tetapi saya akan condong ke semacam prinsip bahwa keputusan harus dibuat berdasarkan penilaian konsensus transparan (lokal atau global) tentang biaya dan manfaat dari berbagai jenis pilihan analitik dalam konteks tertentu, bahkan dalam wajah informasi yang sangat tidak lengkap tentang apa biaya dan manfaat ini.

  1. Jika tidak, apakah analogi saya tentang subjektivitas potensial dalam memilih rasio biaya - sebagai yang mirip dengan seleksi sebelumnya Bayesian - yang masuk akal?

Ya, di antara tradisi frequentist dan Bayesian, ada ruang untuk subjektivitas (yaitu, beragam perspektif dan ketergantungan konteks) serta objektivitas (yaitu, transparansi, konsensus, imparsialitas, dan korespondensi dengan realitas yang dapat diamati) dalam banyak aspek berbeda dari model statistik dan bagaimana model itu digunakan (yang dipilih sebelumnya, kemungkinan yang dipilih, ambang keputusan yang dipilih, dll.).

penghuni pertama
sumber
Ini jawaban yang bagus. Satu hal yang saya tidak begitu yakin tentang klaim korespondensi. Jika kita memahami istilah ini dengan cara yang sama (saya berpikir dalam hal teori korespondensi kebenaran), maka sebenarnya, kedengarannya seperti korespondensi mungkin berada di tanah yang goyah jika kita tidak memiliki ide yang tepat tentang biaya Type. Kesalahan I / II. Sebaliknya, sepertinya ada klaim yang lebih baik untuk koherensi (mengingat asumsi awal ini, sisa angka "masuk akal"), atau pragmatisme (tebakan biaya kesalahan Tipe I / II kami adalah fiksi yang berguna untuk perencanaan studi).
jsakaluk
Mungkin saya berusaha terlalu keras untuk mengawinkan "pembenaran" dengan perspektif korespondensi / realis, dan dengan cara pemahaman lain ini, tingkat kesalahan Tipe I / II dapat dipilih dengan cara yang "dibenarkan"?
jsakaluk
Terima kasih telah mengarahkan saya ke ide-ide ini. Saya akan mengatakan bahwa dalam konteks apa pun, kami mungkin memiliki informasi yang baik tentang kemungkinan biaya dan manfaat di masa depan, atau kami mungkin memiliki informasi yang sangat buruk. Dalam arti yang sangat kasar, ada konsensus yang berkembang bahwa positif palsu (p <ambang batas, efek sebenarnya adalah nol) dapat lebih berbahaya bagi bidang daripada kejadian gagal memenuhi ambang batas signifikansi (tetapi tetap mempublikasikan estimasi). Dalam keadaan lokal tertentu, mungkin ada biaya yang lebih serius terkait dengan kegagalan untuk memenuhi ambang batas signifikansi.
penghuni pertama
Intinya, konsep "alpha" dan "Type 2 error" hanya ada dalam kerangka kerja NP di mana analis telah menetapkan dua hipotesis yang tepat dan berkomitmen untuk menerima satu atau yang lain di akhir prosedur. Namun, dalam praktik umum, analis sering diperingatkan untuk tidak menerima nol atas dasar estimasi yang tidak signifikan dengan kekuatan yang tidak pasti, pada dasarnya kembali ke interpretasi gaya Fisher di mana tidak ada menerima nol dan tidak ada "kesalahan Tipe 2".
penghuni pertama
1
Bagiku lucu bahwa jaringan sosial, kelas sosial, dan interaksi sosial di balik deskripsi Anda tentang "konsensus" entah bagaimana terpisah dari kepercayaan dan nilai-nilai subyektif yang mendasari semua itu.
Alexis