Mengakomodir pandangan p-value yang mengakar

31

Terkadang dalam laporan saya menyertakan penafian tentang nilai-p dan statistik inferensial lainnya yang saya berikan. Saya mengatakan bahwa karena sampel tidak acak, maka statistik seperti itu tidak akan berlaku ketat. Kata-kata spesifik saya biasanya diberikan dalam catatan kaki:

"Sementara, secara nyata, statistik inferensial hanya berlaku dalam konteks pengambilan sampel acak, kami mengikuti konvensi dalam melaporkan tingkat signifikansi dan / atau interval kepercayaan sebagai tolok ukur yang nyaman bahkan untuk sampel nonrandom. Lihat kesimpulan statistik Michael Oakes : Sebuah komentar untuk sosial dan ilmu perilaku (NY: Wiley, 1986).

Pada beberapa kesempatan - satu kali untuk makalah yang ditinjau sejawat, sekali atau dua kali dalam lingkungan non-akademik - editor atau peninjau keberatan dengan penolakan ini, menyebutnya membingungkan, dan merasa bahwa temuan inferensialnya harus hanya berdiri seperti tertulis (dan diberi mantel otoritas). Adakah orang lain yang mengalami masalah ini dan menemukan solusi yang baik? Di satu sisi, pemahaman masyarakat tentang nilai-p pada umumnya suram, bahkan dalam konteks pengambilan sampel acak, jadi mungkin tidak terlalu penting apa yang kita katakan. Di sisi lain, untuk berkontribusi lebih jauh ke kesalahpahaman tampaknya membuat satu bagian dari masalah. Saya harus menambahkan bahwa saya sering berurusan dengan studi survei, di mana tugas acak tidak berlaku dan di mana simulasi Monte Carlo akan sering gagal untuk mengatasi masalah keterwakilan.

rolando2
sumber
3
komentar pada pengulas sangat menyedihkan, orang akan berharap bahwa seseorang dalam posisi itu setidaknya tidak akan secara terbuka menunjukkan ketidaktahuan mereka, dan dengan demikian, lebih jauh mendukung salah tafsir dari metode statistik.
richiemorrisroe
8
Koreksi saya jika saya salah, tetapi keacakan sampel hanya memengaruhi tingkat di mana Anda dapat menggeneralisasi temuan. Sebaliknya, penugasan acak adalah fitur yang lebih penting untuk inferensi kausal.
Mike Lawrence
3
Mike, aku setuju denganmu. Apakah Anda membuat poin ini untuk memperpanjang diskusi atau untuk menunjukkan ketidaksepakatan dengan sesuatu yang saya katakan?
rolando2
@richiemorrisroe: orang akan bodoh untuk mengharapkan hal itu dari semua pengulas, tetapi saya kira orang dapat berharap untuk masa depan di mana kita dapat mengharapkan itu, dan kita tentu harus menekan penerbit untuk melakukan lebih banyak untuk menuntut dan menegakkan itu daripada yang mereka lakukan saat ini .. .Rando, saya pikir Mike hanyalah titik klarifikasi untuk menyamarkan diskusi ini dari masalah-masalah yang berhubungan dengan inferensial. Jelas beberapa orang telah menemukan bahwa membantu, walaupun saya pikir sudah cukup jelas, secara pribadi. Jika saya benar, ini secara tidak sengaja mengukur kebingungan orang lain tentang nilai p , yang memotivasi posting asli!
Nick Stauner

Jawaban:

11

Memang ada argumen yang harus diambil untuk tidak menyertakan disclaimer. Terus terang, saya menemukan risalah singkat tentang sifat nilai-p dalam artikel jurnal yang sedikit mengecewakan, dan untuk sesaat harus berhenti dan mencoba mencari tahu apakah Anda telah melakukan sesuatu yang khusus .. .esoteric ... untuk menjamin pengabdian ruang itu ke titik definisi.

Pada dasarnya, sebagai peninjau, saya akan menyebutnya tidak perlu karena pembaca harus sudah tahu apa nilai-p dan apa. Saya bahkan mungkin keberatan karena membuat catatan semacam itu tidak benar-benar mencegah dari banyak kejahatan analisis dan interpretasi yang menyertai nilai-p, itu hanya memakai jubah "percayalah, saya tahu apa yang saya lakukan". Ini juga agak aneh - "Saya akan berani menentang nilai-p, tetapi tidak begitu berani saya tidak melaporkannya".

Ketika saya mempertimbangkan "pandangan yang mengakar pada nilai-p", saya tidak terlalu khawatir tentang sesuatu seperti apa yang Anda posting di atas, dan jauh lebih peduli tentang desakan pengulas tentang signifikansi statistik untuk dipublikasikan atau fokus makalah ini (cantumkan sebuah bintang dengan sebuah penemuan dan tiba-tiba itu adalah Kesepakatan Besar) atau memadukan signifikansi statistik dengan signifikansi sebuah temuan.

Fomite
sumber
3
Saya tidak berpikir ini menjawab OP. Saya berasumsi @ rolando2 melaporkan statistik lain yang lebih penting dalam diskusi (mis., Ukuran efek), dan sebagian besar melaporkan nilai p sebagai salah satu cara mengakomodasi ekspektasi konvensional, meskipun mereka tidak berlaku secara ketat. Karena itu, kita harus tidak peduli sampai sejauh mana kita terlalu banyak membaca nilai p ; kita harus mempertimbangkan motivasinya untuk penafian. Pembaca tidak tahu apa yang seharusnya mereka baca; OP menyebutkan ini. Penafian mempromosikan keraguan, bukan kepercayaan. Itu tidak aneh untuk menolak standar sambil menyesuaikan dengan itu; itu bukan pendirian yang berani.
Nick Stauner
@NickStauner Saya tidak melihat bagaimana itu tidak "menjawab" OP. Mungkin itu tidak mendukung apa yang ingin mereka lakukan, tetapi dalam pikiran saya itu adalah istirahat yang benar-benar aneh dari isi kertas yang sebenarnya, dan juga tidak berguna - "Ini salah, tapi saya akan menjadi prajurit seolah-olah itu adalah benar karena itulah yang Anda semua harapkan "tidak memberi tahu saya jika kesalahan itu penting .
Fomite
3
Pertanyaan OP: "Apakah ada orang lain yang mengalami masalah ini dan menemukan solusi yang baik?" Jawaban Anda mengabaikan pertanyaan literal untuk merespons ide tersebut, dan sebagian besar menawarkan pendapat Anda tentang mengapa ide tersebut harus dijatuhkan. Anda mulai mengisyaratkan kritik konstruktif terhadap ide OP: Anda tampaknya tidak berpikir kutipan Oakes memberi tahu Anda mengapa itu penting. Saya akan memperluas ini sedikit dalam jawaban saya sendiri.
Nick Stauner
12

Penggunaan statistik inferensial dapat dibenarkan tidak hanya berdasarkan pada model populasi, tetapi juga berdasarkan pada model pengacakan. Yang terakhir tidak membuat asumsi tentang cara sampel telah diperoleh. Bahkan, Fisher adalah orang yang menyarankan bahwa model pengacakan harus menjadi dasar untuk inferensi statistik (sebagai lawan dari Neyman dan Pearson). Lihat, misalnya:

Ernst, MD (2004). Metode permutasi: Dasar untuk inferensi yang tepat. Ilmu Statistik, 19, 676-685. [tautan (akses terbuka)]

Ludbrook, J. & Dudley, H. (1998). Mengapa tes permutasi lebih unggul daripada tes t dan F dalam penelitian biomedis. Ahli Statistik Amerika, 52, 127-132. [tautan (jika Anda memiliki akses JSTOR)]

Namun saya ragu bahwa editor atau pengulas yang bersangkutan menggunakan ini sebagai alasan untuk menyebut penolakan Anda sebagai "membingungkan".

Wolfgang
sumber
1
Wolfgang - poin menarik dan bermanfaat. Namun, saya harus menjelaskan bahwa sebagian besar pekerjaan saya adalah survei.
rolando2
7
Jika tujuan utamanya adalah membuat semacam inferensi terhadap populasi dan mekanisme pengambilan sampelnya bersifat alami sehingga keterwakilan sampel dipertanyakan, maka memang, setiap inferensi juga akan agak dipertanyakan. Pada dasarnya, Anda hanya dapat membuat kesimpulan pada bagian populasi yang disediakan oleh mekanisme sampling. Pada prinsipnya, kesimpulan yang Anda buat akan sesuai untuk bagian populasi itu. Apakah bagian dari populasi itu menarik bagi Anda (atau pembaca) adalah masalah lain.
Wolfgang
7

pnilai-nilai sebenarnya perlu untuk dilaporkan meskipun ketidakabsahannya yang tidak dapat diabaikan dalam studi yang bermasalah (kelas yang terlalu banyak artikel yang diterbitkan jatuh), orang mungkin meremehkannya secara implisit. Pertimbangkan untuk memfokuskan narasi Anda — mungkin bahkan secara eksklusif — pada ukuran efek. Jika penelitian Anda cukup representatif untuk menjadi informatif bermanfaat (ini seharusnya tidak mengharuskan pengambilan sampel acak sempurna, hanya hati-hati dalam generalisasi interpretasi), ukuran efek Anda harus memiliki implikasi yang lebih luas daripada sekadar menunjukkan keberadaan dan arah hubungan atau perbedaan saja. Memfokuskan diskusi seseorang pada ukuran efek dapat memfasilitasi pemahaman yang lebih dalam tentang seberapa besar hubungan atau perbedaan itu penting dalam arti praktis, meskipun ini masih perlu dipertimbangkan dalam konteks subjek penelitian (misalnya,r=.03ppp

Opsi lain yang berpotensi melengkapi adalah memperluas catatan kaki Anda. Baik uraian Anda tentang masalah yang dialami oleh pengulas, dan jawaban yang saat ini diterima di halaman ini, menunjukkan bahwa tidak cukup informasi yang disampaikan untuk menjelaskan motivasi Anda untuk memasukkan catatan kaki, juga tidak cukup untuk memotivasi pembaca untuk mengikuti kutipan Anda ke referensi. yang Anda gunakan untuk menjelaskannya dengan singkat. Satu kalimat tambahan, bahkan kutipan singkat dari referensi Anda, bisa sangat membantu menjelaskan nilai catatan kaki Anda dan memotivasi pembaca untuk membaca lebih dalam. Jelaslah, catatan kaki Anda sebagai yang lebih cepat memotivasi reaksi sederhana, negatif, dan menolak terhadap upaya Anda yang bersahaja untuk mengacaukan rasa puas diri mereka tentang asumsi-asumsi mereka yang tidak tepat. Pembaca mungkin kurang malas secara intelektual jika Anda menyuapi mereka satu atau dua poin utama tentang masalah yang mungkin mereka abaikan secara rutin. Juga, untuk banyak masalah khususp

p

ppp

Referensi

- Goodman, SN (1992). Sebuah komentar tentang replikasi, nilai- P dan bukti. Statistik dalam Kedokteran, 11 (7), 875–879.
- Goodman, SN (2001). Nilai- P dan Bayes: Sebuah proposal sederhana. Epidemiologi, 12 (3), 295–297. Diperoleh dari http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs /ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Selusin kotor: Dua Belas P- nilai kesalahpahaman. Seminar dalam Hematologi, 45 (3), 135-140. Diperoleh dari http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Non-replikasi studi asosiasi: "pseudo-kegagalan" untuk mereplikasi? Genetika dalam Kedokteran, 9 (6), 325–331. Diperoleh dari http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH, & Lombardi, CM (2009). Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Diperoleh dari http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Ke P atau tidak ke P: Tentang sifat bukti nilai-P dan tempatnya dalam inferensi ilmiah. arXiv: 1311.0081 [stat.ME]. Diterima darihttp://arxiv.org/abs/1311.0081 .
- Nuzzo, R. (2014, 12 Februari). Metode ilmiah: Kesalahan statistik. Berita Alam, 506 (7487). Diperoleh dari http://www.nature.com/news/scientific-method-statribution-errors-1.14700 .
- Rosenthal, R., Rosnow, RL, & Rubin, DB (2000). Kontras dan efek ukuran dalam penelitian perilaku: Pendekatan korelasional. Cambridge University Press.
- Senn, S. (2001). Dua sorakan untuk nilai-P? Jurnal Epidemiologi dan Biostatistik, 6 (2), 193–204. Diperoleh dari http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .
- Wagenmakers, EJ (2007). Solusi praktis untuk masalah meresap dinilai p . Buletin & Ulasan Psikonomis , 14 (5), 779–804. Diperoleh dari http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .

Nick Stauner
sumber
3
Tidak semua kritik terhadap nilai-P adalah benar atau dibenarkan, meskipun keras. Anda harus melihat dua makalah ini untuk beberapa tandingan terhadap komentar yang Anda kutip: Two Cheers for P Values ​​(oleh Stephen Senn) phil.vt.edu/dmayo/conference_2010/… ; To P or Not To P (by me) arxiv.org/abs/1311.0081
Michael Lew
1
Poin luar biasa! Terima kasih! Saya telah mengedit sedikit untuk memasukkan kontribusi Anda, dan saya dapat mengedit sedikit lebih banyak setelah saya memahaminya dengan cukup baik untuk memasukkan implikasinya ke dalam apa yang telah saya katakan. Inilah mengapa saya menyukai Cross Validated ...
Nick Stauner
2
Apakah Anda memiliki bukti eksperimental yang mendukung klaim Anda bahwa asumsi Edwards meluas ke nilai-p? Saya merasa diri saya sangat skeptis. Cara analogi saya, saya telah melihat beberapa makalah yang menunjukkan bahwa bahkan para ilmuwan data yang berpengalaman pun kesulitan memperkirakan koefisien korelasi dari sebar. Sepertinya Anda meminta lebih banyak dari para ilmuwan untuk memahami arti nilai ap dalam hal kemungkinan. Argumen Anda yang mendukung fungsi kemungkinan menarik ... mereka cenderung terlihat seperti distribusi posterior, bukan?
russellpierce
2
@ rpierce Saya tidak punya bukti eksperimental untuk memahami pengguna metode statistik. Saya akan, bagaimanapun, berpendapat bahwa setidaknya beberapa studi yang telah dilakukan untuk melihat apakah para ilmuwan 'memahami' nilai-p yang fatal fatal dengan tidak termasuk di antara opsi-opsi deskripsi yang benar-benar bermakna bermakna dari nilai-p. Analogi Anda tidak dekat karena fakta bahwa koefisien korelasi tidak mudah diperkirakan bukanlah masalah yang sama dengan memperkirakan kekuatan bukti dari nilai-p.
Michael Lew
1
@rpierce Fungsi kepadatan probabilitas posterior dari seragam sebelumnya akan sebanding dengan fungsi kemungkinan.
Michael Lew