Banyak penekanan ditempatkan pada mengandalkan dan melaporkan ukuran efek daripada nilai-p dalam penelitian terapan (misalnya kutipan lebih lanjut di bawah).
Tapi bukankah itu ukuran efek seperti nilai-p adalah variabel acak dan karena itu dapat bervariasi dari sampel ke sampel ketika percobaan yang sama diulang? Dengan kata lain, saya bertanya fitur statistik apa (misalnya, ukuran efek kurang variabel dari sampel ke sampel daripada nilai p) membuat ukuran efek lebih baik indeks pengukuran bukti daripada nilai p?
Namun, saya harus menyebutkan fakta penting yang memisahkan nilai-p dari ukuran efek. Artinya, ukuran efek adalah sesuatu yang harus diperkirakan karena memiliki parameter populasi tetapi nilai-p tidak dapat diperkirakan karena tidak memiliki parameter populasi.
Bagi saya, efek ukuran hanyalah metrik yang di bidang penelitian tertentu (misalnya, penelitian manusia) membantu mengubah temuan empiris yang berasal dari berbagai alat pengukuran yang dikembangkan oleh peneliti menjadi metrik umum (wajar untuk mengatakan menggunakan penelitian manusia metrik ini bisa lebih sesuai klub penelitian kuant).
Mungkin jika kita mengambil proporsi sederhana sebagai ukuran efek, yang berikut (dalam R) adalah apa yang menunjukkan keunggulan ukuran efek atas nilai-p? (perubahan nilai p tetapi ukuran efek tidak)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Perhatikan bahwa sebagian besar ukuran efek terkait linier dengan statistik uji. Dengan demikian, ini adalah langkah mudah untuk melakukan pengujian hipotesis nol menggunakan ukuran efek.
Sebagai contoh, statistik t yang dihasilkan dari desain pra-posting dapat dengan mudah dikonversi ke ukuran efek Cohen yang sesuai. Dengan demikian, distribusi Cohen d hanyalah versi skala-lokasi pada distribusi.
Kutipan:
Karena nilai-p adalah indeks yang dikacaukan, dalam teori 100 studi dengan berbagai ukuran sampel dan 100 ukuran efek yang berbeda masing-masing dapat memiliki nilai-p tunggal yang sama, dan 100 studi dengan ukuran efek tunggal yang sama masing-masing dapat memiliki 100 nilai berbeda untuk nilai-p .
atau
p-value adalah variabel acak yang bervariasi dari sampel ke sampel. . . . Akibatnya, tidak tepat untuk membandingkan nilai-p dari dua percobaan yang berbeda, atau dari pengujian pada dua variabel yang diukur dalam percobaan yang sama, dan menyatakan bahwa satu lebih penting daripada yang lain?
Kutipan:
Thompson, B. (2006). Dasar statistik perilaku: Pendekatan berbasis wawasan. New York, NY: Guilford Press.
Good, PI, & Hardin, JW (2003). Kesalahan umum dalam statistik (dan cara menghindarinya). New York: Wiley.
Jawaban:
Saran untuk memberikan ukuran efek daripada nilai-P didasarkan pada dikotomi yang salah dan konyol. Kenapa tidak menyajikan keduanya?
Kesimpulan ilmiah harus didasarkan pada penilaian rasional bukti dan teori yang tersedia. Nilai P dan ukuran efek yang diamati sendiri atau bersama tidak cukup.
Tak satu pun dari kutipan kutipan yang Anda berikan membantu. Tentu saja nilai-P bervariasi dari percobaan ke percobaan, kekuatan bukti dalam data bervariasi dari percobaan ke percobaan. Nilai-P hanyalah ekstraksi numerik dari bukti itu melalui model statistik. Mengingat sifat dari nilai-P, sangat jarang relevan dengan tujuan analitis untuk membandingkan satu nilai-P dengan yang lain, jadi mungkin itulah yang ingin disampaikan oleh penulis kutipan.
Jika Anda menemukan diri Anda ingin membandingkan nilai-P maka Anda mungkin harus melakukan uji signifikansi pada pengaturan data yang berbeda untuk menjawab pertanyaan yang masuk akal. Lihat pertanyaan-pertanyaan ini: nilai-p untuk nilai-p? dan jika rata-rata satu kelompok berbeda dari nol tetapi yang lain tidak, dapatkah kita menyimpulkan bahwa kelompok itu berbeda?
Jadi, jawaban untuk pertanyaan Anda rumit. Saya tidak menemukan respons dikotomis terhadap data yang didasarkan pada nilai-P atau ukuran efek yang berguna, jadi apakah ukuran efek lebih unggul daripada nilai-P? Ya, tidak, kadang-kadang, mungkin, dan itu tergantung pada tujuan Anda.
sumber
Dalam konteks penelitian terapan, ukuran efek diperlukan bagi pembaca untuk menafsirkan signifikansi praktis (yang bertentangan dengan signifikansi statistik) dari temuan. Secara umum, nilai-p jauh lebih sensitif terhadap ukuran sampel daripada ukuran efek. Jika percobaan mengukur ukuran efek secara akurat (yaitu cukup dekat dengan parameter populasi yang diestimasikan) tetapi menghasilkan nilai p tidak signifikan maka, semua hal sama, meningkatkan ukuran sampel akan menghasilkan ukuran efek yang sama tetapi nilai p yang lebih rendah. Ini dapat ditunjukkan dengan analisis daya atau simulasi.
Mengingat hal ini, dimungkinkan untuk mencapai nilai-p yang sangat signifikan untuk ukuran efek yang tidak memiliki signifikansi praktis. Sebaliknya, desain penelitian dengan daya rendah dapat menghasilkan nilai p yang tidak signifikan untuk ukuran efek yang sangat penting secara praktis.
Sulit untuk membahas konsep signifikansi statistik vis-a-vis ukuran efek tanpa aplikasi dunia nyata yang spesifik. Sebagai contoh, pertimbangkan eksperimen yang mengevaluasi efek dari metode pembelajaran baru terhadap rata-rata nilai siswa (IPK). Saya berpendapat bahwa ukuran efek 0,01 poin kelas memiliki signifikansi praktis yang kecil (yaitu 2,50 dibandingkan dengan 2,51). Dengan asumsi ukuran sampel 2.000 siswa dalam kelompok perlakuan dan kontrol, dan standar deviasi populasi 0,5 poin kelas:
rata-rata sampel pengobatan = 2,51
sampel kontrol rata-rata = 2,50
efek ukuran = 2,51 - 2,50 = 0,01
p = 0,53
Meningkatkan ukuran sampel menjadi 20.000 siswa dan mempertahankan segala hal lainnya menghasilkan nilai p yang signifikan:
rata-rata sampel pengobatan = 2,51
sampel kontrol rata-rata = 2,50
efek ukuran = 2,51 - 2,50 = 0,01
p = 0,044
Jelas itu bukan hal sepele untuk meningkatkan ukuran sampel dengan urutan besarnya! Namun, saya pikir kita semua bisa sepakat bahwa peningkatan praktis yang ditawarkan oleh metode studi ini dapat diabaikan. Jika kita hanya mengandalkan nilai-p maka kita mungkin percaya sebaliknya dalam kasus n = 20.000.
Secara pribadi saya menganjurkan untuk melaporkan nilai p dan ukuran efek. Dan poin bonus untuk t- atau F-statistik, derajat kebebasan dan diagnostik model!
sumber
var.equal = TRUE
sementara Andasd
sama. Dengan latar belakang seperti itu, saya tidak yakin mengapa Anda bahkan mengirim tanggapan seperti ini. OP mengajukan pertanyaan yang tidak memiliki jawaban yang mudah setidaknya pada saat ini!Saat ini saya bekerja di bidang sains data, dan sebelum itu saya bekerja dalam penelitian pendidikan. Sementara pada setiap "karier" saya telah berkolaborasi dengan orang-orang yang tidak datang dari latar belakang formal dalam statistik, dan di mana penekanan signifikansi statistik (dan praktis) sangat ditempatkan pada nilai -p . Saya telah belajar memasukkan dan menekankan ukuran efek dalam analisis saya karena ada perbedaan antara signifikansi statistik dan signifikansi praktis.
Secara umum, orang yang bekerja dengan saya peduli dengan satu hal "apakah program / fitur kami membuat dan berdampak, ya atau tidak?". Untuk pertanyaan seperti ini, Anda dapat melakukan sesuatu yang sederhana seperti uji-t dan melaporkan kepada mereka "ya, program / fitur Anda membuat perbedaan". Tetapi seberapa besar atau kecil "perbedaan" ini?
Pertama, sebelum saya mulai mempelajari topik ini, saya ingin meringkas apa yang kita rujuk ketika berbicara tentang ukuran efek
Ini Ukuran Efek, Bodoh: Apa ukuran efek dan mengapa itu penting
Selanjutnya, apa itu nilai-p , dan informasi apa yang diberikannya kepada kami? Nah, nilai-p , dalam kata-kata sesedikit mungkin, adalah probabilitas bahwa perbedaan yang diamati dari distribusi nol adalah kebetulan. Karena itu, kami menolak (atau gagal menerima) hipotesis nol ketika nilai-p ini lebih kecil dari ambang (α ).
Dan untuk menguatkan komentar @ DarrenJames mengenai ukuran sampel yang besar
Menggunakan Ukuran Efek — atau Mengapa Nilai P Tidak Cukup
Laporkan Baik Nilai-P dan Ukuran Efek
Sekarang untuk menjawab pertanyaan, adalah efek ukuran superior untuk p-nilai ? Saya berpendapat, bahwa masing-masing berfungsi sebagai komponen penting dalam analisis statistik yang tidak dapat dibandingkan dalam istilah tersebut, dan harus dilaporkan bersama. Nilai -p adalah statistik untuk menunjukkan signifikansi statistik (perbedaan dari distribusi nol), di mana ukuran efek dimasukkan ke dalam kata-kata berapa banyak perbedaan yang ada.
Sebagai contoh, katakan atasan Anda, Bob, yang tidak terlalu ramah statistik tertarik untuk melihat apakah ada hubungan yang signifikan antara wt (berat) dan mpg (mil per galon). Anda memulai analisis dengan hipotesis
sedang diuji diα = 0,05
Dariβm p g≠ 0 . Namun, bos Anda bertanya, well, apa bedanya? Anda dapat memberi tahu Bob, "sepertinya ada hubungan linear negatif antara mpg dan wt . Juga, dapat diringkas bahwa untuk setiap peningkatan unit di wt ada penurunan 5,3445 dalam mpg "
summary
output kita dapat melihat bahwa kita memiliki t-statistik dengan nilai p yang sangat kecil . Kami dapat dengan nyaman menolak hipotesis nol dan melaporkannyaDengan demikian, Anda dapat menyimpulkan bahwa hasilnya signifikan secara statistik, dan mengomunikasikan signifikansi secara praktis.
Saya harap ini bermanfaat dalam menjawab pertanyaan Anda.
sumber
var.equal = TRUE
.Kegunaan ukuran efek relatif terhadap nilai-p (serta metrik inferensi statistik lainnya) secara rutin diperdebatkan di bidang saya — psikologi — dan perdebatan saat ini “lebih panas”, dari biasanya dengan alasan yang relevan dengan pertanyaan Anda. Dan meskipun saya yakin psikologi tidak harus menjadi bidang ilmiah yang paling canggih secara statistik, psikologi siap membahas, mempelajari — dan terkadang, menunjukkan — keterbatasan berbagai pendekatan untuk inferensi statistik, atau setidaknya bagaimana mereka dibatasi oleh penggunaan manusia. Jawaban yang sudah diposting mencakup wawasan yang baik, tetapi jika Anda tertarik pada daftar yang lebih luas (dan referensi) alasan untuk dan menentang masing-masing, lihat di bawah.
Mengapa nilai p tidak diinginkan?
Mengapa ukuran efek diinginkan?
Perhatikan bahwa saya menafsirkan pertanyaan Anda sebagai merujuk khusus untuk ukuran efek standar, seperti yang Anda katakan mereka memungkinkan peneliti untuk mengubah temuan mereka "menjadi metrik UMUM".
Mengapa nilai p diinginkan?
Meskipun lebih jarang dianut, nilai-p memiliki sejumlah keistimewaan. Beberapa dikenal dan berumur panjang, sedangkan yang lain relatif baru.
Nilai-P memberikan indeks yang nyaman dan akrab tentang kekuatan bukti terhadap model statistik hipotesis nol.
Ketika dihitung dengan benar, nilai-p menyediakan cara untuk membuat keputusan dikotomis (yang kadang-kadang diperlukan), dan nilai-p membantu menjaga tingkat kesalahan positif-palsu jangka panjang pada tingkat yang dapat diterima (Dienes, 2008; Sakaluk, 2016) [Ini tidak sepenuhnya benar untuk mengatakan bahwa nilai-P diperlukan untuk keputusan dikotomis. Mereka memang banyak digunakan seperti itu, tetapi Neyman & Pearson menggunakan 'wilayah kritis' dalam ruang statistik uji untuk tujuan itu. Lihat pertanyaan ini dan jawabannya]
Mengapa ukuran efek tidak diinginkan (atau dibesar-besarkan)?
Mungkin posisi kontra-intuitif bagi banyak orang; mengapa pelaporan ukuran efek standar tidak diinginkan, atau paling tidak, berlebihan?
Ringkasan
Mengusung poin yang dibuat oleh Michael Lew, nilai p dan ukuran efek hanyalah dua potong bukti statistik; ada orang lain yang layak dipertimbangkan juga. Tetapi seperti nilai-p dan ukuran efek, metrik lain dari nilai bukti telah berbagi dan masalah unik juga. Para peneliti umumnya salah menerapkan dan menafsirkan interval kepercayaan (misalnya, Hoekstra et al., 2014; Morey et al., 2016), misalnya, dan hasil analisis Bayesian dapat terdistorsi oleh para peneliti, sama seperti ketika menggunakan nilai-p (misalnya, Simonsohn , 2014).
Semua metrik bukti telah menang dan semua harus memiliki hadiah.
Referensi
Asosiasi Psikologis Amerika. (2010). Manual publikasi dari American Psychological Association (edisi ke-6). Washington, DC: Asosiasi Psikologis Amerika.
Baguley, T. (2009). Ukuran efek terstandarisasi atau sederhana: Apa yang harus dilaporkan? British Journal of Psychology, 100 (3), 603-617.
Bakker, M., & Wicherts, JM (2011). Pelaporan (salah) hasil statistik dalam jurnal psikologi. Metode penelitian perilaku, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Pengantar meta-analisis. Sussex Barat, Inggris: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 Agustus). Mengoreksi bias dalam psikologi: Perbandingan metode meta-analitik. Diperoleh dari osf.io/preprints/psyarxiv/9h3nu
Chan, ME, & Arvey, RD (2012). Analisis meta dan pengembangan pengetahuan. Perspektif Ilmu Psikologi, 7 (1), 79-92.
Cohen, J. (1992). Primer kekuatan. Buletin Psikologis, 112 (1), 155-159.
Cumming, G. (2008). Replikasi dan interval p: nilai p memperkirakan masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik. Perspektif tentang Ilmu Psikologi, 3, 286- 300.
Dienes, D. (2008). Memahami psikologi sebagai ilmu: Pengantar inferensi ilmiah dan statistik. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Hasil "Positif" meningkatkan hierarki sains. PloS satu, 5 (4), e10068.
Gelman, A., & Stern, H. (2006). Perbedaan antara "signifikan" dan "tidak signifikan" itu sendiri tidak signifikan secara statistik. Ahli Statistik Amerika, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Kesalahan ekstraksi data dalam meta-analisis yang menggunakan perbedaan rata-rata terstandarisasi. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Kekeliruan menggunakan koefisien regresi standar dan korelasi sebagai ukuran efek. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Kesalahan interpretasi interval kepercayaan. Buletin & ulasan psikis, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). Mengukur prevalensi praktik penelitian yang dipertanyakan dengan insentif untuk pengungkapan kebenaran. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). Pentingnya efek efek. Dalam SF Davis (Ed.), Buku Pegangan metode penelitian dalam psikologi eksperimental (hal. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Melakukan studi berdaya tinggi secara efisien dengan analisis berurutan. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR, & Hullett, CR (2002). Eta kuadrat, eta parsial kuadrat, dan kesalahan pelaporan ukuran efek dalam penelitian komunikasi. Penelitian Komunikasi Manusia, 28 (4), 612-625.
Maxwell, SE (2004). Kegigihan studi yang kurang kuat dalam penelitian psikologis: penyebab, konsekuensi, dan perbaikan. Metode psikologis, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Pembuat Wagen, EJ (2016). Kesalahan menempatkan kepercayaan dalam interval kepercayaan. Buletin & ulasan psikis, 23 (1), 103-123.
Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia ilmiah: II. Restrukturisasi insentif dan praktik untuk mempromosikan kebenaran daripada publikasi. Perspektif Ilmu Psikologi, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). Prevalensi kesalahan pelaporan statistik dalam psikologi (1985-2013). Metode penelitian perilaku, 48 (4), 1205-1226.
Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin Psikologis, 86 (3), 638-641.
Sakaluk, JK (2016). Menjelajahi kecil, mengkonfirmasikan besar: Sistem alternatif untuk statistik baru untuk memajukan penelitian psikologis kumulatif dan dapat ditiru. Jurnal Psikologi Sosial Eksperimental, 66, 47-54.
Schimmack, U. (2014). Mengukur Integritas Penelitian Statistik: Indeks-Replikasi. Diperoleh dari http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Delapan keberatan umum tetapi salah untuk penghentian pengujian signifikansi dalam analisis data penelitian. Dalam LL Harlow, SA Mulaik, & JH Steiger (Eds.), Bagaimana jika tidak ada tes signifikansi? (hlm. 37-64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Satu-untuk-semua analisa nilai-p. Diperoleh dari http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu psikologi, 22 (11), 1359-1366.
Simonsohn, U. (2013). Kebodohan replikasi powering berdasarkan ukuran efek yang diamati. Diperoleh dari http://datacolada.org/4
Simonsohn, U. (2014). Peretasan posterior. Diperoleh dari http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-curve: Kunci untuk file-laci. Jurnal Psikologi Eksperimental: Umum, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Kurva P dan ukuran efek: Memperbaiki bias publikasi hanya menggunakan hasil yang signifikan. Perspektif tentang Ilmu Psikologi, 9 (6), 666-681.
Wicherts, JM, Bakker, M., & Molenaar, D. (2011). Kesediaan untuk berbagi data penelitian terkait dengan kekuatan bukti dan kualitas pelaporan hasil statistik. PloS satu, 6 (11), e26828.
sumber
Dari sudut pandang seorang Epidemiologis, tentang mengapa saya lebih suka ukuran efek daripada nilai-p (meskipun seperti yang dicatat beberapa orang, ini adalah dikotomi yang salah):
sumber