Apakah ukuran efek benar-benar lebih baik daripada nilai-p?

14

Banyak penekanan ditempatkan pada mengandalkan dan melaporkan ukuran efek daripada nilai-p dalam penelitian terapan (misalnya kutipan lebih lanjut di bawah).

Tapi bukankah itu ukuran efek seperti nilai-p adalah variabel acak dan karena itu dapat bervariasi dari sampel ke sampel ketika percobaan yang sama diulang? Dengan kata lain, saya bertanya fitur statistik apa (misalnya, ukuran efek kurang variabel dari sampel ke sampel daripada nilai p) membuat ukuran efek lebih baik indeks pengukuran bukti daripada nilai p?

Namun, saya harus menyebutkan fakta penting yang memisahkan nilai-p dari ukuran efek. Artinya, ukuran efek adalah sesuatu yang harus diperkirakan karena memiliki parameter populasi tetapi nilai-p tidak dapat diperkirakan karena tidak memiliki parameter populasi.

Bagi saya, efek ukuran hanyalah metrik yang di bidang penelitian tertentu (misalnya, penelitian manusia) membantu mengubah temuan empiris yang berasal dari berbagai alat pengukuran yang dikembangkan oleh peneliti menjadi metrik umum (wajar untuk mengatakan menggunakan penelitian manusia metrik ini bisa lebih sesuai klub penelitian kuant).

Mungkin jika kita mengambil proporsi sederhana sebagai ukuran efek, yang berikut (dalam R) adalah apa yang menunjukkan keunggulan ukuran efek atas nilai-p? (perubahan nilai p tetapi ukuran efek tidak)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Perhatikan bahwa sebagian besar ukuran efek terkait linier dengan statistik uji. Dengan demikian, ini adalah langkah mudah untuk melakukan pengujian hipotesis nol menggunakan ukuran efek.

Sebagai contoh, statistik t yang dihasilkan dari desain pra-posting dapat dengan mudah dikonversi ke ukuran efek Cohen yang sesuai. Dengan demikian, distribusi Cohen d hanyalah versi skala-lokasi pada distribusi.

Kutipan:

Karena nilai-p adalah indeks yang dikacaukan, dalam teori 100 studi dengan berbagai ukuran sampel dan 100 ukuran efek yang berbeda masing-masing dapat memiliki nilai-p tunggal yang sama, dan 100 studi dengan ukuran efek tunggal yang sama masing-masing dapat memiliki 100 nilai berbeda untuk nilai-p .

atau

p-value adalah variabel acak yang bervariasi dari sampel ke sampel. . . . Akibatnya, tidak tepat untuk membandingkan nilai-p dari dua percobaan yang berbeda, atau dari pengujian pada dua variabel yang diukur dalam percobaan yang sama, dan menyatakan bahwa satu lebih penting daripada yang lain?

Kutipan:

Thompson, B. (2006). Dasar statistik perilaku: Pendekatan berbasis wawasan. New York, NY: Guilford Press.

Good, PI, & Hardin, JW (2003). Kesalahan umum dalam statistik (dan cara menghindarinya). New York: Wiley.

rnorouzian
sumber
12
Saya tidak menarik kesimpulan yang sama dari kutipan (bahwa ukuran efek "superior" atau harus dilaporkan daripada nilai p). Saya sadar beberapa orang bereaksi berlebihan dengan membuat pernyataan seperti itu (seperti larangan BASP pada nilai-p). Ini bukan situasi satu-atau-yang-lain: ini adalah kasus yang menunjukkan bahwa nilai-p dan ukuran efek memberikan berbagai jenis informasi berguna. Biasanya yang satu tidak boleh diperiksa tanpa mempertimbangkannya dalam konteks yang lain.
whuber
1
Saya pribadi berpikir melaporkan perkiraan bersama dengan interval kepercayaan sudah cukup. Ini memberikan ukuran efek (signifikansi praktis) dan pengujian hipotesis (signifikansi statistik) pada saat yang sama.
Jirapat Samranvedhya
1
Apakah nilai p atau ukuran efek 'unggul' tergantung pada perspektif Anda. Yang pertama mengikuti dari tradisi NHST Nelayan, sedangkan yang kedua dari tradisi Neyman-Pearson. Dalam beberapa bidang (ilmu biologi, humaniora), ukuran efek cenderung sangat kecil, membuat nilai p menarik. Sebaliknya, seperti yang dicatat orang lain, nilai-p dapat 'dipaksa' lebih kecil melalui perubahan desain, seperti peningkatan N.
HEITZ
3
Apakah obeng lebih unggul dari palu?
kjetil b halvorsen
Apakah mur lebih unggul dari baut?
Sextus Empiricus

Jawaban:

21

Saran untuk memberikan ukuran efek daripada nilai-P didasarkan pada dikotomi yang salah dan konyol. Kenapa tidak menyajikan keduanya?

Kesimpulan ilmiah harus didasarkan pada penilaian rasional bukti dan teori yang tersedia. Nilai P dan ukuran efek yang diamati sendiri atau bersama tidak cukup.

Tak satu pun dari kutipan kutipan yang Anda berikan membantu. Tentu saja nilai-P bervariasi dari percobaan ke percobaan, kekuatan bukti dalam data bervariasi dari percobaan ke percobaan. Nilai-P hanyalah ekstraksi numerik dari bukti itu melalui model statistik. Mengingat sifat dari nilai-P, sangat jarang relevan dengan tujuan analitis untuk membandingkan satu nilai-P dengan yang lain, jadi mungkin itulah yang ingin disampaikan oleh penulis kutipan.

Jika Anda menemukan diri Anda ingin membandingkan nilai-P maka Anda mungkin harus melakukan uji signifikansi pada pengaturan data yang berbeda untuk menjawab pertanyaan yang masuk akal. Lihat pertanyaan-pertanyaan ini: nilai-p untuk nilai-p? dan jika rata-rata satu kelompok berbeda dari nol tetapi yang lain tidak, dapatkah kita menyimpulkan bahwa kelompok itu berbeda?

Jadi, jawaban untuk pertanyaan Anda rumit. Saya tidak menemukan respons dikotomis terhadap data yang didasarkan pada nilai-P atau ukuran efek yang berguna, jadi apakah ukuran efek lebih unggul daripada nilai-P? Ya, tidak, kadang-kadang, mungkin, dan itu tergantung pada tujuan Anda.

Michael Lew
sumber
Saya pikir akan lebih baik untuk menyajikan ukuran efek dan interval kepercayaannya, asalkan analis dengan tepat dapat menyatakan apa ukuran efek yang berarti untuk studi yang sedang dilakukan. Interval kepercayaan, tidak seperti nilai-p, memberikan pembaca rasa ketepatan estimasi serta ekstremitasnya.
AdamO
1
@ AdamO Ya, saya sebagian besar setuju, tetapi nilai-P memiliki dua hal untuk ditawarkan dan tidak boleh dihilangkan. Ini adalah indeks kekuatan bukti terhadap nol, sesuatu yang hanya dapat diperoleh dari interval kepercayaan dengan mata yang sangat berpengalaman, dan nilai-P yang tepat tidak secara langsung mengundang dikotomi dalam / luar yang interval kepercayaan tidak lakukan. . Tentu saja, fungsi kemungkinan menawarkan keunggulan dibandingkan keduanya.
Michael Lew
14

Dalam konteks penelitian terapan, ukuran efek diperlukan bagi pembaca untuk menafsirkan signifikansi praktis (yang bertentangan dengan signifikansi statistik) dari temuan. Secara umum, nilai-p jauh lebih sensitif terhadap ukuran sampel daripada ukuran efek. Jika percobaan mengukur ukuran efek secara akurat (yaitu cukup dekat dengan parameter populasi yang diestimasikan) tetapi menghasilkan nilai p tidak signifikan maka, semua hal sama, meningkatkan ukuran sampel akan menghasilkan ukuran efek yang sama tetapi nilai p yang lebih rendah. Ini dapat ditunjukkan dengan analisis daya atau simulasi.

Mengingat hal ini, dimungkinkan untuk mencapai nilai-p yang sangat signifikan untuk ukuran efek yang tidak memiliki signifikansi praktis. Sebaliknya, desain penelitian dengan daya rendah dapat menghasilkan nilai p yang tidak signifikan untuk ukuran efek yang sangat penting secara praktis.

Sulit untuk membahas konsep signifikansi statistik vis-a-vis ukuran efek tanpa aplikasi dunia nyata yang spesifik. Sebagai contoh, pertimbangkan eksperimen yang mengevaluasi efek dari metode pembelajaran baru terhadap rata-rata nilai siswa (IPK). Saya berpendapat bahwa ukuran efek 0,01 poin kelas memiliki signifikansi praktis yang kecil (yaitu 2,50 dibandingkan dengan 2,51). Dengan asumsi ukuran sampel 2.000 siswa dalam kelompok perlakuan dan kontrol, dan standar deviasi populasi 0,5 poin kelas:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

rata-rata sampel pengobatan = 2,51

sampel kontrol rata-rata = 2,50

efek ukuran = 2,51 - 2,50 = 0,01

p = 0,53

Meningkatkan ukuran sampel menjadi 20.000 siswa dan mempertahankan segala hal lainnya menghasilkan nilai p yang signifikan:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

rata-rata sampel pengobatan = 2,51

sampel kontrol rata-rata = 2,50

efek ukuran = 2,51 - 2,50 = 0,01

p = 0,044

Jelas itu bukan hal sepele untuk meningkatkan ukuran sampel dengan urutan besarnya! Namun, saya pikir kita semua bisa sepakat bahwa peningkatan praktis yang ditawarkan oleh metode studi ini dapat diabaikan. Jika kita hanya mengandalkan nilai-p maka kita mungkin percaya sebaliknya dalam kasus n = 20.000.

Secara pribadi saya menganjurkan untuk melaporkan nilai p dan ukuran efek. Dan poin bonus untuk t- atau F-statistik, derajat kebebasan dan diagnostik model!

Darren James
sumber
2
Darren, tolong tunjukkan apa yang sebenarnya Anda maksud dalam R atau sesuatu seperti PO.
user138773
7
@ James James Tidak ada kepentingan praktis dalam perbedaan antara p = 0,065 dan p = 0,043 di luar asumsi yang disayangkan bahwa p = 0,05 adalah garis terang yang harus dihormati. Nilai-P tidak mewakili bukti kuat untuk atau melawan sesuatu dengan sendirinya.
Michael Lew
@Michael Lew Ya, saya setuju!
Darren James
1
James, mengingat kode dan penjelasan Anda, Anda tampaknya benar-benar salah memahami poin OP. Kode R Anda juga salah! Karena Anda belum mengatur var.equal = TRUEsementara Anda sdsama. Dengan latar belakang seperti itu, saya tidak yakin mengapa Anda bahkan mengirim tanggapan seperti ini. OP mengajukan pertanyaan yang tidak memiliki jawaban yang mudah setidaknya pada saat ini!
user138773
1
Saya telah menambahkan var.equal = TRUE ke kode. Tapi itu tidak perlu dalam kasus ini. Nilai-p yang sama diperoleh dengan var.equal = TRUE dan default var.equal = FALSE.
Darren James
5

Saat ini saya bekerja di bidang sains data, dan sebelum itu saya bekerja dalam penelitian pendidikan. Sementara pada setiap "karier" saya telah berkolaborasi dengan orang-orang yang tidak datang dari latar belakang formal dalam statistik, dan di mana penekanan signifikansi statistik (dan praktis) sangat ditempatkan pada nilai -p . Saya telah belajar memasukkan dan menekankan ukuran efek dalam analisis saya karena ada perbedaan antara signifikansi statistik dan signifikansi praktis.

Secara umum, orang yang bekerja dengan saya peduli dengan satu hal "apakah program / fitur kami membuat dan berdampak, ya atau tidak?". Untuk pertanyaan seperti ini, Anda dapat melakukan sesuatu yang sederhana seperti uji-t dan melaporkan kepada mereka "ya, program / fitur Anda membuat perbedaan". Tetapi seberapa besar atau kecil "perbedaan" ini?

Pertama, sebelum saya mulai mempelajari topik ini, saya ingin meringkas apa yang kita rujuk ketika berbicara tentang ukuran efek

Ukuran efek hanyalah cara untuk mengukur ukuran perbedaan antara dua kelompok. [...] Ini sangat berharga untuk mengukur efektivitas intervensi tertentu, relatif terhadap beberapa perbandingan. Itu memungkinkan kita untuk bergerak melampaui yang simplistis, 'Apakah itu berhasil atau tidak?' ke yang jauh lebih canggih, 'Seberapa baik kerjanya dalam berbagai konteks?' Selain itu, dengan menempatkan penekanan pada aspek yang paling penting dari intervensi - ukuran efek - daripada signifikansi statistiknya (yang mengonfigurasikan ukuran efek dan ukuran sampel), ini mempromosikan pendekatan yang lebih ilmiah untuk akumulasi pengetahuan. Untuk alasan ini, ukuran efek adalah alat penting dalam melaporkan dan menafsirkan efektivitas.

Ini Ukuran Efek, Bodoh: Apa ukuran efek dan mengapa itu penting

Selanjutnya, apa itu nilai-p , dan informasi apa yang diberikannya kepada kami? Nah, nilai-p , dalam kata-kata sesedikit mungkin, adalah probabilitas bahwa perbedaan yang diamati dari distribusi nol adalah kebetulan. Karena itu, kami menolak (atau gagal menerima) hipotesis nol ketika nilai-p ini lebih kecil dari ambang (α).

Mengapa Nilai P Tidak Cukup?

Signifikansi statistik adalah probabilitas bahwa perbedaan yang diamati antara dua kelompok adalah karena kebetulan. Jika nilai P lebih besar dari tingkat alpha yang dipilih (misalnya, 0,05), setiap perbedaan yang diamati diasumsikan dijelaskan oleh variabilitas sampel. Dengan sampel yang cukup besar, uji statistik akan hampir selalu menunjukkan perbedaan yang signifikan, kecuali jika tidak ada efek apa pun, yaitu, ketika ukuran efeknya persis nol; namun perbedaan yang sangat kecil, meskipun signifikan, seringkali tidak berarti. Dengan demikian, pelaporan hanya nilai P signifikan untuk analisis tidak memadai bagi pembaca untuk sepenuhnya memahami hasil.

Dan untuk menguatkan komentar @ DarrenJames mengenai ukuran sampel yang besar

Misalnya, jika ukuran sampel adalah 10.000, nilai P yang signifikan mungkin ditemukan bahkan ketika perbedaan hasil antara kelompok dapat diabaikan dan mungkin tidak membenarkan intervensi mahal atau memakan waktu lebih dari yang lain. Tingkat signifikansi dengan sendirinya tidak memprediksi ukuran efek. Tidak seperti tes signifikansi, ukuran efek tidak tergantung pada ukuran sampel. Signifikansi statistik, di sisi lain, tergantung pada ukuran sampel dan ukuran efek. Untuk alasan ini, nilai P dianggap membingungkan karena ketergantungan mereka pada ukuran sampel. Terkadang hasil yang signifikan secara statistik hanya berarti bahwa ukuran sampel besar digunakan. [Ada pandangan keliru bahwa perilaku ini merupakan bias terhadap hipotesis nol.Mengapa pengujian hipotesis frequentist menjadi bias terhadap penolakan hipotesis nol dengan sampel yang cukup besar? ]

Menggunakan Ukuran Efek — atau Mengapa Nilai P Tidak Cukup

Laporkan Baik Nilai-P dan Ukuran Efek

Sekarang untuk menjawab pertanyaan, adalah efek ukuran superior untuk p-nilai ? Saya berpendapat, bahwa masing-masing berfungsi sebagai komponen penting dalam analisis statistik yang tidak dapat dibandingkan dalam istilah tersebut, dan harus dilaporkan bersama. Nilai -p adalah statistik untuk menunjukkan signifikansi statistik (perbedaan dari distribusi nol), di mana ukuran efek dimasukkan ke dalam kata-kata berapa banyak perbedaan yang ada.

Sebagai contoh, katakan atasan Anda, Bob, yang tidak terlalu ramah statistik tertarik untuk melihat apakah ada hubungan yang signifikan antara wt (berat) dan mpg (mil per galon). Anda memulai analisis dengan hipotesis

H0:βmhalg=0 vs. HSEBUAH:βmhalg0

sedang diuji di α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

Dari summaryoutput kita dapat melihat bahwa kita memiliki t-statistik dengan nilai p yang sangat kecil . Kami dapat dengan nyaman menolak hipotesis nol dan melaporkannyaβmhalg0. Namun, bos Anda bertanya, well, apa bedanya? Anda dapat memberi tahu Bob, "sepertinya ada hubungan linear negatif antara mpg dan wt . Juga, dapat diringkas bahwa untuk setiap peningkatan unit di wt ada penurunan 5,3445 dalam mpg "

Dengan demikian, Anda dapat menyimpulkan bahwa hasilnya signifikan secara statistik, dan mengomunikasikan signifikansi secara praktis.

Saya harap ini bermanfaat dalam menjawab pertanyaan Anda.

Jon
sumber
Jon, terima kasih, ada BANYAK area abu-abu yang kuharap bisa dengar lebih banyak tentangnya tapi aku tidak. Dalam banyak situasi, ukuran efek dan nilai-p tidak setuju. Banyak kepercayaan mempengaruhi ukuran dalam situasi seperti itu yang saya ingin tahu mengapa. Saya berharap untuk mendengar lebih banyak tentang simulasi yang dapat menunjukkan poin penting. Mengenai masalah yang Anda bahas yaitu, bahwa efek ukuran mungkin kecil tetapi tidak sepenuhnya nol; metode pengujian kesetaraan telah ada selama beberapa tahun sekarang. Saya lebih suka pengujian kesetaraan Bayesian. Bagaimanapun, saya mungkin tidak menanyakan pertanyaan saya dengan cukup jelas. - Terima kasih
rnorouzian
BTW, seorang kolega berkomentar bahwa kode R Daren salah, sepertinya dia benar. Dia belum menaruh var.equal = TRUE.
rnorouzian
* Dalam banyak situasi, ukuran efek dan nilai-p tidak setuju. * - dapatkah Anda memberikan informasi lebih lanjut tentang ini? Sebuah contoh? Mengenai masalah yang Anda bahas yaitu, bahwa ukuran efek mungkin kecil tetapi tidak persis nol - situasi ini dapat menghasilkan ukuran sampel yang besar. Dengan demikian jika ukuran efek hampir nol, maka variabel yang menarik mungkin tidak mempengaruhi hasil secara signifikan, atau hubungannya mungkin tidak ditentukan dengan benar (misalnya linear vs nonlinear).
Jon
Coba saja alat ini . Lihat juga dokumen ini . Sepertinya saya perlu mengajukan pertanyaan lain di lain waktu menggunakan beberapa kode untuk kejelasan. -- Terima kasih.
rnorouzian
@rnorouzian, oke, saya menjalankan kode Anda. Apa maksudmu
Jon
4

Kegunaan ukuran efek relatif terhadap nilai-p (serta metrik inferensi statistik lainnya) secara rutin diperdebatkan di bidang saya — psikologi — dan perdebatan saat ini “lebih panas”, dari biasanya dengan alasan yang relevan dengan pertanyaan Anda. Dan meskipun saya yakin psikologi tidak harus menjadi bidang ilmiah yang paling canggih secara statistik, psikologi siap membahas, mempelajari — dan terkadang, menunjukkan — keterbatasan berbagai pendekatan untuk inferensi statistik, atau setidaknya bagaimana mereka dibatasi oleh penggunaan manusia. Jawaban yang sudah diposting mencakup wawasan yang baik, tetapi jika Anda tertarik pada daftar yang lebih luas (dan referensi) alasan untuk dan menentang masing-masing, lihat di bawah.

Mengapa nilai p tidak diinginkan?

  • Seperti dicatat oleh Darren James (dan simulasi menunjukkan), nilai-p sebagian besar bergantung pada jumlah pengamatan yang Anda miliki (lihat Kirk, 2003)
  • Seperti yang dicatat oleh Jon, nilai-p menunjukkan probabilitas bersyarat untuk mengamati data sebagai ekstrem atau lebih ekstrem mengingat hipotesis nol itu benar. Karena sebagian besar peneliti lebih suka memiliki probabilitas hipotesis penelitian, dan / atau hipotesis nol, nilai-p tidak berbicara dengan probabilitas di mana peneliti paling tertarik (yaitu, hipotesis nol atau penelitian, lihat Dienes, 2008)
  • Banyak yang menggunakan nilai-p tidak mengerti apa artinya / tidak berarti (Schmidt & Hunter, 1997). Referensi Michael Lew untuk makalah Gelman dan Stern (2006) lebih jauh menggarisbawahi kesalahpahaman peneliti tentang apa yang dapat (atau tidak bisa) ditafsirkan oleh p-values. Dan seperti yangdiperlihatkan olehsebuah kisah yang relatif baru tentang FiveThirtyEight , ini terus menjadi masalahnya.
  • nilai-p tidak hebat dalam memprediksi nilai-p berikutnya (Cumming, 2008)
  • nilai-p sering salah dilaporkan (lebih sering menggembungkan signifikansi), dan kesalahan pelaporan dikaitkan dengan keengganan untuk berbagi data (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • nilai-p dapat (dan secara historis, telah) secara aktif didistorsi melalui fleksibilitas analitik, dan karenanya tidak dapat dipercaya (John et al., 2012; Simmons et al., 2011)
  • nilai-p secara signifikan tidak proporsional, karena sistem akademik muncul untuk menghargai para ilmuwan untuk signifikansi statistik atas akurasi ilmiah (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Mengapa ukuran efek diinginkan?

Perhatikan bahwa saya menafsirkan pertanyaan Anda sebagai merujuk khusus untuk ukuran efek standar, seperti yang Anda katakan mereka memungkinkan peneliti untuk mengubah temuan mereka "menjadi metrik UMUM".

  • Seperti yang ditunjukkan oleh Jon dan Darren James, ukuran efek menunjukkan besarnya efek, terlepas dari jumlah pengamatan (American Psychological Association 2010; Cumming, 2014) sebagai lawan untuk membuat keputusan dikotomis apakah ada efek ada atau tidak ada.
  • Ukuran efek sangat berharga karena memungkinkan meta-analisis, dan meta-analisis mendorong pengetahuan kumulatif (Borenstein et al., 2009; Chan & Arvey, 2012)
  • Ukuran efek membantu memfasilitasi perencanaan ukuran sampel melalui analisis kekuatan apriori , dan karenanya alokasi sumber daya yang efisien dalam penelitian (Cohen, 1992)

Mengapa nilai p diinginkan?

Meskipun lebih jarang dianut, nilai-p memiliki sejumlah keistimewaan. Beberapa dikenal dan berumur panjang, sedangkan yang lain relatif baru.

  • Nilai-P memberikan indeks yang nyaman dan akrab tentang kekuatan bukti terhadap model statistik hipotesis nol.

  • Ketika dihitung dengan benar, nilai-p menyediakan cara untuk membuat keputusan dikotomis (yang kadang-kadang diperlukan), dan nilai-p membantu menjaga tingkat kesalahan positif-palsu jangka panjang pada tingkat yang dapat diterima (Dienes, 2008; Sakaluk, 2016) [Ini tidak sepenuhnya benar untuk mengatakan bahwa nilai-P diperlukan untuk keputusan dikotomis. Mereka memang banyak digunakan seperti itu, tetapi Neyman & Pearson menggunakan 'wilayah kritis' dalam ruang statistik uji untuk tujuan itu. Lihat pertanyaan ini dan jawabannya]

  • nilai-p dapat digunakan untuk memfasilitasi perencanaan ukuran sampel yang efisien secara berkelanjutan (bukan hanya analisis daya satu kali) (Lakens, 2014)
  • nilai-p dapat digunakan untuk memfasilitasi meta-analisis dan mengevaluasi nilai bukti (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Lihat blogpost ini untuk diskusi yang dapat diakses tentang bagaimana distribusi nilai-p dapat digunakan dengan cara ini, serta posting CV ini untuk diskusi terkait.
  • nilai-p dapat digunakan secara forensik untuk menentukan apakah praktik penelitian yang dipertanyakan mungkin telah digunakan, dan bagaimana hasil yang dapat ditiru mungkin (Schimmack, 2014; juga lihat aplikasi Schönbrodt, 2015)

Mengapa ukuran efek tidak diinginkan (atau dibesar-besarkan)?

Mungkin posisi kontra-intuitif bagi banyak orang; mengapa pelaporan ukuran efek standar tidak diinginkan, atau paling tidak, berlebihan?

  • Dalam beberapa kasus, ukuran efek terstandarisasi tidak sepenuhnya sesuai dengan yang seharusnya (misalnya, Greenland, Schlesselman, & Criqui, 1986). Baguely (2009), khususnya, memiliki deskripsi yang bagus tentang beberapa alasan mengapa ukuran efek mentah / tidak standar mungkin lebih diinginkan.
  • Terlepas dari kegunaannya untuk analisis kekuatan apriori, ukuran efek tidak benar-benar digunakan secara andal untuk memfasilitasi perencanaan ukuran sampel yang efisien (Maxwell, 2004)
  • Bahkan ketika ukuran efek digunakan dalam perencanaan ukuran sampel, karena mereka meningkat melalui bias publikasi (Rosenthal, 1979) ukuran efek yang dipublikasikan adalah utilitas yang dipertanyakan untuk perencanaan ukuran sampel yang andal (Simonsohn, 2013)
  • Perkiraan ukuran efek dapat — dan telah — salah perhitungan sistemik dalam perangkat lunak statistik (Levine & Hullet, 2002)
  • Ukuran efek diekstraksi secara keliru (dan mungkin salah dilaporkan) yang merongrong kredibilitas meta-analisis (Gøtzsche et al., 2007)
  • Terakhir, mengoreksi bias publikasi dalam ukuran efek tetap tidak efektif (lihat Carter et al., 2017), yang, jika Anda yakin ada bias publikasi, menjadikan meta-analisis kurang berdampak.

Ringkasan

Mengusung poin yang dibuat oleh Michael Lew, nilai p dan ukuran efek hanyalah dua potong bukti statistik; ada orang lain yang layak dipertimbangkan juga. Tetapi seperti nilai-p dan ukuran efek, metrik lain dari nilai bukti telah berbagi dan masalah unik juga. Para peneliti umumnya salah menerapkan dan menafsirkan interval kepercayaan (misalnya, Hoekstra et al., 2014; Morey et al., 2016), misalnya, dan hasil analisis Bayesian dapat terdistorsi oleh para peneliti, sama seperti ketika menggunakan nilai-p (misalnya, Simonsohn , 2014).

Semua metrik bukti telah menang dan semua harus memiliki hadiah.

Referensi

Asosiasi Psikologis Amerika. (2010). Manual publikasi dari American Psychological Association (edisi ke-6). Washington, DC: Asosiasi Psikologis Amerika.

Baguley, T. (2009). Ukuran efek terstandarisasi atau sederhana: Apa yang harus dilaporkan? British Journal of Psychology, 100 (3), 603-617.

Bakker, M., & Wicherts, JM (2011). Pelaporan (salah) hasil statistik dalam jurnal psikologi. Metode penelitian perilaku, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Pengantar meta-analisis. Sussex Barat, Inggris: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 Agustus). Mengoreksi bias dalam psikologi: Perbandingan metode meta-analitik. Diperoleh dari osf.io/preprints/psyarxiv/9h3nu

Chan, ME, & Arvey, RD (2012). Analisis meta dan pengembangan pengetahuan. Perspektif Ilmu Psikologi, 7 (1), 79-92.

Cohen, J. (1992). Primer kekuatan. Buletin Psikologis, 112 (1), 155-159. 

Cumming, G. (2008). Replikasi dan interval p: nilai p memperkirakan masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik. Perspektif tentang Ilmu Psikologi, 3, 286- 300.

Dienes, D. (2008). Memahami psikologi sebagai ilmu: Pengantar inferensi ilmiah dan statistik. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). Hasil "Positif" meningkatkan hierarki sains. PloS satu, 5 (4), e10068.

Gelman, A., & Stern, H. (2006). Perbedaan antara "signifikan" dan "tidak signifikan" itu sendiri tidak signifikan secara statistik. Ahli Statistik Amerika, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Kesalahan ekstraksi data dalam meta-analisis yang menggunakan perbedaan rata-rata terstandarisasi. JAMA, 298 (4), 430-437.

Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Kekeliruan menggunakan koefisien regresi standar dan korelasi sebagai ukuran efek. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Kesalahan interpretasi interval kepercayaan. Buletin & ulasan psikis, 21 (5), 1157-1164.

John, LK, Loewenstein, G., & Prelec, D. (2012). Mengukur prevalensi praktik penelitian yang dipertanyakan dengan insentif untuk pengungkapan kebenaran. PsychologicalSscience, 23 (5), 524-532.

Kirk, RE (2003). Pentingnya efek efek. Dalam SF Davis (Ed.), Buku Pegangan metode penelitian dalam psikologi eksperimental (hal. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Melakukan studi berdaya tinggi secara efisien dengan analisis berurutan. European Journal of Social Psychology, 44 (7), 701-710.

Levine, TR, & Hullett, CR (2002). Eta kuadrat, eta parsial kuadrat, dan kesalahan pelaporan ukuran efek dalam penelitian komunikasi. Penelitian Komunikasi Manusia, 28 (4), 612-625.

Maxwell, SE (2004). Kegigihan studi yang kurang kuat dalam penelitian psikologis: penyebab, konsekuensi, dan perbaikan. Metode psikologis, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Pembuat Wagen, EJ (2016). Kesalahan menempatkan kepercayaan dalam interval kepercayaan. Buletin & ulasan psikis, 23 (1), 103-123.

Nosek, BA, Spies, JR, & Motyl, M. (2012). Utopia ilmiah: II. Restrukturisasi insentif dan praktik untuk mempromosikan kebenaran daripada publikasi. Perspektif Ilmu Psikologi, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). Prevalensi kesalahan pelaporan statistik dalam psikologi (1985-2013). Metode penelitian perilaku, 48 (4), 1205-1226.

Rosenthal, R. (1979). Masalah laci file dan toleransi untuk hasil nol. Buletin Psikologis, 86 (3), 638-641.

Sakaluk, JK (2016). Menjelajahi kecil, mengkonfirmasikan besar: Sistem alternatif untuk statistik baru untuk memajukan penelitian psikologis kumulatif dan dapat ditiru. Jurnal Psikologi Sosial Eksperimental, 66, 47-54.

Schimmack, U. (2014). Mengukur Integritas Penelitian Statistik: Indeks-Replikasi. Diperoleh dari http://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997). Delapan keberatan umum tetapi salah untuk penghentian pengujian signifikansi dalam analisis data penelitian. Dalam LL Harlow, SA Mulaik, & JH Steiger (Eds.), Bagaimana jika tidak ada tes signifikansi? (hlm. 37-64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-checker: Satu-untuk-semua analisa nilai-p. Diperoleh dari http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). Psikologi positif palsu: Fleksibilitas yang tidak diungkapkan dalam pengumpulan dan analisis data memungkinkan penyajian yang penting. Ilmu psikologi, 22 (11), 1359-1366.

Simonsohn, U. (2013). Kebodohan replikasi powering berdasarkan ukuran efek yang diamati. Diperoleh dari http://datacolada.org/4

Simonsohn, U. (2014). Peretasan posterior. Diperoleh dari http://datacolada.org/13 .

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-curve: Kunci untuk file-laci. Jurnal Psikologi Eksperimental: Umum, 143 (2), 534-547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Kurva P dan ukuran efek: Memperbaiki bias publikasi hanya menggunakan hasil yang signifikan. Perspektif tentang Ilmu Psikologi, 9 (6), 666-681.

Wicherts, JM, Bakker, M., & Molenaar, D. (2011). Kesediaan untuk berbagi data penelitian terkait dengan kekuatan bukti dan kualitas pelaporan hasil statistik. PloS satu, 6 (11), e26828.

jsakaluk
sumber
2
Koleksi ide dan referensi yang sangat bagus. Seharusnya bermanfaat bagi mereka yang ingin menggali sedikit lebih jauh, tetapi perhatikan bahwa banyak poin memiliki pertanyaan dan jawaban yang relevan di situs ini. Tautan ke mereka juga akan membantu.
Michael Lew
@MichaelLew Terima kasih. Saya akan melihat tentang menambahkan beberapa tautan ketika saya punya waktu nanti - butuh bagian sore yang lebih baik untuk menyusun tanggapan ini, dan mengumpulkan referensi. Mengenai hasil edit Anda, saya pikir poin Anda diambil dengan baik, tetapi mungkin lebih merupakan tambahan, yang bertentangan dengan koreksi? Saya mengatakan p-values ​​memberikan a sarana untuk membuat keputusan dikotomis (tidak bahwa mereka "diperlukan", atau satu-satunya cara untuk melakukannya). Saya setuju bahwa wilayah kritis NP adalah cara lain, tetapi saya menanggapi OP dalam konteks apa yang p-value beli vs ukuran efek standar.
jsakaluk
1
jsakaluk, ya saya bisa melihat bahwa Anda akan menghabiskan waktu yang lama untuk jawabannya dan itu sangat berguna dan layak untuk usaha Anda. Saya mengedit item pada keuntungan dari nilai-P karena Anda menulis "Ketika digunakan dengan benar" mereka dapat didikotomikan, sedangkan kenyataannya adalah bahwa penggunaan seperti itu mengabaikan banyak informasi yang dikodekan dalam nilai-P dan jadi bisa dibilang (dan menurut saya) penggunaan yang salah. Saya tidak ingin menumbangkan niat Anda, jadi saya mengubah "dulu" menjadi "dihitung".
Michael Lew
3

Dari sudut pandang seorang Epidemiologis, tentang mengapa saya lebih suka ukuran efek daripada nilai-p (meskipun seperti yang dicatat beberapa orang, ini adalah dikotomi yang salah):

  1. Ukuran efek memberitahu saya apa yang sebenarnya saya inginkan, nilai -p hanya memberitahu saya jika itu dapat dibedakan dari nol. Risiko relatif 1.0001, 1.5, 5, dan 50 semuanya mungkin memiliki nilai p yang sama dengan mereka, tetapi memiliki arti yang sangat berbeda dalam hal apa yang perlu kita lakukan pada tingkat populasi.
  2. Mengandalkan nilai-p menguatkan anggapan bahwa pengujian hipotesis berbasis signifikansi adalah bukti akhir, semua-semua. Pertimbangkan dua pernyataan berikut: "Dokter yang tersenyum pada pasien tidak secara signifikan dikaitkan dengan hasil yang merugikan selama mereka tinggal di rumah sakit." vs. "Pasien yang memiliki dokter mereka tersenyum pada mereka adalah 50% lebih kecil kemungkinannya untuk mendapatkan hasil yang buruk (p = 0,086)." Apakah Anda masih, mungkin, mengingat itu sama sekali tidak ada biaya, pertimbangkan menyarankan dokter tersenyum pada pasien mereka?
  3. Saya bekerja dengan banyak model simulasi stokastik, di mana ukuran sampel adalah fungsi dari daya komputasi dan kesabaran, dan nilai-p pada dasarnya tidak ada artinya. Saya telah berhasil mendapatkan p <0,05 hasil untuk hal-hal yang sama sekali tidak memiliki relevansi klinis atau kesehatan masyarakat.
Fomite
sumber