Dapatkah nilai-p untuk uji korelasi Pearson dihitung hanya dari koefisien korelasi dan ukuran sampel?

12

Latar belakang: Saya membaca satu artikel di mana penulis melaporkan korelasi Pearson 0,754 dari ukuran sampel 878. Menghasilkan nilai p untuk uji korelasi adalah signifikansi "bintang dua" (yaitu p <0,01). Namun, saya berpikir bahwa dengan ukuran sampel yang besar, nilai-p yang sesuai harus kurang dari 0,001 (yaitu tiga bintang signifikan).

  • Bisakah nilai-p untuk pengujian ini dihitung hanya dari koefisien korelasi Pearson dan ukuran sampel?
  • Jika ya, bagaimana ini bisa dilakukan dalam R?
Miroslav Sabo
sumber
1
Bagi yang berminat, berikut ini adalah kalkulator nilai-p online yang menggunakan r dan n .
Jeromy Anglim

Jawaban:

14

Ya, itu bisa dilakukan, jika Anda menggunakan transformasi R-to-z Fisher. Metode lain (misalnya bootstrap) dapat memiliki beberapa kelebihan tetapi membutuhkan data asli. Dalam R ( r adalah koefisien korelasi sampel, n adalah jumlah pengamatan):

z <- 0.5 * log((1+r)/(1-r))
zse <- 1/sqrt(n-3)
min(pnorm(z, sd=zse), pnorm(z, lower.tail=F, sd=zse))*2

Lihat juga posting ini di blog saya .

Yang mengatakan, apakah itu 0,01 atau 0,001 tidak masalah banyak. Seperti yang Anda katakan, ini sebagian besar merupakan fungsi dari ukuran sampel dan Anda sudah tahu bahwa ukuran sampelnya besar. Kesimpulan logisnya adalah bahwa Anda mungkin bahkan tidak memerlukan tes sama sekali (terutama bukan tes yang disebut hipotesis 'nil' bahwa korelasinya adalah 0). Dengan N = 878, Anda bisa cukup percaya diri dalam ketepatan estimasi dan fokus pada menafsirkannya secara langsung (yaitu .75 besar di bidang Anda?).

Namun secara formal, ketika Anda melakukan tes statistik dalam kerangka kerja Neyman-Pearson, Anda perlu menentukan tingkat kesalahan terlebih dahulu. Jadi, jika hasil tes benar-benar penting dan penelitian direncanakan dengan 0,01 sebagai ambang batas, itu hanya masuk akal untuk laporan p <0,01 dan Anda tidak harus oportunis membuat p <0,001 berdasarkan diperoleh p value. Jenis fleksibilitas yang tidak diungkapkan ini bahkan merupakan salah satu alasan utama di balik kritik terhadap bintang-bintang kecil dan lebih umum tentang cara pengujian signifikansi nol-hipotesis dipraktikkan dalam ilmu sosial.

Lihat juga Meehl, PE (1978). Risiko teoretis dan tanda bintang: Sir Karl, Sir Ronald, dan lambatnya perkembangan psikologi lunak. Jurnal Konsultasi dan Psikologi Klinis, 46 (4), 806-834. (Judul berisi referensi untuk "bintang-bintang" ini tetapi isinya adalah diskusi yang jauh lebih luas tentang peran pengujian signifikansi.)

Gala
sumber
1
Saya mungkin akan menyarankan mereka untuk memberikan bintang-bintang kecil, meskipun hasilnya benar tetapi saya mengerti maksud Anda.
Gala
1
Saya mengedit jawaban saya untuk menambahkan komentar tentang masalah ini. Perhatikan bahwa 0,001 <0,01 sehingga penulis secara resmi “benar” dalam hal apa pun, itu lebih merupakan masalah bagaimana cara hasil dilaporkan. Saya akan berpikir bahwa, tidak seperti kesalahan langsung bahwa peninjau tentu saja harus benar, masalah ini harus diserahkan kepada penulis untuk memutuskan.
Gala
1
Anda benar, tetapi sejauh ini saya belum pernah melihat melaporkan p <0,01 jika p sebenarnya kurang dari 0,001 (tanpa mengatakan bahwa tingkat kepercayaan untuk artikel adalah 0,01). Selain itu, dalam artikel yang saya bicarakan, penulis melaporkan 30 uji korelasi berdasarkan ukuran sampel mulai dari 837 hingga 886 dengan korelasi mulai dari 0,145 hingga 0,754 dan semuanya dilaporkan sebagai dua bintang yang signifikan.
Miroslav Sabo
1
Saya mempunyai masalah untuk memposting kode saya di sini, tetapi saya menjalankan simulasi dan p-value dari kode Anda tidak sama dengan p-value dari cor.test.
Miroslav Sabo
4
Saya menulis ulasan tutorial tentang penggunaan Fisher's z untuk korelasi yang dapat diakses di stata-journal.com/sjpdf.html?articlenum=pr0041 Saya akan merekomendasikan lebih banyak menggunakan interval kepercayaan dan menghitung 0,724, 0,781 sebagai batas 95%. Saya akan merekomendasikan lebih melihat data dan mengerjakan regresi.
Nick Cox
2

Anda menggunakan transformasi R-to-z Fisher.

Ada statistik alternatif:

abs(r)*sqrt((n-2)/(1-r^2)) ~ t.dist(d.f.=n-2)

yang memiliki distribusi-t dengan n-2 derajat kebebasan. Begitulah cara kerjanya misalnya: http://www.danielsoper.com/statcalc3/calc.aspx?id=44

Germaniawerks
sumber