Selain banyak (yang benar) komentar oleh pengguna lain menunjukkan bahwa p -nilai untuk r2 identik dengan p -nilai untuk global F tes, catatan bahwa Anda juga bisa mendapatkan p -nilai terkait dengan r2 " langsung "menggunakan fakta bahwa r2 bawah hipotesis nol didistribusikan sebagai , di manavndanvdadalah derajat pembilang dan penyebut kebebasan, masing-masing, untukF-statisticterkait.Beta(vn2,vd2)vnvdF
Poin ke-3 dalam turunan dari subbagian distribusi lain dari entri Wikipedia tentang distribusi beta memberi tahu kita bahwa:
Jika dan Y ∼ χ 2 ( β ) independen, maka XX∼χ2(α)Y∼χ2(β).XX+Y∼Beta(α2,β2)
Kita bisa menulis di X itur2Formulir X + Y.XX+Y
Biarkan adalah jumlah total kotak untuk variabel Y , S S E adalah jumlah dari kesalahan kuadrat untuk regresi Y pada beberapa variabel lain, dan S S R menjadi "jumlah kuadrat berkurang," yaitu, S S R = S S Y - S S E . Kemudian
r 2 = 1 - S S ESSYYSSEYSSRSSR=SSY−SSE
Dan tentu saja, sebagai jumlah kuadrat,SSRdanSSEkeduanya didistribusikan sebagaiχ2denganvndanvdderajat kebebasan, masing-masing. Oleh karena itu,
r2∼Beta(vn
r2=1−SSESSY=SSY−SSESSY=SSRSSR+SSE
SSRSSEχ2vnvd
(Tentu saja, saya tidak menunjukkan bahwa kedua chi-square itu independen. Mungkin seorang komentator dapat mengatakan sesuatu tentang itu.)
r2∼Beta(vn2,vd2)
Demonstrasi dalam R (meminjam kode dari @ung):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
. P untuk r adalah.265
. P untuk b & untuk uji F global identik, meskipun p untuk a adalah6.96e-09
.R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
, bagaimana mereka tidak identik?Ada beberapa cara untuk memperoleh statistik uji untuk tes korelasi Pearson, . Untuk mendapatkan nilai- p , perlu ditekankan bahwa Anda memerlukan tes dan distribusi sampel statistik uji di bawah hipotesis nol. Judul dan pertanyaan Anda tampaknya memiliki beberapa kebingungan antara korelasi Pearson dan "perbedaan dijelaskan" r 2 . Saya akan mempertimbangkan koefisien korelasi terlebih dahulu.ρ p r2
Tidak ada cara "terbaik" untuk menguji korelasi Pearson yang saya sadari. Transformasi Fisher's Z adalah salah satu cara, berdasarkan transformasi hiperbolik, sehingga kesimpulannya sedikit lebih efisien. Ini tentu saja merupakan pendekatan "baik", tetapi yang menyedihkan adalah bahwa inferensi untuk parameter ini konsisten dengan inferensi tentang parameter slope untuk asosiasi: mereka menceritakan kisah yang sama dalam jangka panjang.β
Alasan mengapa ahli statistik memiliki (secara klasik) tes yang sepenuhnya lebih disukai dari adalah karena kami memang memiliki tes "terbaik": regresi linier, yang merupakan estimator BLUE. Di masa statistik modern, kita tidak benar-benar peduli jika tes itu "terbaik" lagi, tetapi regresi linier memiliki banyak sifat fantastis lainnya yang membenarkan penggunaannya yang berkelanjutan untuk menentukan hubungan antara dua variabel. Secara umum, intuisi Anda benar: intinya hal yang sama, dan kami memfokuskan perhatian kami pada β sebagai ukuran asosiasi yang lebih praktis.β β
The adalah fungsi dari kedua lereng dan mencegat. Jika salah satu dari nilai-nilai ini bukan nol, r 2 harus memiliki distribusi sampel yang dapat dilihat relatif terhadap apa yang diharapkan jika parameter linier adalah nol. Namun, menurunkan distribusi r 2 di bawah nol dan membandingkan dengan r 2r2 r2 r2 r2 di bawah beberapa hipotesis alternatif tidak memberi saya kepercayaan diri bahwa tes ini memiliki banyak kekuatan untuk mendeteksi apa yang kita inginkan. Hanya firasat. Sekali lagi beralih ke penaksir "terbaik", OLS memberi kami perkiraan "terbaik" untuk kemiringan dan penyadapan, jadi kami memiliki keyakinan bahwa pengujian kami setidaknya baik untuk menentukan hubungan yang sama (jika ada) dengan langsung menguji parameter model . Bagi saya, bersama-sama menguji dan β dengan OLS lebih unggul daripada tes apa pun tentang r 2 kecuali dalam kasus yang jarang terjadi (mungkin) aplikasi kalibrasi pemodelan prediksi non-bersarang ... tapi BIC mungkin akan menjadi ukuran yang lebih baik dalam skenario itu bagaimanapun.α β r2
sumber
Ini bukan cara saya menafsirkan banyak hal. Saya tidak berpikir saya akan pernah menghitung nilai untuk r atau r 2 . r dan r 2 adalah ukuran kualitatif dari suatu model, bukan ukuran yang kami bandingkan dengan distribusi, sehingga nilai p tidak masuk akal.p r r2 r r2 p
sumber