Pertanyaan saya muncul dari diskusi dengan @whuber di komentar pertanyaan yang berbeda .
Secara khusus, komentar @whuber adalah sebagai berikut:
Salah satu alasan yang mungkin mengejutkan Anda adalah bahwa asumsi yang mendasari uji korelasi dan uji kemiringan regresi berbeda - jadi bahkan ketika kita memahami bahwa korelasi dan kemiringan benar-benar mengukur hal yang sama, mengapa nilai-p mereka harus sama? Itu menunjukkan bagaimana masalah ini lebih dalam dari sekadar apakah dan harus sama secara numerik.β
Ini membuat saya berpikir tentang hal itu dan saya menemukan berbagai jawaban menarik. Sebagai contoh, saya menemukan pertanyaan ini " Asumsi koefisien korelasi " tetapi tidak dapat melihat bagaimana ini akan mengklarifikasi komentar di atas.
Saya menemukan jawaban yang lebih menarik tentang hubungan Pearson dan slope dalam regresi linier sederhana (lihat di sini dan di sini misalnya) tetapi tidak satupun dari mereka yang menjawab apa yang dimaksud @whuber dalam komentarnya (setidaknya tidak jelas untuk saya).β
Pertanyaan 1: Apa asumsi yang mendasari uji korelasi dan uji kemiringan regresi?
Untuk pertanyaan ke-2 saya, pertimbangkan output berikut dalam R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
Dan output dari cor.test()
fungsi:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Seperti yang bisa dilihat oleh lm()
dan cov.test()
output, Pearson koefisien korelasi dan estimasi slope ( β 1 ) sebagian besar berbeda, 0,96 vs 0,485, masing-masing, tetapi t-nilai dan p-nilai yang sama.
Kemudian saya juga mencoba melihat apakah saya bisa menghitung nilai-t untuk dan β 1 , yang sama meskipun r dan β 1 berbeda. Dan di situlah saya terjebak, setidaknya untuk r :
Hitung kemiringan ( ) dalam regresi linier sederhana menggunakan total jumlah kuadrat x dan y :
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Hitung estimasi kuadrat-terkecil dari kemiringan regresi, (ada bukti tentang hal ini dalam Crawley's R Book edisi 1 , halaman 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Hitung kesalahan standar untuk :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
Dan nilai-t dan nilai-p untuk :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
Apa yang saya tidak tahu pada titik ini, dan ini adalah Pertanyaan 2 , adalah, bagaimana cara menghitung nilai-t yang sama menggunakan bukannya β 1 (mungkin dalam langkah-langkah bayi)?
Saya berasumsi bahwa karena cor.test()
hipotesis alternatif 's adalah apakah benar korelasi tidak sama dengan 0 (lihat cor.test()
output di atas), aku akan mengharapkan sesuatu seperti Pearson koefisien korelasi dibagi dengan 'standard error dari koefisien korelasi Pearson'(mirip dengan atas)?! Tapi apa kesalahan standar itu dan mengapa?b1/se.b1
Mungkin ini ada hubungannya dengan asumsi yang disebutkan di atas yang mendasari uji korelasi dan uji kemiringan regresi ?!
EDIT (27-Jul-2017): While @whuber memberikan penjelasan yang sangat terperinci untuk Pertanyaan 1 (dan sebagian Pertanyaan 2 , lihat komentar di bawah jawabannya), saya melakukan penggalian lebih lanjut dan menemukan bahwa dua pos ini (di sini dan di sini ) melakukan menunjukkan kesalahan standar khusus untuk , yang berfungsi baik untuk menjawab Pertanyaan 2 , yaitu mereproduksi nilai-t yang diberikan r :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Jawaban:
pengantar
Balasan ini membahas motivasi yang mendasari serangkaian pertanyaan ini:
Mengingat latar belakang yang disediakan dalam pertanyaan, saya ingin menyarankan sedikit memperluas pertanyaan ini: mari kita jelajahi tujuan yang berbeda . dan konsep yang dari korelasi dan regresi.
Korelasi biasanya digunakan dalam situasi di mana
Data bersifat bivariat: tepat dua nilai minat yang berbeda dikaitkan dengan setiap "subjek" atau "pengamatan".
Data bersifat observasional: tidak satu pun dari nilai-nilai yang ditetapkan oleh eksperimen. Keduanya diamati atau diukur.
Minat terletak pada mengidentifikasi, mengukur, dan menguji semacam hubungan antara variabel.
Regresi digunakan dimana
Data bersifat bivariat atau multivariat: mungkin ada lebih dari dua nilai minat yang berbeda.
Minat berfokus pada memahami apa yang dapat dikatakan tentang subset dari variabel - variabel "dependen" atau "respons" - berdasarkan pada apa yang mungkin diketahui tentang subset lainnya - variabel "independen" atau "regressor."
Nilai spesifik dari regressor mungkin telah ditetapkan oleh eksperimen.
Tujuan dan situasi yang berbeda ini mengarah pada pendekatan yang berbeda. Karena utas ini memperhatikan persamaannya, mari fokus pada kasus di mana mereka paling mirip: data bivariat. Dalam kedua kasus tersebut, data tersebut biasanya akan dimodelkan sebagai realisasi dari variabel acak . Secara umum, kedua bentuk analisis mencari penokohan yang relatif sederhana dari variabel ini.(X,Y)
Korelasi
Saya percaya "analisis korelasi" belum pernah secara umum didefinisikan. Haruskah itu terbatas pada penghitungan koefisien korelasi, atau dapatkah itu dianggap lebih luas sebagai terdiri dari PCA, analisis klaster, dan bentuk-bentuk analisis lain yang menghubungkan dua variabel? Apakah sudut pandang Anda terbatas atau luas, mungkin Anda akan setuju bahwa deskripsi berikut ini berlaku:
Misalnya, Anda dapat mulai dengan mengasumsikan memiliki distribusi Normal bivariat dan menggunakan koefisien korelasi Pearson dari data untuk memperkirakan salah satu parameter dari distribusi itu. Ini adalah salah satu konsepsi korelasi yang paling sempit (dan tertua).(X,Y)
Sebagai contoh lain, Anda mungkin dengan mengasumsikan dapat memiliki distribusi apa pun dan menggunakan analisis kluster untuk mengidentifikasi k "pusat". Orang mungkin menafsirkan bahwa sebagai awal dari resolusi distribusi ( X , Y ) menjadi campuran distribusi bivariat unimodal, satu untuk setiap cluster.(X,Y) k (X,Y)
Satu hal yang umum untuk semua pendekatan ini adalah perlakuan simetris dan YX Y : tidak ada yang lebih istimewa daripada yang lain. Keduanya memainkan peran yang setara.
Regresi
Regresi menikmati definisi yang jelas dan dipahami secara universal:
Secara historis, regresi jejak akarnya penemuan Galton (c 1885.) Yang bivariat data yang normal menikmati linear regresi: ekspektasi bersyarat dari Y adalah fungsi linear dari X . Pada satu kutub dari spektrum umum-khusus adalah Regresi Kuadrat Terkecil Biasa (OLS) di mana distribusi bersyarat Y diasumsikan Normal ( β 0 + β 1 X , σ 2 ) untuk parameter tetap β 0 , β 1 , dan σ(X,Y) Y X Y (β0+β1X,σ2) β0,β1, σ diperkirakan dari data.
Pada ujung yang sangat umum dari spektrum ini adalah model linier umum, model aditif umum, dan lain-lain sejenisnya yang mengendurkan semua aspek OLS: harapan, varian, dan bahkan bentuk distribusi bersyarat dapat dibiarkan bervariasi secara nonlinier. dengan X . Konsep yang bertahan dari semua generalisasi ini adalah bahwa minat tetap terfokus pada pemahaman bagaimana Y bergantung pada XY X Y X . Asimetri fundamental itu masih ada.
Korelasi dan Regresi
Satu situasi yang sangat khusus adalah umum untuk kedua pendekatan dan sering dijumpai: model Normal bivariat. Dalam model ini, sebar data akan mengasumsikan bentuk klasik "football," oval, atau cerutu: data tersebar secara elips di sekitar sepasang sumbu ortogonal.
Analisis korelasi berfokus pada "kekuatan" hubungan ini, dalam arti bahwa penyebaran yang relatif kecil di sekitar sumbu utama adalah "kuat."
Seperti yang dikomentari di atas, regresi pada X (dan, yang sama, regresi X pada Y ) linier : harapan bersyarat dari respons adalah fungsi linier dari regressor.Y X X Y
(Ada baiknya merenungkan perbedaan geometris yang jelas antara kedua deskripsi: mereka menerangi perbedaan statistik yang mendasarinya.)
Dari lima parameter Normal bivariat (dua rata-rata, dua spread, dan satu lagi yang mengukur ketergantungan antara dua variabel), satu adalah kepentingan umum: parameter kelima, . Ini secara langsung (dan sederhana) terkait denganρ
Koefisien dalam regresi Y pada X .X Y X
Koefisien dalam regresi X pada Y .Y X Y
Varians bersyarat di salah satu regresi dan ( 2 ) .(1) (2)
Penyebaran sekitar sumbu elips (diukur sebagai varian).(X,Y)
Sebuah analisis korelasi berfokus pada , tanpa membedakan peran X dan Y .(4) X Y
Analisis regresi berfokus pada versi hingga ( 3 ) yang sesuai dengan pilihan variabel regresi dan respons.(1) (3)
Dalam kedua kasus, hipotesis menikmati peran khusus: ini menunjukkan tidak ada korelasi dan juga tidak ada variasi Y sehubungan dengan XH0:ρ=0 Y X . Karena (dalam situasi yang paling sederhana ini) kedua model probabilitas dan hipotesis nol yang umum untuk korelasi dan regresi, itu seharusnya tidak mengejutkan bahwa kedua metode berbagi minat dalam statistik yang sama (apakah disebut " " atau " β "); bahwa distribusi sampling nol dari statistik tersebut adalah sama; dan (karenanya) bahwa uji hipotesis dapat menghasilkan nilai-p yang identik.r β^
Aplikasi umum ini, yang merupakan yang pertama kali dipelajari orang, dapat mempersulit untuk mengenali betapa berbedanya korelasi dan regresi dalam konsep dan tujuan mereka. Hanya ketika kita mengetahui tentang generalisasi mereka, perbedaan yang mendasarinya diekspos. Akan sulit untuk menafsirkan GAM sebagai memberikan banyak informasi tentang "korelasi," seperti halnya sulit untuk membingkai analisis cluster sebagai bentuk "regresi." Keduanya adalah keluarga prosedur yang berbeda dengan tujuan yang berbeda, masing-masing bermanfaat dalam haknya sendiri ketika diterapkan dengan tepat.
Saya berharap bahwa tinjauan yang agak umum dan agak kabur ini telah menerangi beberapa cara di mana "masalah ini masuk lebih dalam daripada sekadar apakah danr harus numerik yang sama." Penghargaan atas perbedaan-perbedaan ini telah membantu saya memahami berbagai teknik yang ingin dicapai, serta memanfaatkannya dengan lebih baik dalam memecahkan masalah statistik.β^
sumber
Seperti jawaban @ whuber menyarankan ada sejumlah model dan teknik yang mungkin jatuh di bawah payung korelasi yang tidak memiliki analog yang jelas dalam dunia regresi dan sebaliknya. Namun, pada umumnya ketika orang berpikir tentang, membandingkan, dan membandingkan regresi dan korelasi mereka sebenarnya mempertimbangkan dua sisi dari koin matematika yang sama (biasanya regresi linier dan korelasi Pearson). Apakah mereka harus mengambil pandangan yang lebih luas dari kedua keluarga analisis adalah sesuatu dari perdebatan yang terpisah, dan yang harus diperjuangkan oleh para peneliti setidaknya secara minimal.
Dalam pandangan sempit tentang regresi dan korelasi ini, penjelasan berikut harus membantu menjelaskan bagaimana dan mengapa estimasi mereka, kesalahan standar, dan nilai p pada dasarnya adalah varian satu sama lain.
Dengan kerangka data
dat
menjadilongley
kumpulan data yang direferensikan di atas kita mendapatkan berikut untuk cor.test. (Tidak ada yang baru di sini kecuali Anda melewatkan pertanyaan di atas dan langsung membaca jawabannya):Dan berikut ini untuk model linier (juga sama seperti di atas):
Sekarang untuk komponen baru untuk jawaban ini. Pertama, buat dua versi standar baru dari
Employed
danPopulation
variabel :Jalankan kembali regresi kedua:
Voila! Kemiringan regresi sama dengan koefisien korelasi dari atas. Jawabannya Pertanyaan 1 kemudian adalah bahwa asumsi untuk kedua tes pada dasarnya sama:
Untuk Pertanyaan 2 , mari kita mulai dengan kesalahan standar rumus kemiringan regresi yang digunakan di atas (tersirat dalam kode R - tetapi dinyatakan langsung di bawah ini):
Dari rumus itu Anda bisa mendapatkan ungkapan berikut ini, yang kental dan lebih bermanfaat ( lihat tautan ini untuk langkah-demi-langkah ):
Saya pikir Anda akan menemukan jika Anda menyelesaikan persamaan ini untuk model linier yang tidak standar dan terstandarisasi (yaitu, korelasi) Anda akan mendapatkan nilai p dan t yang sama untuk lereng Anda. Kedua tes ini mengandalkan estimasi kuadrat terkecil biasa dan membuat asumsi yang sama. Dalam praktiknya, banyak peneliti melewatkan pemeriksaan asumsi untuk model regresi linier sederhana dan korelasi, meskipun saya pikir itu lebih lazim untuk melakukannya untuk korelasi karena banyak orang tidak mengenalinya sebagai kasus khusus regresi linier sederhana. (Catatan: ini bukan praktik yang baik untuk diadopsi)
sumber
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Berikut adalah penjelasan tentang kesetaraan tes, juga menunjukkan bagaimana r dan b saling terkait.
http://www.real-statistics.com/regress/hypothesis-testing-significance-regress-line-slope/
Untuk melakukan OLS, Anda harus membuatnya https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
Selain itu, OLS dan kor memerlukan asumsi pengambilan sampel acak.
Konstruksi tes koreksi mengasumsikan:
Kami memiliki "sampel acak dan cukup besar" dari populasi (x, y).
sumber
Mengenai pertanyaan 2
Saya tidak berpikir itu adalah mungkin untuk menghitungt statistik dari r nilai, namun inferensi statistik yang sama dapat diturunkan dari F statistik, di mana hipotesis alternatif adalah bahwa model tidak menjelaskan data, dan ini dapat dihitung dari r .
Dengank = 2 parameter dalam model dan n = da t a p o i n t s
Dengan batasan itu
Sumber: Pengujian hipotesis dalam model regresi berganda
sumber