hubungan antara

10

Pertanyaan yang sangat mendasar tentang regresi OLSR2

  1. jalankan regresi OLS y ~ x1, kami memiliki , katakanlah 0,3R2
  2. jalankan regresi OLS y ~ x2, kami memiliki , katakanlah 0,4R2
  3. sekarang kita menjalankan regresi y ~ x1 + x2, berapakah nilai R kuadrat regresi ini?

Saya pikir itu jelas untuk regresi berganda harus tidak kurang dari 0,4, tetapi apakah mungkin untuk lebih dari 0,7?R2

Olivier Ma
sumber
2
Petunjuk: Ini bisa setinggi 1.0. Mengapa? (Berpikir secara geometris. Atau, bahkan secara khusus, tentang lingkaran satuan.)
kardinal

Jawaban:

4

Regressor kedua hanya bisa menebus apa yang tidak berhasil dijelaskan oleh pertama dalam variabel dependen. Ini adalah contoh numerik:

Hasilkan x1sebagai regresi normal standar, ukuran sampel 20. Tanpa kehilangan sifat umum, ambil , di mana u i adalah N ( 0 , 1 ) , juga. Sekarang, ambil regresi kedua hanya sebagai perbedaan antara variabel dependen dan regresi pertama.yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Christoph Hanck
sumber
Terima kasih! Saya memiliki pemahaman yang salah tentang r kuadrat. Saya berpikir bahwa jika x1 + x2 = yitu summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredseharusnya tidak kurang dari 1. tetapi jelas saya salah ..
Olivier Ma
3

Selain batas bawah, yaitu 0,3 atau 0,4 tergantung pada variabel mana yang memasuki model pertama, tidak banyak yang bisa Anda katakan. Berapa banyak naik sangat tergantung pada informasi yang dibawa variabel kedua ke dalam model. Dengan informasi, yang kami maksud tentu saja variasi yang dijelaskan dalam respons.R2

Ada satu konsep yang sangat penting dalam hal itu dan itu adalah korelasi antara para prediktor. Jika korelasinya besar, variabel baru tidak hanya akan membawa apa-apa ke model tetapi juga akan mempersulit inferensi untuk variabel Anda yang ada, karena perkiraan akan menjadi tidak tepat (multikolinieritas). Ini adalah alasan mengapa kita lebih suka variabel baru menjadi ortogonal daripada yang lain. Peluangnya sangat kecil untuk hal ini terjadi dalam studi observasional, tetapi dapat dicapai dalam pengaturan yang terkontrol, misalnya ketika Anda membangun eksperimen Anda sendiri.

Tetapi bagaimana Anda mengukur dengan tepat informasi baru yang akan dibawa variabel ke model? Salah satu ukuran yang digunakan secara luas yang mengambil semua ini diperhatikan adalah dalam parsial R2 . Jika Anda terbiasa dengan ANOVA dari model linier, ini tidak lebih dari penurunan proporsional dalam Jumlah Kesalahan Kuadrat yang akan Anda capai dengan memasukkan variabel ini ke dalam model Anda. Persentase tinggi diinginkan, sementara yang rendah mungkin akan membuat Anda berpikir apakah ini tindakan yang tepat.

Jadi seperti @ cardinal tunjukkan dalam komentar, koefisien determinasi baru Anda bisa setinggi 1. Ini juga bisa serendah 0,400001. Tidak ada cara untuk mengetahui tanpa informasi tambahan.

JohnK
sumber
@ JohnK, maukah Anda menjelaskan lebih lanjut mengapa harus lebih besar dari 0,4? Apakah interpretasi geometris dari regresi membantu di sini?
Dnaiel
@Daiel Koefisien determinasi adalah nondecreasing sehubungan dengan jumlah variabel dalam model.
JohnK
3

Koefisien determinasi dalam regresi linier berganda: Dalam regresi linier berganda, koefisien determinasi dapat ditulis dalam bentuk korelasi berpasangan untuk variabel menggunakan bentuk kuadratik:

R2=ry,xTrx,x-1ry,x,

ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]-1[rY,X1rY,X2]=11-rX1,X22[rY,X1rY,X2]T[1-rX1,X2-rX1,X21][rY,X1rY,X2]=11-rX1,X22(rY,X12+rY,X22-2rX1,X2rY,X1rY,X2).

Dsgn(rY,X1)sgn(rY,X2){-1,+1}rY,X12=0,3rY,X22=0,4

R2=0,7-20,12DrX1,X21-rX1,X22.

R2>0,7

Ben - Pasang kembali Monica
sumber