Pertanyaan yang sangat mendasar tentang regresi OLS
- jalankan regresi OLS y ~ x1, kami memiliki , katakanlah 0,3
- jalankan regresi OLS y ~ x2, kami memiliki , katakanlah 0,4
- sekarang kita menjalankan regresi y ~ x1 + x2, berapakah nilai R kuadrat regresi ini?
Saya pikir itu jelas untuk regresi berganda harus tidak kurang dari 0,4, tetapi apakah mungkin untuk lebih dari 0,7?
regression
multiple-regression
least-squares
r-squared
Olivier Ma
sumber
sumber
Jawaban:
Regressor kedua hanya bisa menebus apa yang tidak berhasil dijelaskan oleh pertama dalam variabel dependen. Ini adalah contoh numerik:
Hasilkanyi=0.5x1i+ui ui N(0,1)
x1
sebagai regresi normal standar, ukuran sampel 20. Tanpa kehilangan sifat umum, ambil , di mana u i adalah N ( 0 , 1 ) , juga. Sekarang, ambil regresi kedua hanya sebagai perbedaan antara variabel dependen dan regresi pertama.x2
sumber
x1 + x2 = y
itusummary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
seharusnya tidak kurang dari 1. tetapi jelas saya salah ..Selain batas bawah, yaitu 0,3 atau 0,4 tergantung pada variabel mana yang memasuki model pertama, tidak banyak yang bisa Anda katakan. Berapa banyak naik sangat tergantung pada informasi yang dibawa variabel kedua ke dalam model. Dengan informasi, yang kami maksud tentu saja variasi yang dijelaskan dalam respons.R2
Ada satu konsep yang sangat penting dalam hal itu dan itu adalah korelasi antara para prediktor. Jika korelasinya besar, variabel baru tidak hanya akan membawa apa-apa ke model tetapi juga akan mempersulit inferensi untuk variabel Anda yang ada, karena perkiraan akan menjadi tidak tepat (multikolinieritas). Ini adalah alasan mengapa kita lebih suka variabel baru menjadi ortogonal daripada yang lain. Peluangnya sangat kecil untuk hal ini terjadi dalam studi observasional, tetapi dapat dicapai dalam pengaturan yang terkontrol, misalnya ketika Anda membangun eksperimen Anda sendiri.
Tetapi bagaimana Anda mengukur dengan tepat informasi baru yang akan dibawa variabel ke model? Salah satu ukuran yang digunakan secara luas yang mengambil semua ini diperhatikan adalah dalam parsialR2 . Jika Anda terbiasa dengan ANOVA dari model linier, ini tidak lebih dari penurunan proporsional dalam Jumlah Kesalahan Kuadrat yang akan Anda capai dengan memasukkan variabel ini ke dalam model Anda. Persentase tinggi diinginkan, sementara yang rendah mungkin akan membuat Anda berpikir apakah ini tindakan yang tepat.
Jadi seperti @ cardinal tunjukkan dalam komentar, koefisien determinasi baru Anda bisa setinggi 1. Ini juga bisa serendah 0,400001. Tidak ada cara untuk mengetahui tanpa informasi tambahan.
sumber
Koefisien determinasi dalam regresi linier berganda: Dalam regresi linier berganda, koefisien determinasi dapat ditulis dalam bentuk korelasi berpasangan untuk variabel menggunakan bentuk kuadratik:
sumber