Dalam regresi linear saya menemukan hasil yang menyenangkan jika kita cocok dengan model
kemudian, jika kita membuat standar dan memusatkan data , dan ,
Bagi saya ini terasa seperti versi 2 variabel dari untuk regresi, yang menyenangkan.
Tetapi satu-satunya bukti yang saya tahu adalah tidak konstruktif atau berwawasan luas (lihat di bawah), namun untuk melihatnya rasanya harus mudah dimengerti.
Contoh pemikiran:
- The dan parameter memberi kita 'proporsi' dari dan di , dan jadi kami mengambil proporsi masing-masing korelasi mereka ...
- The s korelasi parsial, adalah kuadrat korelasi berganda ... korelasi dikalikan dengan korelasi parsial ...
- Jika kita melakukan orthogonalize terlebih dahulu maka s akan menjadi ... apakah hasil ini masuk akal secara geometris?
Tak satu pun dari utas ini yang tampaknya mengarah ke mana pun untuk saya. Adakah yang bisa memberikan penjelasan yang jelas tentang bagaimana memahami hasil ini.
Bukti Tidak Memuaskan
dan
QED.
regression
linear-model
r-squared
proof
Korone
sumber
sumber
Jawaban:
Matriks topi idempoten.
(Ini adalah cara linear-aljabar yang menyatakan bahwa OLS adalah proyeksi ortogonal dari vektor respons ke ruang yang direntang oleh variabel.)
Ingat itu menurut definisi
dimana
adalah jumlah kuadrat dari nilai yang diprediksi (terpusat) dan
adalah jumlah kuadrat dari nilai respons (terpusat). Membakukan sebelumnya ke varian unit juga menyiratkanY
Ingat juga, bahwa koefisien estimasi diberikan oleh
dari mana
di mana adalah "topi matrix" mempengaruhi proyeksi ke kotak yang paling cocok . Itu simetris (yang terlihat jelas dari bentuknya) dan idempoten . Ini adalah bukti dari yang terakhir untuk mereka yang tidak terbiasa dengan hasil ini. Itu hanya mengacak-acak kurung di sekitar:Y YH Y Y^
Karena itu
Langkah penting di tengah menggunakan idempotence dari matriks topi. Sisi kanan adalah formula ajaib Anda karena adalah (baris) vektor koefisien korelasi antara dan kolom .YX1nY′X Y X
sumber
^{-}
bukannya di^{-1}
mana - mana?Tiga formula berikut ini terkenal, mereka ditemukan dalam banyak buku tentang regresi linier. Tidak sulit untuk menurunkannya.
Jika Anda mengganti kedua beta ke dalam persamaan Anda , Anda akan mendapatkan rumus di atas untuk R-square.R2=rYX1β1+rYX2β2
Berikut ini adalah "wawasan" geometris. Di bawah ini adalah dua gambar yang menunjukkan regresi oleh dan . Representasi semacam ini dikenal sebagai variabel-sebagai-vektor dalam ruang subjek (harap baca tentang apa itu). Gambar-gambar diambil setelah ketiga variabel dipusatkan, dan jadi (1) setiap vektor panjang = st. penyimpangan dari masing-masing variabel, dan (2) sudut (cosinusnya) antara setiap dua vektor = korelasi antara masing-masing variabel.X 1 X 2Y X1 X2
Yecos∠Y Y =| Y | /| Y|Y^ adalah prediksi regresi (proyeksi ortogonal ke "pesawat X"); adalah istilah kesalahan; , koefisien korelasi berganda.Y e cos∠YY^=|Y^|/|Y|
Gambar kiri menggambarkan koordinat miring dari pada variabel dan . Kita tahu bahwa koordinat tersebut berhubungan dengan koefisien regresi. Yaitu, koordinatnya adalah: dan . X1X2b1| X1| =b1σX1b2| X2| =b2σX2Y^ X1 X2 b1|X1|=b1σX1 b2|X2|=b2σX2
Dan gambar kanan menunjukkan koordinat tegak lurus yang sesuai . Kita tahu bahwa koordinat tersebut berhubungan dengan koefisien korelasi orde nol (ini adalah kosinus dari proyeksi ortogonal). Jika adalah korelasi antara dan dan adalah korelasi antara dan maka koordinatnya adalah . Demikian juga untuk koordinat lainnya, . Y X 1 r * 1 Y X 1r1 Y X1 r∗1 Y^ X1 r1|Y|=r1σY=r∗1|Y^|=r∗1σY^ r2|Y|=r2σY=r∗2|Y^|=r∗2σY^
Sejauh ini penjelasan umum tentang representasi vektor regresi linier. Sekarang kita beralih ke tugas untuk menunjukkan bagaimana hal itu dapat menyebabkan .R2=r1β1+r2β2
Pertama-tama, ingatlah bahwa dalam pertanyaan mereka @Corone mengemukakan kondisi bahwa ekspresi itu benar ketika ketiga variabel distandarisasi , yaitu, tidak hanya dipusatkan tetapi juga diskalakan ke varian 1. Lalu (yaitu menyiratkan untuk menjadi "bagian yang bekerja" dari vektor) kita memiliki koordinat yang sama dengan: ; ; ; ; dan juga. Gambar ulang, di bawah kondisi ini, hanya "pesawat X" dari gambar di atas:|X1|=|X2|=|Y|=1 b1|X1|=β1 b2|X2|=β2 r1|Y|=r1 r2|Y|=r2 R=|Y^|/|Y|=|Y^|
Pada gambar, kita memiliki sepasang koordinat tegak lurus dan sepasang koordinat miring, dari vektor yang sama panjang . Ada aturan umum untuk mendapatkan koordinat tegak lurus dari yang miring (atau belakang): , di mana adalah matriks yang tegak lurus; adalah matriks ukuran miring yang sama; dan adalah matriks simetris sudut (cosinus) antara sumbu nonorthogonal.Y^ R P=SC P S C
points X axes
axes X axes
Pengganti ini s diekspresikan melalui s di @ Corone ini pernyataan , dan Anda akan mendapatkan bahwa , - yang benar , karena itu persis bagaimana diagonal dari jajaran genjang (diwarnai pada gambar) diekspresikan melalui sisi yang berdekatan (kuantitas menjadi produk skalar).β R 2 = r 1 β 1 + r 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 rr β R2=r1β1+r2β2 β 1 β 2 r 12R2=β21+β22+2β1β2r12 β1β2r12
Hal yang sama ini berlaku untuk sejumlah prediksi X. Sayangnya, tidak mungkin untuk menggambar gambar yang sama dengan banyak prediksi.
sumber