Saya tertarik pada arti geometris dari korelasi berganda dan koefisien determinasi dalam regresi , atau dalam notasi vektor,R 2 y i = β 1 + β 2 x 2 , i + ⋯ + β k x k , i + ϵ i
Di sini matriks desain memiliki n baris dan kolom k , di mana yang pertama adalah \ mathbf {x} _1 = \ mathbf {1} _n , vektor 1s yang berhubungan dengan intersep \ beta_1 . n k x 1 = 1 n β 1
Geometri lebih menarik dalam ruang subjek dimensi daripada di ruang variabel dimensi. Tentukan matriks topi:
Ini adalah proyeksi ortogonal pada ruang kolom , yaitu flat melalui asal direntang oleh vektor mewakili setiap variabel , yang pertama adalah . Kemudian memproyeksikan vektor dari respons yang diamati ke "bayangan" -nya di flat, vektor nilai yang dipasang , dan jika kita lihat sepanjang jalan proyeksi kita melihat vektor residual membentuk sisi ketiga dari sebuah segitiga. Ini seharusnya memberi kita dua rute menuju interpretasi geometris :
- Kuadrat dari koefisien korelasi berganda, , yang didefinisikan sebagai korelasi antara dan . Ini akan muncul secara geometris sebagai kosinus sudut.
- Dalam hal panjang vektor: misalnya .
Saya akan senang melihat akun singkat yang menjelaskan:
- Rincian yang lebih halus untuk (1) dan (2),
- Mengapa (1) dan (2) setara,
- Secara singkat, bagaimana wawasan geometris memungkinkan kita memvisualisasikan properti dasar , misalnya mengapa ia pergi ke 1 ketika varians noise pergi ke 0. (Lagi pula, jika kita tidak bisa intuisi dari visualisasi kita maka itu tidak lebih dari satu gambar yang indah.)
Saya menghargai ini lebih mudah jika variabel dipusatkan terlebih dahulu, yang menghilangkan intersep dari pertanyaan. Namun, di sebagian besar akun buku teks yang memperkenalkan regresi berganda, matriks desain seperti yang saya jelaskan. Tentu saja baik-baik saja jika eksposisi menggali ruang yang direntang oleh variabel terpusat, tetapi untuk wawasan aljabar linier buku teks, akan sangat membantu untuk menghubungkan kembali ini dengan apa yang terjadi secara geometris dalam situasi tanpa tekanan. Sebuah jawaban yang benar-benar berwawasan mungkin menjelaskan apa yang sebenarnya memecah secara geometris ketika istilah intersep dijatuhkan - yaitu ketika vektordihapus dari set spanning. Saya tidak berpikir poin terakhir ini dapat diatasi dengan mempertimbangkan variabel terpusat sendirian.