Interpretasi geometris dari koefisien korelasi berganda dan koefisien determinasi

24

Saya tertarik pada arti geometris dari korelasi berganda dan koefisien determinasi dalam regresi , atau dalam notasi vektor,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Di sini matriks desain memiliki n baris dan kolom k , di mana yang pertama adalah \ mathbf {x} _1 = \ mathbf {1} _n , vektor 1s yang berhubungan dengan intersep \ beta_1 . n k x 1 = 1 n β 1Xnkx1=1nβ1

Geometri lebih menarik dalam ruang subjek n dimensi daripada di ruang variabel k dimensi. Tentukan matriks topi:

H=X(XX)1X

Ini adalah proyeksi ortogonal pada ruang kolom X , yaitu flat melalui asal direntang oleh vektor k mewakili setiap variabel xi , yang pertama adalah 1n . Kemudian H memproyeksikan vektor dari respons yang diamati y ke "bayangan" -nya di flat, vektor nilai yang dipasang y^=Hy , dan jika kita lihat sepanjang jalan proyeksi kita melihat vektor residual e=yy^ membentuk sisi ketiga dari sebuah segitiga. Ini seharusnya memberi kita dua rute menuju interpretasi geometris R2:

  1. Kuadrat dari koefisien korelasi berganda, R , yang didefinisikan sebagai korelasi antara y dan y^ . Ini akan muncul secara geometris sebagai kosinus sudut.
  2. Dalam hal panjang vektor: misalnya SSresidual=i=1nei2=e2 .

Saya akan senang melihat akun singkat yang menjelaskan:

  • Rincian yang lebih halus untuk (1) dan (2),
  • Mengapa (1) dan (2) setara,
  • Secara singkat, bagaimana wawasan geometris memungkinkan kita memvisualisasikan properti dasar R2 , misalnya mengapa ia pergi ke 1 ketika varians noise pergi ke 0. (Lagi pula, jika kita tidak bisa intuisi dari visualisasi kita maka itu tidak lebih dari satu gambar yang indah.)

Saya menghargai ini lebih mudah jika variabel dipusatkan terlebih dahulu, yang menghilangkan intersep dari pertanyaan. Namun, di sebagian besar akun buku teks yang memperkenalkan regresi berganda, matriks desain seperti yang saya jelaskan. Tentu saja baik-baik saja jika eksposisi menggali ruang yang direntang oleh variabel terpusat, tetapi untuk wawasan aljabar linier buku teks, akan sangat membantu untuk menghubungkan kembali ini dengan apa yang terjadi secara geometris dalam situasi tanpa tekanan. Sebuah jawaban yang benar-benar berwawasan mungkin menjelaskan apa yang sebenarnya memecah secara geometris ketika istilah intersep dijatuhkan - yaitu ketika vektorX1ndihapus dari set spanning. Saya tidak berpikir poin terakhir ini dapat diatasi dengan mempertimbangkan variabel terpusat sendirian.

Gegat
sumber

Jawaban:

47

Jika ada istilah konstan dalam model maka terletak di ruang kolom (seperti halnya , yang akan berguna nanti). pas adalah proyeksi ortogonal dari diamati ke flat yang dibentuk oleh ruang kolom itu. Ini berarti vektor residu tegak lurus terhadap flat, dan karenanya ke . Mengingat produk titik kita dapat melihat , sehingga komponen harus dijumlahkan ke nol. Karena kami menyimpulkan itu X ˉ Y 1 n Y Y e = y - y 1 n Σ n i = 1 e i =0 e Y i = ^ Y i + e i Σ n i = 1 Y i = Σ n i = 1 ^ Y i ˉ Y1nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ sehingga respons yang dipasang dan diamati memiliki rata-rata .Y¯

Vektor dalam ruang subjek regresi berganda

Garis putus-putus dalam diagram mewakili dan , yang merupakan vektor berpusat untuk tanggapan yang diamati dan dipasang. Kosinus dari sudut antara vektor karena itu akan menjadi korelasi dan , yang menurut definisi adalah koefisien korelasi . Segitiga yang vektor-vektor ini bentuk dengan vektor residual adalah sudut siku-siku karena terletak di flat tetapi ortogonal untuk itu. Karenanya:YY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Kita juga bisa menerapkan Pythagoras ke segitiga:

YY¯1n2=YY^2+Y^Y¯1n2

Yang mungkin lebih akrab dengan:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Ini adalah dekomposisi jumlah kuadrat, .SStotal=SSresidual+SSregression

Definisi standar untuk koefisien determinasi adalah:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Ketika jumlah kuadrat dapat dipartisi, dibutuhkan beberapa aljabar langsung untuk menunjukkan ini setara dengan formulasi "proporsi varian dijelaskan",

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

Ada cara geometris untuk melihat ini dari segitiga, dengan aljabar minimal. Rumus definisi memberikan dan dengan trigonometri dasar kita dapat menyederhanakan ini menjadi . Ini adalah hubungan antara dan .R2=1sin2(θ)cos2(θ)R2R

Perhatikan betapa pentingnya analisis ini untuk dilengkapi dengan istilah intersepsi, sehingga ada di ruang kolom. Tanpa ini, residual tidak akan dijumlahkan ke nol, dan rata-rata nilai dipasang tidak akan bertepatan dengan rata-rata . Kalau begitu kita tidak bisa menggambar segitiga; jumlah kotak tidak akan membusuk dengan cara Pythagoras; tidak akan memiliki bentuk yang sering dikutip atau menjadi persegi . Dalam situasi ini, beberapa perangkat lunak (termasuk ) menggunakan formula yang berbeda untuk sama sekali .1nYR2SSreg/SStotalRRR2

Gegat
sumber
1
+1 artikel dan angka yang sangat bagus. Saya terkejut bahwa itu hanya suara saya sendiri kesepian.
Amoeba berkata Reinstate Monica
2
+1. Perhatikan bahwa angka jawaban Anda, dengan "ruang kolom X", Y, Ypred sebagai vektor, dll. Adalah yang dikenal dalam statistik multivarian sebagai "(dikurangi) representasi ruang subjek" ( lihat , dengan tautan lebih lanjut di mana saya telah menggunakannya ).
ttnphns