Dapat dibakukan

9

Saya mencoba menafsirkan hasil artikel, di mana mereka menerapkan regresi berganda untuk memprediksi berbagai hasil. Namun β (koefisien B terstandarisasi didefinisikan sebagai βx1=Bx1SDx1SDy manayadalah variabel dependen danx1adalah prediktor) yang dilaporkan tampaknya tidak cocok dengandilaporkanR2:

masukkan deskripsi gambar di sini

Meskipun β dari -0,83, -0,29, -0,16, -0,43, 0,25, dan -0,29, dilaporkan R2hanya 0,20.

Juga, tiga prediktor: berat badan, BMI dan% lemak adalah multi-collinear, berkorelasi sekitar r = 0,8-0,9 dengan satu sama lain dalam jenis kelamin.

Apakah nilai R2 masuk akal dengan ini β, atau apakah tidak ada hubungan langsung antara β dan R2 ?

Selain itu, mungkin masalah dengan prediktor multikolinier memengaruhi dari prediktor keempat (VO2max), yang berkorelasi sekitar r = 0,4 dengan tiga variabel yang disebutkan di atas?β

Sakari Jukarainen
sumber
Apa dalam konteks ini? Koefisien beta (regresi standar)? Atau sesuatu yang lain? Jika demikian, mereka yang Anda tidak dapat benar-benar katakan apa pun yang Anda dapatkan hanyalah interpretasi dalam hal standar deviasi. Fakta bahwa koefisien menyiratkan efek besar, tidak menyiratkan nilai R 2 yang tinggiβR2
Repmat
1
ß adalah singkatan dari b koefisien standar. Untuk kasus prediktor 1 ß sama dengan pearson r, yang secara langsung berhubungan dengan R-kuadrat, namun dalam kasus multivarian ini, mengapa tidak tinggi ß menyiratkan R-kuadrat yang tinggi?
Sakari Jukarainen
2
Tidak, dalam satu kasus regresi tidak sama dengan korelasi Pearson: β = Cov ( y , x )β. Hubungan antaraβs danR2tidak sesederhana itu. β=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy
5
@RichardHardy Saya curiga bahwa kebingungannya adalah Sakari mendefinisikan menjadi koefisien regresi standar . Dalam regresi linier bivariat, koefisien regresi ( b dalam notasi Sakari) adalah r x y s yβb , di manaradalah korelasi dansstandar deviasi. Untuk membakukan suatu koefisien regresi, kami membagi koefisien dengan standar deviasiydan mengalikannya dengan standar deviasix, sehingga hanya korelasi yang tersisa. Jadi Sakari benar. rxysysxrsyx
Maarten Buis
Saya masih tidak melihat mengapa Anda menganggap ini salah? Jika ada beberapa statistik ringkasan di koran, Anda dapat dengan mudah memeriksa apakah jumlahnya bertambah. Anda bahkan memberikan formula untuk melakukannya. Anda tidak dapat menyimpulkan, hanya karena efeknya besar dalam hal yang sulit, bahwa model melakukan pekerjaan dengan baik dalam menjelaskan perbedaan dalam y.
Repmat

Jawaban:

17

The interpretasi geometris biasa kuadrat regresi memberikan wawasan yang diperlukan.

Sebagian besar dari apa yang perlu kita ketahui dapat dilihat pada kasus dua regresi dan x 2 dengan respons y . The koefisien standar, atau "beta," muncul ketika ketiga vektor dibakukan dengan panjang yang sama (yang mungkin kita ambil untuk menjadi kesatuan). Jadi, x 1 dan x 2 adalah vektor satuan dalam bidang E 2 - mereka terletak pada lingkaran satuan - dan y adalah vektor satuan dalam ruang Euclidean tiga dimensi E 3 yang mengandung bidang itu. Nilai dipasang y adalah ortogonal (tegak lurus) proyeksix1x2yx1x2E2yE3y^ ke E 2 . Karena R 2 hanya adalah panjang kuadrat dari y , kita bahkan tidak perlu memvisualisasikan semua tiga dimensi: semua informasi yang kami perlu dapat ditarik dalam pesawat itu.yE2R2y^

Pengoreksi ortogonal

Situasi yang paling baik adalah ketika para regresor ortogonal, seperti pada gambar pertama.

Gambar 1, menunjukkan regressor dan $ \ hat y $ sebagai vektor dalam pesawat.

Dalam hal ini dan sisanya dari angka-angka saya akan secara konsisten menggambar unit disk putih dan regressor sebagai panah hitam. akan selalu mengarah langsung ke kanan. Panah merah tebal menggambarkan komponen yx1y^ di dan x 2 arah: yaitu, β 1 x 1 dan β 2 x 2 . Panjang y adalah jari-jari lingkaran abu-abu yang terletak - tapi ingat bahwa R 2 adalahx1x2β1x1β2x2y^R2 persegi panjang itu.

The Teorema Pythagoras menegaskan

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Karena Teorema Pythagoras berpegang pada sejumlah dimensi, penalaran ini digeneralisasikan ke sejumlah regresi, menghasilkan hasil pertama kami:

Ketika regresor bersifat ortogonal, sama dengan jumlah kuadrat dari beta.R2

Sebuah konsekuensi langsung adalah bahwa ketika hanya ada satu regressor - univariat regression-- adalah kuadrat dari lereng standar.R2

Berkorelasi

Regenerasi berkorelasi negatif bertemu pada sudut yang lebih besar dari sudut kanan.

Gambar 2, menunjukkan regressor berkorelasi negatif

Terlihat jelas dalam gambar ini bahwa jumlah kuadrat dari betas benar-benar lebih besar dari . Ini dapat dibuktikan secara aljabar menggunakan Hukum Cosinus atau dengan bekerja dengan solusi matriks Persamaan Normal.R2

Dengan membuat dua regressors hampir sejajar, kita dapat memposisikan y dekat asal (untuk R 2 dekat 0 ) sementara itu terus memiliki komponen besar di x 1 dan x 2 arah. Dengan demikian, tidak ada batasan seberapa kecil R 2 .y^R20x1x2R2

Angka

Mari kita mengenang hasil yang jelas ini, generalitas kedua kita:

Ketika regressors berkorelasi, mungkin sewenang-wenang lebih kecil dari jumlah kuadrat dari beta.R2

Namun, ini bukan hubungan universal, seperti yang ditunjukkan oleh gambar selanjutnya.

Gambar 3, menunjukkan regressor berkorelasi negatif tetapi beta memiliki tanda-tanda yang berlawanan.

Sekarang secara ketat melebihi jumlah kuadrat dari beta. Dengan menggambar dua regressors dekat bersama-sama dan menjaga y di antara mereka, kita dapat membuat beta kedua pendekatan 1 / 2 , bahkan ketika R 2 dekat dengan 1 . Analisis lebih lanjut mungkin memerlukan beberapa aljabar: Saya mengambilnya di bawah.R2y^1/2R21

Saya serahkan pada imajinasi Anda untuk membuat contoh serupa dengan regresi berkorelasi positif, yang karenanya bertemu pada sudut yang akut.

Perhatikan bahwa kesimpulan ini tidak lengkap: ada batasan seberapa jauh dapat dibandingkan dengan jumlah kuadrat dari beta. Secara khusus, dengan memeriksa kemungkinan dengan cermat, Anda dapat menyimpulkan (untuk regresi dengan dua regresi) ituR2

Ketika regressors berkorelasi positif dan beta memiliki tanda umum, atau ketika regressors berkorelasi negatif dan beta memiliki tanda-tanda yang berbeda, harus setidaknya sama besar dengan jumlah kuadrat dari beta. R2


Hasil aljabar

Secara umum, biarkan regressor menjadi (kolom vektor) dan responnya adalah y . Standarisasiberarti (a) masing-masing ortogonal terhadap vektor ( 1 , 1 , , 1 ) dan (b) memiliki panjang satuan:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

Merakit vektor-vektor kolom menjadi n × p matriks X . Aturan perkalian matriks menyiratkan hal ituxin×pX

Σ=XX

adalah matriks korelasi . Beta diberikan oleh Persamaan Normal,xi

β=(XX)1Xy=Σ1(Xy).

Selain itu, menurut definisi, kecocokannya adalah

y^=Xβ=X(Σ1Xy).

Panjang kuadratnya memberikan menurut definisi:R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

R2

i=1pβi2=ββ.

L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

Kesenjangan Cauchy-Schwarz menyiratkan

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

1p2p×pΣ|Σ|21×p2=p

R2pββ.

xi

R2R2/p


Kesimpulan

R2y^R2

1.1301R21

0.830.69R20.20VO2max

R2x1x2y^x1x2ydengan jumlah yang tidak diketahui (tergantung bagaimana ketiganya terkait dengan kovariat), membuat kami hampir tidak tahu tentang ukuran sebenarnya dari vektor yang kami kerjakan.

whuber
sumber
y^y^
@amoeba Anda benar. Saya terlalu terburu-buru dalam membuat gambar-gambar ini! Saya akan (semoga sementara) menghapus posting ini sampai saya mendapat kesempatan untuk memperbaiki masalah. Terima kasih telah menunjukkan ini.
whuber
@Amoeba Saya telah memperbaiki gambar dan memodifikasi analisis agar sesuai dengan mereka. Meskipun detailnya telah banyak berubah, kesimpulannya tetap sama.
whuber
1
@amoeba Sekali lagi Anda benar. Dengan risiko kehilangan pembaca yang tertarik, tetapi sekarang merasa terdorong untuk mengukur intuisi geometris, saya telah memperketat kesimpulan itu dan membenarkannya dengan sedikit aljabar. (Saya percaya aljabarnya benar!)
whuber
1
Terima kasih banyak! Sebagai seorang sidenote, VO2max berkorelasi negatif dengan berat dan BMI, karena mereka dikaitkan dengan massa tubuh tanpa lemak yang lebih tinggi. Dalam tabel tersebut VO2max sebenarnya sesuai dengan VO2max dibagi dengan berat (yang merupakan cara yang buruk untuk meningkatkan VO2max ke ukuran tubuh). VO2max / berat dalam tabel berkorelasi negatif dengan semua prediktor lain, kecuali seks, yang mungkin menjelaskan ß tinggi tapi rendah R-kuadrat, seperti yang Anda sebutkan.
Sakari Jukarainen