Apakah mungkin untuk dari regresi pada dua variabel lebih tinggi dari jumlah untuk dua regresi pada variabel individu?

8

Dalam OLS, apakah mungkin untuk dari regresi pada dua variabel lebih tinggi dari jumlah untuk dua regresi pada variabel individu.R2R2

R2(YA+B)>R2(YA)+R2(YB)

Sunting: Ugh, ini sepele; itulah yang saya dapatkan untuk mencoba masalah masalah yang saya pikirkan saat di gym. Maaf sudah membuang-buang waktu lagi. Jawabannya jelas ya.

YN(0,1)

AN(0,1)

B=YA

R2(YA+B)=1 , jelas. Tetapi harus 0 dalam batas dan harus 0,5 dalam batas. R2(YA)R2(YB)

bsdfish
sumber
Apakah Anda bertanya tentang ketidaksetaraan dalam persamaan tampilan (yang melibatkan jumlah kuadrat kuadrat ) atau Anda bertanya tentang ketidaksetaraan yang melibatkan kalimat sebelum persamaan itu, yaitu, yang melibatkan , koefisien determinasi? R2
kardinal
Saya tertarik pada ; diedit untuk memperbaiki masalah. R2
bsdfish
Baik . Ada penjelasan geometris yang bagus juga.
kardinal
3
Anda dapat mengedit jawaban Anda dan meletakkannya sebagai jawaban yang sebenarnya, sehingga pertanyaan itu tidak tetap "tidak dijawab".
Karl
Apakah ada peluang kita mendapatkan jawaban intuitif untuk ini? jika adalah persentase varians yang dijelaskan, lalu bagaimana seseorang dapat menjelaskan lebih banyak varians dengan model lengkap, daripada dengan model khusus untuk setiap variabel? R2
kmace

Jawaban:

4

Berikut adalah sedikit R yang menetapkan seed acak yang akan menghasilkan dataset yang menunjukkannya dalam tindakan.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

Tidak hanya itu mungkin (seperti yang telah Anda tunjukkan secara analitis) tidak sulit untuk dilakukan. Mengingat 3 variabel yang terdistribusi normal, tampaknya terjadi sekitar 40% dari waktu.

Bukit Benjamin Mako
sumber
Wow. Kalian teman-teman MIT pasti punya waktu lebih banyak dari yang biasanya diperkirakan ;-)
xmjx
Saya terjebak dalam hari yang panjang rapat. :)
Benjamin Mako Hill
-1

Itu tidak mungkin. Selain itu, jika A dan B berkorelasi sama sekali (jika r mereka bukan nol), rsq dari regresi pada keduanya akan lebih kecil dari jumlah rsq regresi masing-masing.

Perhatikan bahwa bahkan jika A dan B sama sekali tidak berkorelasi, rsq yang disesuaikan (yang menghukum rasio case-to-predictor rendah) mungkin sedikit berbeda antara kedua solusi.

Mungkin Anda ingin berbagi lebih banyak tentang bukti empiris yang membuat Anda jengkel.

rolando2
sumber
Anda mungkin ingin memikirkan kembali ini. Atau, coba simulasi. :)
kardinal
Perhatikan bahwa itu adalah persis ketika dan yang sangat berkorelasi bahwa salah satu tidak melihat ketimpangan dinyatakan dalam pertanyaan. :)AB
kardinal
Pertimbangkan skenario ekstrim berikut, di mana saya akan menggunakan lebih konvensional dan bukannya dan . Ambil distribusi normal (laten) bivariat. Biarkan menjadi proyeksi normal bivariat ke vektor eigen dengan nilai eigen terbesar. Biarkan menjadi proyeksi ke vektor eigen dari nilai eigen terkecil. Untuk setiap , biarkan . Kemudian, untuk adalah nol dan untuk dapat dibuat kecil secara sewenang-wenang. Namun, dariX1X2ABYX10<ρ<1X2=ρY+1ρ2XR2X1R2X2R2X1+X2adalah selalu 1 (mengapa?). Mungkin, Anda dapat mempertimbangkan untuk mengedit posting Anda.
kardinal
... dan Maksud saya model yang menggabungkan kedua prediktor, bukan jumlah sebenarnya. Notasi yang lebih baik mungkin akan melalui jumlah langsung . X1+X2X1X2
kardinal