Mengapa jumlah residu kuadrat tidak meningkat ketika menambahkan variabel penjelas?

9

Dalam buku teks ekonometrik saya (Introductory Econometrics) yang mencakup OLS, penulis menulis, "SSR harus jatuh ketika variabel penjelas lainnya ditambahkan." Kenapa sih?

Eric Xu
sumber
1
Intinya karena jika tidak ada hubungan linier dengan variabel berikutnya apa pun (0 korelasi parsial sampel), SSR akan tetap sama. Jika ada hubungan sama sekali, variabel selanjutnya dapat digunakan untuk mengurangi SSR.
Glen_b -Reinstate Monica
3
Pernyataan itu benar dalam semangat tetapi tidak sepenuhnya benar: SSR akan tetap sama (dan tidak jatuh) setelah menambahkan variabel apa pun yang merupakan kombinasi linear dari variabel yang ada. Lagi pula, dengan mengabaikan variabel baru, Anda dapat mencapai nilai minimum SSR yang sama dengan yang Anda lakukan dengan variabel lama, jadi menambahkan variabel baru tidak pernah dapat memperburuk keadaan.
whuber
Saya menjawab pertanyaan serupa di sini: stats.stackexchange.com/questions/306267/… . Anda mungkin menemukan itu berguna.
Josh,

Jawaban:

18

Dengan asumsi Anda memiliki model regresi linier, untuk notasi mudah pertimbangkan yang pertama kemudian dua kovariabel. Ini digeneralisasikan ke dua set kovariabel. Model pertama adalah model kedua adalah Ini diselesaikan dengan meminimalkan jumlah residu kuadrat, untuk model satu kami ingin meminimalkan dan untuk model dua Anda ingin kecilkan . Katakanlah Anda telah menemukan estimator yang tepat untuk model 1, maka Anda dapat memperoleh kuadrat jumlah residu yang sama persis di model dua dengan memilih nilai yang sama untuk

I:yi=β0+β1x1i+ϵi
II:yi=β0+β1x1i+β2x2i+ϵi
SSR1=i(yiβ0β1x1i)2SSR2=i(yiβ0β1x1iβ2x2i)2β 2 = 0 β 2β0,β1 dan membiarkan . Sekarang Anda dapat menemukan, mungkin, sisa kuadrat jumlah yang lebih rendah dengan mencari nilai yang lebih baik untuk .β2=0β2

Untuk meringkas, model bersarang, dalam arti bahwa semua yang kita dapat model dengan model 1 dapat dicocokkan dengan model dua, model dua lebih umum daripada model 1. Jadi, dalam optimasi, kita memiliki kebebasan yang lebih besar dengan model dua sehingga dapat selalu mencari solusi yang lebih baik.

Ini benar-benar tidak ada hubungannya dengan statistik tetapi merupakan fakta umum tentang optimasi.

kjetil b halvorsen
sumber
1
Belum berpikir seperti ini, sangat membantu!
Eric Xu
1

SSR adalah ukuran dari perbedaan antara data dan model estimasi.

Jika Anda memiliki opsi untuk memperhitungkan variabel lain, maka jika variabel ini berisi lebih banyak informasi, fit tersebut secara alami akan lebih ketat, yang berarti SSR lebih rendah.

Cloud Skywalker
sumber