Diberikan dua model regresi linier, model mana yang akan melakukan lebih baik?

14

Saya telah mengambil kursus pembelajaran mesin di kampus saya. Di salah satu quize, pertanyaan ini diajukan.

Model 1:

y=θx+ϵ
Model 2:
y=θx+θ2x+ϵ

Manakah dari model di atas yang lebih cocok dengan data? (anggap data dapat dimodelkan menggunakan regresi linier)

Jawaban yang benar (menurut profesor) adalah bahwa kedua model akan tampil sama baiknya. Namun saya percaya bahwa model pertama akan lebih cocok.

Inilah alasan di balik jawaban saya. Model kedua, yang dapat ditulis ulang sebagai αx+ϵ , α=θ+θ2 tidak akan sama dengan model pertama. α sebenarnya adalah parabola, dan karenanya memiliki nilai minimum ( 0.25 dalam kasus ini). Sekarang karena ini, kisaran θ dalam model pertama lebih besar dari kisaran α dalam model kedua. Oleh karena itu, jika data sedemikian rupa sehingga kecocokan terbaik memiliki kemiringan kurang dari 0.25 , model kedua akan berkinerja sangat buruk dibandingkan dengan yang pertama. Namun dalam kasus kemiringan paling cocok lebih besar dari0.25 , kedua model akan memiliki kinerja yang sama baiknya.

Jadi apakah yang pertama lebih baik, atau keduanya sama persis?

Kush
sumber
3
Aku pikir kamu benar. Dengan mensyaratkan bahwa parameter α dapat diekspresikan sebagai θ+θ2 (untuk beberapa θ ) benar-benar menegakkan batasan tentang apa yang dimungkinkan oleh α . Ini berarti bahwa model kedua dapat mengungkapkan lebih sedikit hubungan daripada yang pertama, karena pada dasarnya sekarang merupakan masalah optimasi yang dibatasi. Alasanmu tampak kuat bagiku.
Matthew Drury
@MatthewDrury Saya baru tahu di mana saya salah, lihat jawaban di bawah ini (dan komentarnya)
kush
3
Saya melihat komentar Anda, tetapi itu adalah beberapa senam yang cukup serius untuk mengasumsikan bahwa akan mengambil nilai yang kompleks. Saya pasti akan menghadiri beberapa jam kantor untuk membicarakan hal ini dengan profesor Anda. Anda akan mendapatkan diskusi yang bagus. θ
Matthew Drury
1
Tidak jelas bagi saya dari mana -0.25 berasal. Bisakah Anda mengklarifikasi?
Mad Jack
1
Saya akan tertarik pada bagaimana profesor Anda akan mencocokkan setiap model dengan dataset dua titik . Dengan Model 1 dan θ = - 1 kesesuaiannya sempurna, tetapi bagaimana ia memperkirakan θ pada Model 2 untuk mendapatkan kesesuaian yang sempurna? {(1,1),(2,2)}θ=1θ
Whuber

Jawaban:

9

Model 2 dapat ditulis sebagai: Ini tampaknya mirip dengan model 1, hanya dengan notasi berbeda untuk hyperparameters ( θ , β ). Namun, untuk model 1 kita dapat menulis θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Tapi karena dalam model 2 kita mendapati bahwa maka seperti yang Anda sebutkan memang berbagai β harus milik [ - 0,25 , + ] untuk θ R . Yang akan menyebabkan perbedaan dalam 2 model ini.

β=θ+θ2,
β^[0.25,+]θR

Jadi dalam model 2 Anda membatasi estimasi koefisien Anda tidak seperti model yang 1. Untuk membuat ini lebih jelas, perlu dicatat bahwa dalam model diperoleh melalui meminimalkan fungsi kerugian persegi θ = arg min θ R ( y - X θ )θ^ Namun dalam model 2 estimasi yang diperoleh melalui β =arg min β - 0,25 (y-Xβ)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
yang mungkin mengarah pada hasil yang berbeda.
β^=argminβ0.25  (yXβ)(yXβ)
Wis
sumber
1
Itu masuk akal, saya baru sadar bahwa tidak ada kendala pada pada model kedua! Jika θ + θ 2 negatif, θ mungkin memiliki nilai kompleks. Namun itu tidak terlalu mempengaruhi model, kan? Saya tidak punya perwakilan untuk mendukung, tetapi terima kasih banyak! θθ+θ2θ
kush
@kush Silakan periksa respons saya yang diedit yang juga mendukung kekhawatiran Anda
Wis
1

Tidak yakin saya mengerti alasan Anda. Jika Anda mengambil:

dan y = θ x

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2

akeenlogician
sumber
5
θ(,)α(0.25,)x