Saya telah mengambil kursus pembelajaran mesin di kampus saya. Di salah satu quize, pertanyaan ini diajukan.
Model 1:
Model 2:Manakah dari model di atas yang lebih cocok dengan data? (anggap data dapat dimodelkan menggunakan regresi linier)
Jawaban yang benar (menurut profesor) adalah bahwa kedua model akan tampil sama baiknya. Namun saya percaya bahwa model pertama akan lebih cocok.
Inilah alasan di balik jawaban saya. Model kedua, yang dapat ditulis ulang sebagai , tidak akan sama dengan model pertama. sebenarnya adalah parabola, dan karenanya memiliki nilai minimum ( dalam kasus ini). Sekarang karena ini, kisaran dalam model pertama lebih besar dari kisaran dalam model kedua. Oleh karena itu, jika data sedemikian rupa sehingga kecocokan terbaik memiliki kemiringan kurang dari , model kedua akan berkinerja sangat buruk dibandingkan dengan yang pertama. Namun dalam kasus kemiringan paling cocok lebih besar dari , kedua model akan memiliki kinerja yang sama baiknya.
Jadi apakah yang pertama lebih baik, atau keduanya sama persis?
Jawaban:
Model 2 dapat ditulis sebagai: Ini tampaknya mirip dengan model 1, hanya dengan notasi berbeda untuk hyperparameters ( θ , β ). Namun, untuk model 1 kita dapat menulis θ = ( X
Tapi karena dalam model 2 kita mendapati bahwa maka seperti yang Anda sebutkan memang berbagai β harus milik [ - 0,25 , + ∞ ] untuk θ ∈ R . Yang akan menyebabkan perbedaan dalam 2 model ini.
Jadi dalam model 2 Anda membatasi estimasi koefisien Anda tidak seperti model yang 1. Untuk membuat ini lebih jelas, perlu dicatat bahwa dalam model diperoleh melalui meminimalkan fungsi kerugian persegi θ = arg min θ ∈ R ( y - X θ )θ^
Namun dalam model 2 estimasi yang diperoleh melalui
β =arg min β ≥ - 0,25 (y-Xβ)
sumber
Tidak yakin saya mengerti alasan Anda. Jika Anda mengambil:
dan y = θ x
sumber