Regresi Linier: Bagaimana memilih parameter yang kurang "sensitif"?

Saya memiliki model regresi sederhana ( y = param1 * x1 + param2 * x2 ). Ketika saya memasukkan model ke data saya, saya menemukan dua solusi yang baik:

Solusi A, params = (2,7), yang terbaik pada set pelatihan dengan RMSE = 2.5
TAPI! Solusi B params = (24,20) menang besar pada set validasi , ketika saya melakukan validasi silang.

Saya menduga ini karena:

solusi A dikelilingi oleh solusi buruk. Jadi ketika saya menggunakan solusi A, modelnya lebih sensitif terhadap variasi data.
solusi B dikelilingi oleh solusi OK, sehingga kurang sensitif terhadap perubahan data.

Apakah ini teori baru yang saya ciptakan, bahwa solusi dengan tetangga yang baik tidak terlalu berlebihan? :))

Apakah ada metode optimasi umum yang akan membantu saya mendukung solusi B, untuk solusi A?

TOLONG!

regression cross-validation overfitting sensitivity-analysis elemolotiv
sumber

Gambar Anda adalah kesalahan set latihan? Bisakah Anda membuat gambar yang sama untuk kesalahan validasi silang? Acungan jempol untuk plot keren.

Zach

Bisakah Anda juga berbagi data? Ini masalah yang menarik.

Zach

CV macam apa yang Anda gunakan?

Laksan Nathan

Apakah ada intersep dalam model Anda?

EdM

Murni sebagai masalah statistik, jika saya memiliki dataset cukup besar didistribusikan sesuai dengan model linear, dan saya melihat subset kecil dari dataset, akan ada bagian dengan setiap nilai dari lereng yang saya bisa keinginan. Jadi, Anda perlu menguji terhadap hipotesis nol bahwa ini hanya muncul secara kebetulan. Jika Anda memiliki beberapa alasan tambahan untuk berpikir bahwa set validasi lebih dapat diandalkan daripada set pelatihan, Anda dapat menggunakan regresi kuadrat terkecil tertimbang untuk menyesuaikan pentingnya set validasi vs set pelatihan.

Dave Kielpinski

Jawaban:

Satu-satunya cara untuk mendapatkan rmse yang memiliki dua minimum lokal adalah untuk residual model dan data menjadi nonlinear. Karena salah satu dari ini, modelnya, adalah linier (dalam 2D), yang lainnya, yaitu, data , harus nonlinier sehubungan dengan kecenderungan mendasar dari data atau fungsi noise dari data itu, atau keduanya. $y$

Oleh karena itu, model yang lebih baik, yang nonlinier, akan menjadi titik awal untuk menyelidiki data. Selain itu, tanpa mengetahui lebih banyak tentang data, orang tidak dapat mengatakan metode regresi apa yang harus digunakan dengan pasti. Saya dapat menawarkan bahwa regularisasi Tikhonov, atau regresi punggungan terkait, akan menjadi cara yang baik untuk menjawab pertanyaan OP. Namun, faktor penghalusan apa yang harus digunakan akan tergantung pada apa yang ingin diperoleh dengan pemodelan. Asumsi di sini tampaknya adalah bahwa paling tidak rmse membuat model terbaik karena kita tidak memiliki tujuan regresi (selain OLS yang merupakan metode default "pergi ke" yang paling sering digunakan ketika target regresi yang ditentukan secara fisik bahkan tidak dikonseptualisasikan) .

Jadi, apa tujuan melakukan regresi ini? Tanpa mendefinisikan tujuan itu, tidak ada tujuan atau target regresi dan kami hanya menemukan regresi untuk tujuan kosmetik.

Carl
sumber