Bisakah saya mengatakan sesuatu tentang kecenderungan untuk mengenakan (A) versus (B)?
Asalkan kedua kisi-kisi mencakup rentang yang cukup, kehalusan kisi tidak benar-benar ada hubungannya dengan overfitting dalam masalah ini (meskipun kisi kasar mungkin kurang baik jika melompati interval yang menguntungkan). Ini bukan seolah-olah menguji terlalu banyak nilai yang entah bagaimana akan mengubah seperti apa bentuk out-of-sample. * Dalam kasus ini regresi dihukum, kami pasti ingin mengoptimalkan fungsi kemungkinan hukuman kami untuk nilaiλ, dan tidak masalah berapa banyak nilai λkami menguji, karena kinerja out-of-sample untuk set data tetap dan partisi tetap sepenuhnya deterministik. Lebih tepatnya, metrik out-of-sample sama sekali tidak diubah oleh berapa banyak nilaiλAnda menguji. Grid kasar mungkin berarti Anda melewatkan minimum absolut dalam metrik out-of-sample Anda, tetapi menemukan minimum absolut mungkin tidak diinginkan di tempat pertama karena hyperparameters cenderung diperkirakan dengan buruk, dan properti sampel terbatas berarti bahwa data keterbatasan akan menjadi sumber kebisingan dalam estimasi yang akan membanjiri sedikit perubahan dalam jarak antara titik-titik grid yang berdekatan: kesalahan standar estimasi Anda akan cenderung membanjiri perbedaan dalam kehalusan grid.
Jika Anda benar-benar khawatir bahwa metrik kinerja out-of-sample mungkin terlalu optimis, Anda bisa mengadopsi 1 aturan kesalahan standar, yang memilih model paling teratur dalam 1 kesalahan standar minimum. Dengan begitu, Anda menjadi sedikit lebih konservatif dan memilih model yang tidak terlalu rumit.
Bisakah saya menentukan kehalusan kisi optimal? Bagaimana?
Algoritma LARS tidak secara apriori menentukan nilai dariλuntuk memeriksa; agak,λ diubah terus menerus dan algoritma memeriksa nilai λyang koefisiennya bergerak dari 0 ke nilai bukan nol. Nilai-nilai tersebutλdi mana koefisien baru bukan nol dipertahankan, dengan pengamatan bahwa jalur koefisien sebagian linier dalam kasus laso, sehingga tidak ada kehilangan informasi dengan hanya menyimpan simpul dalam kasus itu. LARS hanya bekerja ketika jalur koefisien linier, meskipun. Penalti ridge tidak pernah menyusutkan koefisien menjadi tepat nol, sehingga semua jalur koefisien Anda mulus dan selalu tidak nol; demikian juga regresi jaring elastis (tidak termasuk kasus regresi jaring elastis yang juga merupakan regresi laso).
Tetapi kebanyakan orang menggunakan GLMNET karena seringkali lebih cepat. Dalam hal menentukan grid apaλuntuk mencari, saya sarankan membaca artikel GLMNET "Jalur Regularisasi untuk Model Linear Umum melalui Koordinat Keturunan" oleh Jerome Friedman, Trevor Hastie, dan Rob Tibshirani. Di dalamnya, mereka mengembangkan algoritma yang sangat efisien untuk memperkirakan regresi ridge, laso dan net elastis. Algoritma memeriksa nilaiλmaks untuk itu β adalah vektor nol, dan kemudian mengidentifikasi nilai minimum λmin tergantung pada λmaks. Akhirnya, mereka menghasilkan urutan nilai antara keduanya secara seragam pada skala log. Kotak ini cukup untuk sebagian besar tujuan, meskipun tidak menghilangkan properti yang Anda akan tahu persis ketika koefisien diperkirakan pada nilai bukan nol. Awal yang hangat digunakan untuk memberikan solusi lebih cepat, dan mendukung banyak GLM umum.
* Anda mungkin berpikir tentang ini dari perspektif jaringan saraf tiruan, di mana penghentian awal kadang-kadang digunakan untuk menyelesaikan regularisasi, tapi itu masalah yang sama sekali tidak terkait (yaitu, bahwa algoritma optimasi dicegah dari mencapai yang optimal, jadi modelnya adalah dipaksa menjadi kurang kompleks).