Tentunya mungkin untuk menyesuaikan model yang baik ketika ada lebih banyak variabel daripada titik data, tetapi ini harus dilakukan dengan hati-hati.
Ketika ada lebih banyak variabel daripada titik data, masalahnya mungkin tidak memiliki solusi unik kecuali itu lebih lanjut dibatasi. Artinya, mungkin ada beberapa (mungkin tak terhingga banyak) solusi yang sesuai dengan data dengan baik. Masalah seperti itu disebut 'keliru' atau 'tidak ditentukan'. Misalnya, ketika ada lebih banyak variabel daripada titik data, regresi kuadrat standar minimum memiliki banyak solusi yang mencapai nol kesalahan pada data pelatihan.
Model seperti itu tentu akan terlalu bagus karena terlalu fleksibel untuk jumlah data pelatihan. Ketika fleksibilitas model meningkat (misalnya lebih banyak variabel dalam model regresi) dan jumlah data pelatihan menyusut, menjadi semakin mungkin bahwa model akan dapat mencapai kesalahan rendah dengan menyesuaikan fluktuasi acak dalam data pelatihan yang tidak mewakili benar, distribusi yang mendasarinya. Karena itu kinerjanya akan buruk ketika model dijalankan pada data masa depan yang diambil dari distribusi yang sama.
Masalah sikap buruk dan overfitting dapat diatasi dengan memaksakan kendala. Ini dapat mengambil bentuk batasan eksplisit pada parameter, hukuman / ketentuan regularisasi, atau Bayesian sebelumnya. Pelatihan kemudian menjadi tradeoff antara pemasangan data dengan baik dan memuaskan kendala. Anda menyebutkan dua contoh strategi ini untuk masalah regresi: 1) LASSO membatasi atau menghukum norma bobot, yang setara dengan memaksakan Laplacian sebelumnya. 2) Regresi Ridge membatasi atau menghukum norma dari bobot, yang setara dengan memaksakan Gaussian sebelumnya.ℓ1ℓ2
Kendala dapat menghasilkan solusi unik, yang diinginkan ketika kita ingin menafsirkan model untuk mempelajari sesuatu tentang proses yang menghasilkan data. Mereka juga dapat menghasilkan kinerja prediksi yang lebih baik dengan membatasi fleksibilitas model, sehingga mengurangi kecenderungan untuk berpakaian berlebihan.
Namun, hanya memaksakan kendala atau menjamin bahwa ada solusi unik tidak menyiratkan bahwa solusi yang dihasilkan akan baik. Kendala hanya akan menghasilkan solusi yang baik ketika mereka benar-benar cocok dengan masalah tersebut.
Beberapa poin lain-lain:
- Keberadaan beberapa solusi tidak selalu bermasalah. Misalnya, jaring saraf dapat memiliki banyak solusi yang mungkin berbeda satu sama lain tetapi hampir sama baiknya.
- Keberadaan lebih banyak variabel daripada titik data, adanya beberapa solusi, dan overfitting seringkali bertepatan. Tetapi, ini adalah konsep yang berbeda; masing-masing dapat terjadi tanpa yang lain.