Secara kasar, ada tiga sumber kesalahan prediksi yang berbeda:
- bias model Anda
- varian model Anda
- varians yang tidak dapat dijelaskan
Kami tidak dapat melakukan apa pun tentang poin 3 (kecuali untuk mencoba memperkirakan varians yang tidak dapat dijelaskan dan menggabungkannya dalam kepadatan prediksi dan interval prediksi kami). Ini memberi kita 1 dan 2.
Jika Anda benar-benar memiliki model "benar", maka, katakanlah, estimasi parameter OLS akan tidak bias dan memiliki varians minimal di antara semua penaksir (linier) yang tidak bias (mereka BLUE). Prediksi dari model OLS akan menjadi prediksi linier tidak bias terbaik (BLUP). Boleh juga.
Namun, ternyata meskipun kami memiliki prediksi yang tidak bias dan varians minimal di antara semua prediksi yang tidak bias, varians masih bisa cukup besar. Lebih penting lagi, kita kadang-kadang dapat memperkenalkan bias "sedikit" dan secara bersamaan menyimpan "banyak" varians - dan dengan mendapatkan tradeoff yang tepat, kita bisa mendapatkan kesalahan prediksi yang lebih rendah dengan model bias (varian lebih rendah) daripada dengan yang tidak bias ( varians lebih tinggi) satu. Ini disebut "trade-variance bias", dan pertanyaan ini beserta jawabannya mencerahkan: Kapan estimator yang bias lebih disukai daripada yang tidak bias?
Dan regularisasi seperti laso, regresi ridge, jaring elastis dan sebagainya melakukan hal itu. Mereka menarik model ke nol. (Pendekatan Bayesian serupa - mereka menarik model ke arah prior.) Dengan demikian, model yang diregulasi akan menjadi bias dibandingkan dengan model yang tidak diatur, tetapi juga memiliki varian yang lebih rendah. Jika Anda memilih hak regularisasi Anda, hasilnya adalah prediksi dengan kesalahan yang lebih rendah.
Jika Anda mencari "regularisasi pengorbanan varians varians" atau serupa, Anda mendapatkan beberapa bahan untuk dipikirkan. Presentasi ini, misalnya, bermanfaat.
EDIT: amuba dengan tepat menunjukkan bahwa saya sedang menunggu mengapa tepatnya regularisasi menghasilkan varian model dan prediksi yang lebih rendah. Pertimbangkan model laso dengan parameter regularisasi besar . Jika , estimasi parameter laso Anda akan menyusut menjadi nol. Nilai parameter tetap dari nol memiliki varians nol. (Ini tidak sepenuhnya benar, karena nilai ambang luar yang parameter Anda akan menyusut ke nol tergantung pada data dan model Anda. Tetapi mengingat model dan data, Anda dapat menemukanλλ→∞λλsedemikian rupa sehingga modelnya adalah model nol. Selalu pertahankan quantifiers Anda lurus.) Namun, model nol tentu saja juga akan memiliki bias raksasa. Lagipula tidak peduli dengan pengamatan yang sebenarnya.
Dan hal yang sama berlaku untuk nilai yang tidak terlalu ekstrim dari parameter regularisasi Anda: nilai kecil akan menghasilkan estimasi parameter yang tidak diregulasi, yang akan menjadi kurang bias (tidak bias jika Anda memiliki model "benar"), tetapi memiliki nilai yang lebih tinggi perbedaan. Mereka akan "melompat-lompat", mengikuti pengamatan Anda yang sebenarnya. Nilai yang lebih tinggi dari regularisasi Anda akan "membatasi" estimasi parameter Anda semakin banyak. Inilah sebabnya mengapa metode memiliki nama seperti "laso" atau "jaring elastis": mereka membatasi kebebasan parameter Anda untuk melayang dan mengikuti data.λ
(Saya menulis sedikit makalah tentang ini, yang diharapkan akan lebih mudah diakses. Saya akan menambahkan tautan begitu tersedia.)
Hanya untuk menambahkan sesuatu ke jawaban bagus @ Kolassa, seluruh pertanyaan estimasi penyusutan terkait dengan paradoks Stein . Untuk proses multivarian dengan , vektor rata-rata sampel tidak dapat diterima. Dengan kata lain, untuk beberapa nilai parameter, ada penaksir yang berbeda dengan risiko yang diharapkan lebih rendah. Stein mengusulkan estimator penyusutan sebagai contoh. Jadi kita berhadapan dengan kutukan dimensi, karena penyusutan tidak membantu Anda ketika Anda hanya memiliki 1 atau 2 variabel independen.p≥3
Baca jawaban ini untuk lebih lanjut. Rupanya, paradoks Stein terkait dengan teorema terkenal bahwa proses gerak Browian dalam 3 atau lebih dimensi adalah non-berulang (berkeliaran di seluruh tempat tanpa kembali ke asal), sedangkan Brownians 1 dan 2 dimensi berulang.
Paradoks Stein berlaku terlepas dari apa yang Anda susutkan, meskipun dalam praktiknya, lebih baik jika Anda menyusutkan ke nilai parameter yang sebenarnya. Inilah yang orang Bayesia lakukan. Mereka pikir mereka tahu di mana parameter sebenarnya dan mereka menyusut ke sana. Kemudian mereka mengklaim bahwa Stein memvalidasi keberadaan mereka.
Ini disebut paradoks justru karena itu menantang intuisi kita. Namun, jika Anda memikirkan gerakan Brown, satu-satunya cara untuk mendapatkan gerakan 3D Brown untuk kembali ke asal adalah dengan mengenakan penalti redaman di tangga. Estimator penyusutan juga memberlakukan semacam damper pada estimasi (mengurangi varians), itulah sebabnya ia bekerja.
sumber