Mengapa penyusutan berfungsi?

55

Untuk menyelesaikan masalah pemilihan model, sejumlah metode (LASSO, ridge regression, dll.) Akan mengecilkan koefisien variabel prediktor menjadi nol. Saya mencari penjelasan intuitif mengapa ini meningkatkan kemampuan prediksi. Jika efek sebenarnya dari variabel itu sebenarnya sangat besar, mengapa tidak menyusutkan parameter menghasilkan prediksi yang lebih buruk?

calon ahli statistik
sumber

Jawaban:

48

Secara kasar, ada tiga sumber kesalahan prediksi yang berbeda:

  1. bias model Anda
  2. varian model Anda
  3. varians yang tidak dapat dijelaskan

Kami tidak dapat melakukan apa pun tentang poin 3 (kecuali untuk mencoba memperkirakan varians yang tidak dapat dijelaskan dan menggabungkannya dalam kepadatan prediksi dan interval prediksi kami). Ini memberi kita 1 dan 2.

Jika Anda benar-benar memiliki model "benar", maka, katakanlah, estimasi parameter OLS akan tidak bias dan memiliki varians minimal di antara semua penaksir (linier) yang tidak bias (mereka BLUE). Prediksi dari model OLS akan menjadi prediksi linier tidak bias terbaik (BLUP). Boleh juga.

Namun, ternyata meskipun kami memiliki prediksi yang tidak bias dan varians minimal di antara semua prediksi yang tidak bias, varians masih bisa cukup besar. Lebih penting lagi, kita kadang-kadang dapat memperkenalkan bias "sedikit" dan secara bersamaan menyimpan "banyak" varians - dan dengan mendapatkan tradeoff yang tepat, kita bisa mendapatkan kesalahan prediksi yang lebih rendah dengan model bias (varian lebih rendah) daripada dengan yang tidak bias ( varians lebih tinggi) satu. Ini disebut "trade-variance bias", dan pertanyaan ini beserta jawabannya mencerahkan: Kapan estimator yang bias lebih disukai daripada yang tidak bias?

Dan regularisasi seperti laso, regresi ridge, jaring elastis dan sebagainya melakukan hal itu. Mereka menarik model ke nol. (Pendekatan Bayesian serupa - mereka menarik model ke arah prior.) Dengan demikian, model yang diregulasi akan menjadi bias dibandingkan dengan model yang tidak diatur, tetapi juga memiliki varian yang lebih rendah. Jika Anda memilih hak regularisasi Anda, hasilnya adalah prediksi dengan kesalahan yang lebih rendah.

Jika Anda mencari "regularisasi pengorbanan varians varians" atau serupa, Anda mendapatkan beberapa bahan untuk dipikirkan. Presentasi ini, misalnya, bermanfaat.

EDIT: amuba dengan tepat menunjukkan bahwa saya sedang menunggu mengapa tepatnya regularisasi menghasilkan varian model dan prediksi yang lebih rendah. Pertimbangkan model laso dengan parameter regularisasi besar . Jika , estimasi parameter laso Anda akan menyusut menjadi nol. Nilai parameter tetap dari nol memiliki varians nol. (Ini tidak sepenuhnya benar, karena nilai ambang luar yang parameter Anda akan menyusut ke nol tergantung pada data dan model Anda. Tetapi mengingat model dan data, Anda dapat menemukanλλλλsedemikian rupa sehingga modelnya adalah model nol. Selalu pertahankan quantifiers Anda lurus.) Namun, model nol tentu saja juga akan memiliki bias raksasa. Lagipula tidak peduli dengan pengamatan yang sebenarnya.

Dan hal yang sama berlaku untuk nilai yang tidak terlalu ekstrim dari parameter regularisasi Anda: nilai kecil akan menghasilkan estimasi parameter yang tidak diregulasi, yang akan menjadi kurang bias (tidak bias jika Anda memiliki model "benar"), tetapi memiliki nilai yang lebih tinggi perbedaan. Mereka akan "melompat-lompat", mengikuti pengamatan Anda yang sebenarnya. Nilai yang lebih tinggi dari regularisasi Anda akan "membatasi" estimasi parameter Anda semakin banyak. Inilah sebabnya mengapa metode memiliki nama seperti "laso" atau "jaring elastis": mereka membatasi kebebasan parameter Anda untuk melayang dan mengikuti data.λ

(Saya menulis sedikit makalah tentang ini, yang diharapkan akan lebih mudah diakses. Saya akan menambahkan tautan begitu tersedia.)

S. Kolassa - Reinstate Monica
sumber
4
Tampaknya bagian penting dari teka-teki adalah: mengapa metode penyusutan mengurangi varians? (Bahwa mereka memperkenalkan beberapa bias lebih atau kurang jelas.) Anda hanya menyatakan bahwa mereka melakukannya; dapatkah Anda memberikan intuisi untuk itu?
Amoeba berkata Reinstate Monica
2
@Stephan Kolassa Jadi menambahkan istilah hukuman yang menghitung ukuran koefisien menambah sedikit bias tetapi mengurangi variabilitas karena menghukum koefisien yang besar, yang umumnya akan memiliki lebih banyak variabilitas daripada koefisien yang lebih kecil. Apakah itu benar? Kemudian, pada akhirnya kami tidak begitu khawatir tentang mendapatkan nilai 'benar' untuk koefisien tertentu, kami hanya tertarik pada kemampuan prediksi keseluruhan model?
calon
2
@aspiringstatistician: Kalimat kedua Anda tepat sasaran. (Ingat George Box tentang model "salah tapi berguna".) Saya tidak akan terlalu khawatir tentang apakah estimasi parameter besar menyusut lebih dari yang kecil. Pertama, ini akan tergantung pada standardisasi. Kedua, jika nilai parameter besar Anda diestimasi dengan baik (yaitu, dengan kesalahan rendah), maka mereka tidak harus menyusut banyak. Regularisasi "lebih disukai" untuk mengecilkan parameter-parameter yang didefinisikan dengan buruk, yaitu, yang memiliki varian tinggi.
S. Kolassa - Kembalikan Monica
3
+1. Semoga berhasil dengan kertas! @aspiringstatistician: Pengamatan yang sangat baik tentang susut tidak peduli dengan mendapatkan model yang benar; ini persis benar (dan layak untuk direnungkan): model yang ditentukan dengan benar dapat memiliki kemampuan prediksi yang lebih buruk daripada model yang diatur dan "kurang benar" (lihat Lampiran pada halaman 307 makalah ini untuk contoh).
Amuba mengatakan Reinstate Monica
7
+1. Hanya ingin menambahkan, bahwa sementara pertanyaannya adalah tentang intuisi di balik model yang diatur, rasanya agak tidak lengkap belum lagi derivasi Bayesian dari model ini. Sebagai contoh, ketika membandingkan regresi ridge ke MLE sederhana, dalam kebanyakan aplikasi tampaknya wajar bagi saya untuk memikirkan efek yang diambil dari distribusi normal, sebagai lawan dari distribusi yang seragam (tidak tepat). Jadi melihat teknik-teknik ini sebagai kasus khusus estimasi MAP membuatnya jelas mengapa seseorang akan memilih regresi ridge.
jlimahaverford
10

Hanya untuk menambahkan sesuatu ke jawaban bagus @ Kolassa, seluruh pertanyaan estimasi penyusutan terkait dengan paradoks Stein . Untuk proses multivarian dengan , vektor rata-rata sampel tidak dapat diterima. Dengan kata lain, untuk beberapa nilai parameter, ada penaksir yang berbeda dengan risiko yang diharapkan lebih rendah. Stein mengusulkan estimator penyusutan sebagai contoh. Jadi kita berhadapan dengan kutukan dimensi, karena penyusutan tidak membantu Anda ketika Anda hanya memiliki 1 atau 2 variabel independen.p3

Baca jawaban ini untuk lebih lanjut. Rupanya, paradoks Stein terkait dengan teorema terkenal bahwa proses gerak Browian dalam 3 atau lebih dimensi adalah non-berulang (berkeliaran di seluruh tempat tanpa kembali ke asal), sedangkan Brownians 1 dan 2 dimensi berulang.

Paradoks Stein berlaku terlepas dari apa yang Anda susutkan, meskipun dalam praktiknya, lebih baik jika Anda menyusutkan ke nilai parameter yang sebenarnya. Inilah yang orang Bayesia lakukan. Mereka pikir mereka tahu di mana parameter sebenarnya dan mereka menyusut ke sana. Kemudian mereka mengklaim bahwa Stein memvalidasi keberadaan mereka.

Ini disebut paradoks justru karena itu menantang intuisi kita. Namun, jika Anda memikirkan gerakan Brown, satu-satunya cara untuk mendapatkan gerakan 3D Brown untuk kembali ke asal adalah dengan mengenakan penalti redaman di tangga. Estimator penyusutan juga memberlakukan semacam damper pada estimasi (mengurangi varians), itulah sebabnya ia bekerja.

Placidia
sumber
Apakah Anda memiliki referensi untuk hubungan antara paradoks Stein dan proses Brown?
kjetil b halvorsen
1
Ikuti tautan saya di bawah "Baca jawaban ini untuk lebih banyak". Ada tautan dalam respons terhadap kertas yang membuat koneksi.
Placidia
estimator bayes diterima oleh teorema kelas lengkap: itu tidak ada hubungannya dengan estimator JS secara langsung. Namun, hasil bahwa JS mendominasi sampel rata-rata memang membuat orang lebih tertarik mempelajari penaksir bayes. (Saya keberatan dengan klaim bahwa bayesia "mengklaim bahwa Stein memvalidasi keberadaan mereka.")
user795305