Sudah ada posting di situs ini yang membicarakan masalah yang sama: Mengapa penyusutan berfungsi?
Tetapi, meskipun jawabannya populer, saya tidak percaya inti dari pertanyaan itu benar-benar ditanggapi. Cukup jelas bahwa memperkenalkan beberapa bias dalam estimasi membawa pengurangan varians dan dapat meningkatkan kualitas estimasi. Namun:
1) Mengapa kerusakan yang dilakukan dengan memperkenalkan bias kurang dibandingkan dengan gain dalam varian?
2) Mengapa selalu berhasil? Misalnya dalam kasus Ridge Regression: theorem keberadaan
3) Apa yang sangat menarik dari 0 (asal)? Jelas kita bisa menyusut di mana saja kita suka (yaitu penaksir Stein ), tetapi apakah itu akan bekerja sebaik asalnya?
4) Mengapa berbagai skema pengkodean universal lebih memilih jumlah bit yang lebih sedikit di sekitar titik asal? Apakah hipotesis ini hanya lebih mungkin?
Jawaban dengan referensi untuk teorema yang terbukti atau hasil yang ditetapkan diharapkan.
sumber
Jawaban:
Tidak harus, hanya biasanya begitu. Apakah tradeoff itu layak, itu tergantung pada fungsi kerugiannya. Tetapi hal-hal yang kita pedulikan dalam kehidupan nyata seringkali mirip dengan kesalahan kuadrat (mis. Kita lebih peduli pada satu kesalahan besar daripada sekitar dua kesalahan setengah dari ukuran).
Sebagai contoh tandingan - bayangkan bahwa untuk penerimaan di perguruan tinggi kami mengecilkan skor SAT orang sedikit terhadap SAT rata-rata untuk demografis mereka (namun didefinisikan). Jika dilakukan dengan benar, ini akan mengurangi varians dan rata-rata kesalahan kuadrat dari perkiraan (semacam) kemampuan orang saat memperkenalkan bias. Kebanyakan orang akan berpendapat bahwa pertukaran semacam itu tidak dapat diterima.
Saya pikir ini karena kita biasanya mengecilkan koefisien atau perkiraan efek. Ada alasan untuk meyakini bahwa sebagian besar efeknya tidak besar (lihat mis. Andrew Gelman mengambil ). Satu cara untuk mengatakannya adalah bahwa dunia di mana segala sesuatu memengaruhi segalanya dengan efek yang kuat adalah dunia yang keras dan tidak dapat diprediksi. Karena dunia kita cukup dapat diprediksi untuk membiarkan kita berumur panjang dan membangun peradaban semi-stabil, maka akibatnya kebanyakan efeknya tidak besar.
Karena sebagian besar efek tidak besar, berguna untuk secara salah menyusutkan beberapa yang sangat besar sementara juga dengan benar menyusutkan banyak efek yang dapat diabaikan.
Saya percaya ini hanya properti dari dunia kami dan Anda mungkin bisa membangun dunia yang konsisten sendiri di mana penyusutan tidak praktis (kemungkinan besar dengan membuat kesalahan rata-rata sebagai fungsi kerugian yang tidak praktis). Itu tidak terjadi pada dunia yang kita tinggali.
Di sisi lain, ketika kita menganggap penyusutan sebagai distribusi sebelumnya dalam analisis Bayesian, ada beberapa kasus di mana penyusutan ke 0 secara aktif berbahaya dalam praktik.
Salah satu contoh adalah skala panjang dalam Proses Gaussian (di mana 0 bermasalah) rekomendasi dalam manual Stan adalah untuk menggunakan sebelum yang menempatkan bobot diabaikan mendekati nol yaitu efektif "menyusut" nilai-nilai kecil jauh dari nol. Demikian pula, prior prior untuk dispersi dalam distribusi binomial negatif secara efektif menyusut dari nol. Yang terakhir tetapi tidak kalah pentingnya, setiap kali distribusi normal diparameterisasi dengan presisi (seperti pada INLA), akan berguna untuk menggunakan invers-gamma atau distribusi sebelumnya lainnya yang menyusut dari nol.
Sekarang ini adalah jalan keluar dari kedalaman saya, tetapi Wikipedia mengatakan bahwa dalam skema pengkodean universal kita mengharapkan ( menurut definisi ) untuk semua positif sehingga properti ini tampaknya merupakan konsekuensi sederhana dari definisi tersebut dan tidak terkait penyusutan (atau apakah saya melewatkan sesuatu?)P( i ) ≥ P( I + 1 ) saya
sumber
Punggung, laso, dan jaring elastis mirip dengan metode Bayesian dengan priorasinya berpusat pada nol - lihat, misalnya, Pembelajaran Statistik dengan Sparsity oleh Hastie, Tibshirani dan Wainwright, bagian
2.9 Lq Penalties and Bayes Estimates
: "Ada juga pandangan Bayesian dari penduga ini. ... Ini berarti bahwa estimasi laso adalah penaksir Bayesian MAP (aposteriori maksimum) menggunakan Laplacian prior. "Salah satu cara untuk menjawab pertanyaan Anda (
what's so special about zero?
) adalah bahwa efek yang kami perkirakan rata-rata nol, dan mereka cenderung kecil (mis. Prior kami harus berpusat di sekitar nol). Perkiraan menyusut mendekati nol kemudian optimal dalam arti Bayesian, dan laso dan ridge dan jaring elastis dapat dipikirkan melalui lensa itu.sumber