Musim liburan telah memberi saya kesempatan untuk meringkuk di samping api dengan The Elements of Statistics Learning . Berasal dari perspektif ekonometrik (sering), saya mengalami kesulitan memahami penggunaan metode penyusutan seperti regresi ridge, laso, dan regresi sudut terkecil (LAR). Biasanya, saya tertarik pada estimasi parameter sendiri dan dalam mencapai ketidakberpihakan atau setidaknya konsistensi. Metode penyusutan tidak melakukan itu.
Tampaknya bagi saya bahwa metode ini digunakan ketika ahli statistik khawatir bahwa fungsi regresi menjadi terlalu responsif terhadap prediktor, sehingga menganggap prediktor lebih penting (diukur dengan besarnya koefisien) daripada yang sebenarnya. Dengan kata lain, overfitting.
Tapi, OLS biasanya memberikan perkiraan yang tidak bias dan konsisten. (Catatan kaki) Saya selalu melihat masalah overfitting bukan dari memberikan estimasi yang terlalu besar, melainkan interval kepercayaan yang terlalu kecil karena proses seleksi tidak diperhitungkan ( ESL menyebutkan poin terakhir ini).
Estimasi koefisien yang tidak sesuai / konsisten menyebabkan prediksi yang tidak bias / konsisten dari hasil. Metode penyusutan mendorong prediksi lebih dekat ke hasil rata-rata daripada OLS, tampaknya meninggalkan informasi di atas meja.
Untuk mengulangi, saya tidak melihat masalah apa metode penyusutan mencoba untuk menyelesaikannya. Apakah saya melewatkan sesuatu?
Catatan Kaki: Kami membutuhkan kondisi peringkat kolom lengkap untuk identifikasi koefisien. Asumsi eksogenitas / nol syarat bersyarat untuk kesalahan dan asumsi harapan bersyarat linier menentukan interpretasi yang dapat kita berikan kepada koefisien, tetapi kita mendapatkan estimasi yang tidak bias atau konsisten dari sesuatu bahkan jika asumsi ini tidak benar.
sumber
Jawaban:
Saya curiga Anda menginginkan jawaban yang lebih dalam, dan saya harus membiarkan orang lain memberikan itu, tetapi saya dapat memberi Anda beberapa pemikiran tentang regresi ridge dari perspektif konseptual yang longgar.
Regresi OLS menghasilkan estimasi parameter yang tidak bias (yaitu, jika sampel tersebut dikumpulkan dan parameter diperkirakan tanpa batas, distribusi sampling dari estimasi parameter akan dipusatkan pada nilai sebenarnya). Selain itu, distribusi pengambilan sampel akan memiliki varians terendah dari semua estimasi yang mungkin tidak bias (ini berarti bahwa, rata-rata, estimasi parameter OLS akan lebih dekat dengan nilai sebenarnya daripada perkiraan dari beberapa prosedur estimasi bias lainnya akan). Ini adalah berita lama (dan saya minta maaf, saya tahu Anda tahu betul ini), namun fakta bahwa variansnya lebih rendah tidak berarti bahwa itu sangat rendah. Dalam beberapa keadaan, varians dari distribusi sampling dapat sangat besar sehingga membuat estimator OLS pada dasarnya tidak berharga. (Satu situasi di mana ini bisa terjadi adalah ketika ada tingkat multikolinieritas tinggi.)
Apa yang harus dilakukan dalam situasi seperti itu? Nah, penduga yang berbeda dapat ditemukan yang memiliki varian yang lebih rendah (walaupun, jelas, itu harus bias, mengingat apa yang ditetapkan di atas). Artinya, kami menjual ketidakberpihakan untuk varian yang lebih rendah. Sebagai contoh, kami mendapatkan estimasi parameter yang kemungkinan jauh lebih dekat dengan nilai sebenarnya, meskipun mungkin sedikit di bawah nilai sebenarnya. Apakah tradeoff ini bermanfaat atau tidak merupakan penilaian yang harus diambil analis ketika berhadapan dengan situasi ini. Bagaimanapun, regresi ridge hanyalah teknik semacam itu. Gambar berikut (sepenuhnya dibuat-buat) dimaksudkan untuk menggambarkan ide-ide ini.
Ini memberikan pengantar singkat, sederhana, konseptual untuk regresi ridge. Saya kurang tahu tentang laso dan LAR, tapi saya percaya ide yang sama bisa diterapkan. Informasi lebih lanjut tentang laso dan regresi sudut terkecil dapat ditemukan di sini , tautan "penjelasan sederhana ..." sangat membantu. Ini memberikan lebih banyak informasi tentang metode penyusutan.
Saya harap ini ada nilainya.
sumber
Kesalahan penduga adalah kombinasi komponen (kuadrat) dan varians . Namun dalam praktiknya kami ingin mencocokkan model dengan sampel data terbatas tertentu dan kami ingin meminimalkan kesalahan total penaksir yang dievaluasi pada sampel data tertentu yang sebenarnya kami miliki , daripada kesalahan nol rata-rata pada beberapa populasi sampel (yang tidak kita miliki). Karena itu kami ingin mengurangi bias dan varians, untuk meminimalkan kesalahan, yang seringkali berarti mengorbankan ketidakberpihakan untuk membuat pengurangan yang lebih besar dalam komponen varians. Ini terutama benar ketika berhadapan dengan dataset kecil, di mana varians cenderung tinggi.
Saya pikir perbedaan fokus tergantung pada apakah seseorang tertarik pada sifat-sifat prosedur, atau mendapatkan hasil terbaik pada sampel tertentu. Biasanya para frekuensi sering menemukan yang pertama lebih mudah ditangani dalam kerangka itu; Bayesian sering lebih fokus pada yang terakhir.
sumber
Saya kira ada beberapa jawaban yang mungkin berlaku:
Saya tidak yakin bahwa poin pertama mengenai regresi ridge benar-benar fitur; Saya pikir saya lebih suka mengubah model saya untuk berurusan dengan non-identifikasi. Bahkan tanpa perubahan pemodelan, OLS memberikan prediksi yang unik (dan tidak bias / konsisten) dari hasil dalam kasus ini.
Saya bisa melihat bagaimana poin kedua bisa membantu, tetapi seleksi ke depan juga dapat bekerja dalam kasus jumlah parameter yang melebihi jumlah pengamatan sambil menghasilkan perkiraan yang tidak bias / konsisten.
Pada poin terakhir, seleksi maju / mundur, sebagai contoh, mudah diotomatisasi.
Jadi saya masih belum melihat keuntungan sebenarnya.
sumber
Berikut ini adalah contoh terapan dasar dari Biostatistics
Mari kita asumsikan bahwa saya sedang mempelajari hubungan yang mungkin antara keberadaan kanker ovarium dan satu set gen.
Variabel dependen saya adalah biner (dikodekan sebagai nol atau 1) Variabel independen saya mengkode data dari database proteomik.
Seperti yang umum dalam banyak studi genetika, data saya jauh lebih luas daripada yang tinggi. Saya memiliki 216 pengamatan berbeda tetapi 4000 kemungkinan prediksi.
Regresi linier langsung keluar (sistemnya mengerikan karena ditentukan).
teknik pemilihan fitur benar-benar tidak layak. Dengan 4.000+ variabel independen yang berbeda, semua teknik subset yang mungkin benar-benar keluar dari pertanyaan dan bahkan pemilihan fitur berurutan pun meragukan.
Pilihan terbaik mungkin menggunakan regresi logistik dengan jaring elastis.
Saya ingin melakukan pemilihan fitur (mengidentifikasi variabel independen mana yang penting) sehingga regresi ridge benar-benar tidak sesuai.
Sangat mungkin bahwa ada lebih dari 216 variabel independen yang memiliki pengaruh signifikan, jadi saya mungkin tidak boleh menggunakan laso (Lasso tidak dapat mengidentifikasi lebih banyak prediktor daripada yang Anda amati) ...
Masukkan jaring elastis ...
sumber
Masalah lain yang dapat diatasi oleh metode penyusutan regresi linier adalah mendapatkan estimasi varians yang rendah (mungkin tidak bias) dari efek perawatan rata-rata (ATE) dalam studi kasus kontrol dimensi tinggi pada data pengamatan.
Secara khusus, dalam kasus di mana 1) ada sejumlah besar variabel (membuatnya sulit untuk memilih variabel untuk pencocokan tepat), 2) pencocokan skor kecenderungan gagal menghilangkan ketidakseimbangan dalam sampel pengobatan dan kontrol, dan 3) multikolinieritas hadir, ada ada beberapa teknik, seperti laso adaptif (Zou, 2006) yang memperoleh estimasi asimtotik yang tidak bias. Ada beberapa makalah yang membahas menggunakan regresi laso untuk inferensial kausal dan menghasilkan interval kepercayaan pada estimasi koefisien (lihat posting berikut: Inferensi setelah menggunakan Lasso untuk pemilihan variabel ).
sumber