Pertanyaan: Apa keuntungan / kerugian dari menggunakan satu sebelum yang lain untuk pemilihan variabel?
Misalkan saya memiliki kemungkinan: di mana saya dapat menempatkan salah satu prior: w i ~ π delta 0 + ( 1 - π ) N ( 0 , 100 )
atau:
w i ∼ exp ( - λ | w i | )
Saya menempatkan untuk menekankan bahwa sebagian besar bobotnya nol dan sebuah gamma sebelum λ untuk memilih parameter 'regularisasi'.
Namun, profesor saya tetap bersikeras bahwa versi laso 'menyusutkan' koefisien dan tidak benar-benar melakukan pemilihan variabel yang tepat, yaitu ada penyusutan yang berlebihan bahkan parameter yang relevan.
bayesian
feature-selection
sachinruk
sumber
sumber
Jawaban:
Kedua metode ini (LASSO vs spike-and-slab) dapat diartikan sebagai masalah estimasi Bayesian di mana Anda menentukan parameter yang berbeda. Salah satu perbedaan utama adalah bahwa metode LASSO tidak menempatkan titik-massa pada nol untuk prior (yaitu, parameter hampir pasti non-nol a priori), sedangkan spike-and-slab menempatkan titik-massa yang substansial pada nol.
Menurut pendapat saya yang sederhana, keuntungan utama dari metode spike-and-slab adalah bahwa metode ini sangat cocok untuk masalah di mana jumlah parameter lebih dari jumlah titik data , dan Anda ingin sepenuhnya menghilangkan sejumlah besar parameter. dari model. Karena metode ini menempatkan titik-massa besar pada nol di awal, metode ini akan menghasilkan estimasi posterior yang cenderung hanya melibatkan sebagian kecil dari parameter, semoga menghindari data yang terlalu pas.
Ketika profesor Anda memberi tahu Anda bahwa yang pertama tidak melakukan metode pemilihan variabel, yang mungkin dia maksud adalah ini. Di bawah LASSO, masing-masing parameter hampir pasti bukan nol apriori (yaitu, mereka semua dalam model). Karena kemungkinannya juga bukan nol daripada dukungan parameter, ini juga akan berarti bahwa masing-masing hampir pasti bukan nol a priori (yaitu, mereka semua dalam model). Sekarang, Anda dapat melengkapi ini dengan uji hipotesis, dan mengesampingkan parameter dari model dengan cara itu, tetapi itu akan menjadi tes tambahan yang dikenakan di atas model Bayesian.
Hasil estimasi Bayesian akan mencerminkan kontribusi dari data dan kontribusi dari sebelumnya. Tentu saja, distribusi sebelumnya yang lebih terkonsentrasi di sekitar nol (seperti spike-and-slab) memang akan "mengecilkan" penduga parameter yang dihasilkan, relatif terhadap sebelumnya yang kurang terkonsentrasi (seperti LASSO). Tentu saja, "penyusutan" ini hanyalah efek dari informasi sebelumnya yang telah Anda tentukan. Bentuk prior LASSO berarti bahwa ia mengecilkan semua estimasi parameter terhadap rata-rata, relatif terhadap yang sebelumnya datar.
sumber