Seberapa dapat dipertahankan untuk memilih

11

Ketika saya menentukan lambda saya melalui validasi silang, semua koefisien menjadi nol. Tapi saya punya beberapa petunjuk dari literatur bahwa beberapa prediktor pasti akan mempengaruhi hasilnya. Apakah itu sampah untuk secara sewenang-wenang memilih lambda sehingga hanya ada sesedikit yang diinginkan seseorang?

Saya ingin memilih 10 atau lebih prediktor dari 135 untuk model cox dan ukuran efek sayangnya kecil.

miura
sumber
6
Kedengarannya seperti Anda harus menggunakan informasi sebelumnya, karena Anda memiliki informasi non-data.
probabilityislogic
Jauh di lubuk hati saya merasa itu akan benar, sayangnya saya benar-benar tidak memiliki kecakapan statistik sampai sekarang di mana harus mulai melakukan ini.
miura
1
Anda tampaknya membingungkan dua hal yang berbeda: (1) Jika literatur memberi tahu Anda untuk menggunakan prediktor tertentu, maka sertakan dalam semua model. (2) Sebaliknya Anda tampaknya kembali menafsirkan-ini sebagai menunjukkan Anda harus memilih tertentu jumlah dari banyak prediksi, terlepas apakah mereka termasuk orang-orang tertentu yang disebutkan dalam literatur. Bisakah Anda mengklarifikasi apa yang sebenarnya ingin Anda capai?
Whuber

Jawaban:

4

Jika Anda ingin memiliki setidaknya sejumlah prediktor dengan beberapa rentang nilai yang ditentukan oleh literatur, mengapa memilih pendekatan murni-LASSO untuk memulai? Seperti yang disarankan @probabilityislogic, Anda harus menggunakan beberapa prior informatif pada variabel-variabel di mana Anda memiliki pengetahuan tentang. Jika Anda ingin mempertahankan beberapa properti LASSO untuk sisa prediktor, mungkin Anda bisa menggunakan sebelumnya dengan distribusi eksponensial ganda untuk setiap input lainnya, yaitu, gunakan kepadatan bentuk manaλ

p(βi)=λ2exp(λ|βi|),
λadalah pengali lagrange yang sesuai dengan solusi pure-LASSO. Pernyataan terakhir ini berasal dari fakta bahwa, dengan tidak adanya variabel dengan prior informatif, ini adalah cara lain untuk menurunkan LASSO (dengan memaksimalkan mode posterior diberikan asumsi normalitas untuk residual).
Néstor
sumber
3

Ada cara yang bagus untuk melakukan LASSO tetapi gunakan sejumlah prediktor. Ini adalah Least angle regression (LAR atau LARS) yang dijelaskan dalam makalah Efron. Selama prosedur iteratif itu menciptakan sejumlah model linier, masing-masing yang baru memiliki satu lagi prediktor, sehingga Anda dapat memilih satu dengan jumlah prediktor yang diinginkan.

l1l2

Alexey Zaytsev
sumber
3
Sementara LARS dan laso terkait erat, untuk sejumlah prediktor tetap, mereka bahkan mungkin tidak termasuk variabel yang sama. Satu bisa memilih sebuah nilai hukuman untuk laso yang memberikan jumlah yang diinginkan dari prediksi, tetapi pilihan dalam kasus tidak akan menjadi unik! Karenanya OP belum memberikan prosedur yang jelas, yang merupakan bagian dari masalah. Untuk LARS, ada manfaat bagus bahwa nilai penalti menghasilkan sejumlah prediktor tertentu membentuk interval, jadi memilih titik akhir (yang mana?) Atau titik tengah atau kriteria lain agak lebih mudah.
kardinal
1
Ya, memang benar bahwa LARS dan LASSO tidak identik, tetapi modifikasi sederhana LARS yang disarankan oleh penulis dalam artikel asli dapat diperkenalkan untuk mendapatkan solusi LASSO menggunakan teknik berbasis LARS.
Alexey Zaytsev
Ya, Alexey, ini benar. Saya kira komentar saya berkisar mengapa pindah ke LARS di tempat pertama. Orang biasanya bisa dengan mudah memilih nilai parameter penalti untuk laso yang menghasilkan jumlah prediktor yang diinginkan. Poin utama yang belum terselesaikan adalah bagaimana seseorang harus membuat pilihan yang unik dan konsekuensi yang mungkin ada dalam kasus OP. :)
kardinal
2

|S|=|{j:βj0}|β|S|2p|S|(p|S|) model, yang jauh lebih sedikit.

Teori laso bergantung pada parameter regularisasi yang cukup besar sehingga membuat model yang dipilih cukup jarang. Bisa jadi 10 fitur Anda terlalu banyak atau terlalu sedikit, karena tidak sepele untuk mengubah batas bawah pada menjadi batas atas pada.λ | S |λλ|S|

Biarkan menjadi taksiran data-driven kami untuk , dan beri . Lalu, mungkin Anda mencoba memastikan bahwa sehingga Anda telah memulihkan setidaknya fitur yang relevan? Atau mungkin Anda mencoba membuktikan bahwa sehingga Anda tahu bahwa fitur yang Anda temukan semuanya berharga? Dalam kasus ini, prosedur Anda akan lebih dibenarkan jika Anda memiliki informasi sebelumnya tentang ukuran relatif . ß * S ={jβ^βS* S SS*S*S^={j:β^j0}SS^S^SS

Juga, perhatikan, Anda dapat membiarkan beberapa koefisien tidak dilabeli ketika melakukan laso, misalnya glmnet,.

pengguna795305
sumber