Dalam penginderaan terkompresi, ada jaminan teorema bahwa memiliki solusi jarang yang unik c (Lihat lampiran untuk detail lebih lanjut).
Apakah ada teorema yang serupa untuk laso? Jika ada teorema seperti itu, tidak hanya akan menjamin stabilitas laso, tetapi juga akan memberikan laso dengan interpretasi yang lebih bermakna:
laso dapat mengungkap vektor koefisien regresi jarang yang digunakan untuk menghasilkan respon oleh .
Ada dua alasan mengapa saya mengajukan pertanyaan ini:
Saya pikir 'laso nikmat solusi jarang' bukan jawaban mengapa menggunakan laso untuk pemilihan fitur karena kita bahkan tidak tahu apa kelebihan fitur yang kita pilih.
Saya belajar laso terkenal karena tidak stabil untuk pemilihan fitur. Dalam praktiknya, kita harus menjalankan sampel bootstrap untuk mengevaluasi stabilitasnya. Apa alasan paling penting yang menyebabkan ketidakstabilan ini?
Lampiran:
Diberikan . adalah vektor sparse ( ). Proses menghasilkan respons . Jika memiliki NSP (null space property) of order dan matriks kovarians tidak memiliki nilai eigen mendekati nol, akan ada solusi unik untuk
Teorema ini juga mengatakan juga jika tidak memiliki NSP of order , tidak ada harapan untuk menyelesaikan .
EDIT:
Setelah menerima jawaban yang luar biasa ini, saya menyadari bahwa saya bingung ketika mengajukan pertanyaan ini.
Mengapa pertanyaan ini membingungkan:
Saya membaca makalah penelitian di mana kita harus memutuskan berapa banyak fitur (kolom) yang akan dimiliki matriks desain (fitur tambahan dibuat dari fitur utama). Karena ini adalah masalah khas , diharapkan dibangun dengan baik sehingga solusi untuk laso dapat menjadi pendekatan yang baik dari solusi jarang nyata.
Alasannya dibuat dari teorema yang saya sebutkan dalam lampiran: Jika kita bertujuan untuk menemukan solusi ombak , lebih baik memiliki NSP of order .
Untuk matriks , jika dilanggar, maka
tidak ada yang stabil dan pemulihan yang kuat dari dari dan adalah mungkin
berkorespondensi dengan , berkorespondensi dengan
... seperti yang diharapkan dari hubungan , pemilihan deskriptor menjadi lebih tidak stabil, yaitu, untuk set pelatihan yang berbeda, deskriptor yang dipilih sering berbeda ...
Kutipan kedua adalah bagian yang membingungkan saya. Tampak bagi saya ketika ketimpangan dilanggar itu bukan hanya solusi mungkin non-unik (tidak disebutkan), tetapi deskriptor juga akan menjadi lebih tidak stabil.
sumber
Jawaban:
MEMPERBARUI
Lihat posting kedua ini untuk umpan balik McDonald's pada jawaban saya di mana gagasan tentang konsistensi risiko terkait dengan stabilitas.
1) Keunikan vs Stabilitas
Pertanyaan Anda sulit dijawab karena menyebutkan dua topik yang sangat berbeda: keunikan dan stabilitas .
Secara intuitif, suatu solusi adalah unik jika diberi set data tetap, algoritma selalu menghasilkan hasil yang sama. Jawaban Martin mencakup hal ini dengan sangat rinci.
Stabilitas di sisi lain dapat dipahami secara intuitif sebagai prediksi yang tidak banyak berubah ketika data pelatihan sedikit dimodifikasi.
Stabilitas berlaku untuk pertanyaan Anda karena pemilihan fitur Lasso (sering) dilakukan melalui Validasi Silang, oleh karena itu algoritma Lasso dilakukan pada lipatan data yang berbeda dan dapat menghasilkan hasil yang berbeda setiap kali.
Stabilitas dan Teorema Tanpa Makan Siang Gratis
Menggunakan definisi dari sini jika kita mendefinisikan stabilitas Seragam sebagai:
maka "No Free Lunch Theorem, Xu and Caramis (2012)" menyatakan hal itu
Misalnya, regresi teratur stabil dan tidak mengidentifikasi fitur yang berlebihan, sedangkan regresi reguler (Lasso) tidak stabil.L2 L1
Upaya menjawab pertanyaan Anda
Melangkah lebih jauh
Ini bukan untuk mengatakan bahwa kombinasi Cross Validation dan Lasso tidak berfungsi ... pada kenyataannya telah ditunjukkan secara eksperimental (dan dengan banyak teori pendukung) untuk bekerja dengan sangat baik dalam berbagai kondisi. Kata kunci utama di sini adalah konsistensi , risiko, ketidaksetaraan nubuat dll.
Slide dan kertas berikut oleh McDonald dan Homrighausen (2013) menggambarkan beberapa kondisi di mana pemilihan fitur Lasso berfungsi dengan baik: slide dan kertas: " Lasso , kegigihan, dan validasi silang, McDonald dan Homrighausen (2013)" . Tibshirani sendiri juga memposting serangkaian catatan tentang sparcity , regresi linier
Berbagai kondisi untuk konsistensi dan dampaknya pada Lasso adalah topik penelitian aktif dan jelas bukan pertanyaan sepele. Saya dapat mengarahkan Anda ke beberapa makalah penelitian yang relevan:
sumber
Komentar dari Daniel J. McDonald
Asisten profesor di Indiana University Bloomington, penulis dua makalah yang disebutkan dalam tanggapan asli dari Xavier Bourret Sicotte .
sumber
Lasso, tidak seperti regresi Ridge (lihat misalnya Hoerl dan Kennard, 1970; Hastie et al., 2009) tidak selalu memiliki solusi yang unik, meskipun biasanya memiliki. Itu tergantung pada jumlah parameter dalam model, apakah variabelnya kontinu atau diskrit, dan pangkat matriks desain Anda. Kondisi untuk keunikan dapat ditemukan di Tibshirani (2013).
Referensi:
Hastie, T., Tibshirani, R., dan Friedman, J. (2009). Unsur-unsur pembelajaran statistik . Seri springer dalam statistik. Springer, New York, cetakan ke-11, edisi ke-2.
Hoerl, AE, dan Kennard, RW (1970). Regresi punggungan: Estimasi bias untuk masalah-masalah nonorthogonal Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). Masalah laso dan keunikan. Jurnal Elektronik Statistik , 7, 1456-1490.
sumber
Apa yang menyebabkan non-keunikan.
Untuk vektor (di mana adalah tanda yang menunjukkan apakah perubahan akan meningkat atau menurun ), setiap kali mereka bergantung erat:sixi si ci ∥c∥1
lalu ada kombinasi tak terhingga yang tidak mengubah solusi dan norma .ci+γαi Xc ∥c∥1
Sebagai contoh:
miliki untuk solusinya:∥c∥1=1
dengan0≤γ≤12
Kita dapat mengurutkan menggantikan vektor dengan menggunakanx2 x2=0.5x1+0.5x3
Situasi tanpa kondisi ini
Dalam artikel dari Tibshirani (dari jawaban Phil) tiga kondisi yang cukup dijelaskan untuk laso untuk memiliki solusi yang unik.
Cukup independen Ketika kolom berada pada posisi umum.Xs
Artinya, tidak ada kolom mewakili titik dalam bidang dimensi. Bidang k-2 dimensi dapat diparameterisasi dengan titik apa pun sebagai dengan . Dengan titik -th di bidang yang sama ini Anda akan memiliki kondisi dengank k−2 k−1 ∑αisixi ∑αi=1 k sjxj ∑αisixi ∑αi=0
Perhatikan bahwa pada contoh kolom , dan berada pada satu baris. (Namun agak canggung di sini karena tanda-tanda bisa negatif, misalnya matriks baru saja juga tidak ada solusi unik)x1 x2 x3 [[21][11][−0−1]]
Ketika kolom berasal dari distribusi kontinu maka tidak mungkin (probabilitas hampir nol) bahwa Anda akan memiliki kolom tidak pada posisi umum.X X
Berbeda dengan ini, jika kolom adalah variabel kategori maka probabilitas ini tidak selalu hampir nol. Probabilitas untuk variabel kontinu sama dengan beberapa himpunan bilangan (yaitu bidang yang sesuai dengan rentang afin dari vektor lain) adalah 'hampir' nol. Tapi, ini bukan kasus untuk variabel diskrit.X
sumber