Saya sudah punya ide tentang pro dan kontra regresi ridge dan LASSO.
Untuk LASSO, istilah penalti L1 akan menghasilkan vektor koefisien jarang, yang dapat dilihat sebagai metode pemilihan fitur. Namun, ada beberapa batasan untuk LASSO. Jika fitur memiliki korelasi tinggi, LASSO hanya akan memilih salah satunya. Selain itu, untuk masalah di mana > n , LASSO akan memilih paling banyak n parameter ( n dan p masing-masing adalah jumlah pengamatan dan parameter). Ini membuat LASSO secara empiris metode suboptimal dalam hal prediktabilitas dibandingkan dengan regresi ridge.
Untuk regresi ridge, ia menawarkan prediktabilitas yang lebih baik secara umum. Namun, penafsirannya tidak sebagus LASSO.
Penjelasan di atas sering dapat ditemukan dalam buku teks dalam pembelajaran mesin / data mining. Namun, saya masih bingung tentang dua hal:
Jika kita menormalkan rentang fitur (katakan antara 0 dan 1, atau dengan nol mean dan varians unit), dan menjalankan regresi ridge, kita masih dapat memiliki gagasan tentang fitur penting dengan mengurutkan nilai absolut dari koefisien (fitur yang paling penting memiliki nilai koefisien absolut tertinggi). Meskipun kami tidak memilih fitur secara eksplisit, interpretabilitas tidak hilang dengan menggunakan regresi ridge. Pada saat yang sama, kita masih dapat mencapai kekuatan prediksi yang tinggi. Lalu mengapa kita membutuhkan LASSO? Apakah saya melewatkan sesuatu di sini?
Apakah LASSO lebih disukai karena sifat pemilihan fiturnya? Menurut pemahaman saya, alasan mengapa kita memerlukan pemilihan fitur adalah kemampuan untuk menggeneralisasi dan kemudahan komputasi.
Untuk kemudahan perhitungan, kami tidak ingin memasukkan semua 1 juta fitur ke dalam model kami jika kami melakukan beberapa tugas NLP, jadi kami membuang beberapa fitur yang jelas tidak berguna terlebih dahulu untuk mengurangi biaya komputasi. Namun, untuk LASSO, kami hanya dapat mengetahui hasil pemilihan fitur (vektor jarang) setelah kami memasukkan semua data ke dalam model kami, jadi kami tidak mendapat manfaat dari LASSO dalam hal mengurangi biaya komputasi. Kami hanya dapat membuat prediksi sedikit lebih cepat karena sekarang kami hanya memberi makan subset fitur (misalnya 500 dari 1 juta) ke dalam model kami untuk menghasilkan hasil yang diprediksi.
Jika LASSO lebih disukai karena kemampuannya untuk menggeneralisasi, maka kita juga dapat mencapai tujuan yang sama menggunakan regresi ridge (atau jenis regularisasi lainnya). Mengapa kita perlu LASSO (atau jaring elastis) lagi? Mengapa kita tidak bisa tetap berpegang teguh pada regresi?
Bisakah seseorang menjelaskan beberapa hal tentang ini? Terima kasih!
Jawaban:
Jika Anda memesan 1 juta fitur ridge-shrunk, scaled, tetapi non-zero, Anda harus membuat beberapa keputusan: Anda akan melihat n prediktor terbaik, tetapi apa itu n ? LASSO memecahkan masalah ini dengan cara yang berprinsip dan obyektif, karena untuk setiap langkah di jalan (dan sering, Anda akan menyelesaikan satu titik melalui mis. Validasi silang), hanya ada koefisien m yang bukan nol.
Sangat sering, Anda akan melatih model pada beberapa data dan kemudian menerapkannya pada beberapa data yang belum dikumpulkan. Misalnya, Anda dapat memuat model Anda di 50.000.000 email dan kemudian menggunakan model itu di setiap email baru. Benar, Anda akan memasangnya pada set fitur lengkap untuk 50.000.000 email pertama, tetapi untuk setiap email berikut, Anda akan berurusan dengan model yang jauh lebih jarang dan lebih cepat, dan lebih hemat memori. Anda juga bahkan tidak perlu mengumpulkan informasi untuk fitur yang dihapus, yang mungkin sangat membantu jika fitur mahal untuk diekstraksi, misalnya melalui genotyping.
Perspektif lain pada masalah L1 / L2 yang diungkapkan oleh misalnya Andrew Gelman adalah bahwa Anda sering memiliki intuisi seperti apa masalah Anda. Dalam beberapa keadaan, mungkin kenyataan itu benar-benar jarang. Mungkin Anda telah mengukur jutaan gen, tetapi masuk akal bahwa hanya 30.000 di antaranya yang benar-benar menentukan metabolisme dopamin. Dalam situasi seperti itu, L1 bisa dibilang cocok dengan masalah yang lebih baik.
Dalam kasus lain, kenyataan mungkin padat. Misalnya, dalam psikologi, "semuanya berkorelasi (sampai taraf tertentu) dengan segalanya" (Paul Meehl). Preferensi untuk apel vs jeruk mungkin memang berkorelasi dengan kecenderungan politik entah bagaimana - dan bahkan dengan IQ. Regularisasi mungkin masih masuk akal di sini, tetapi efek nol sebenarnya seharusnya jarang, jadi L2 mungkin lebih tepat.
sumber
Interpretabilitas berkurang jika target bergantung pada banyak fitur. Ini meningkat jika kita dapat mengurangi jumlah fitur sekaligus menjaga akurasi. Regularisasi Ridge tidak memiliki kemampuan untuk mengurangi jumlah fitur. Tetapi Lasso memiliki kemampuan. Bagaimana ini terjadi dijelaskan secara visual di tautan berikut:
Klik Artikel Menuju Ilmu Data
sumber