Mengapa regresi ridge tidak memberikan interpretasi yang lebih baik daripada LASSO?

11

Saya sudah punya ide tentang pro dan kontra regresi ridge dan LASSO.

Untuk LASSO, istilah penalti L1 akan menghasilkan vektor koefisien jarang, yang dapat dilihat sebagai metode pemilihan fitur. Namun, ada beberapa batasan untuk LASSO. Jika fitur memiliki korelasi tinggi, LASSO hanya akan memilih salah satunya. Selain itu, untuk masalah di mana > n , LASSO akan memilih paling banyak n parameter ( n dan p masing-masing adalah jumlah pengamatan dan parameter). Ini membuat LASSO secara empiris metode suboptimal dalam hal prediktabilitas dibandingkan dengan regresi ridge.pnnnp

Untuk regresi ridge, ia menawarkan prediktabilitas yang lebih baik secara umum. Namun, penafsirannya tidak sebagus LASSO.

Penjelasan di atas sering dapat ditemukan dalam buku teks dalam pembelajaran mesin / data mining. Namun, saya masih bingung tentang dua hal:

  1. Jika kita menormalkan rentang fitur (katakan antara 0 dan 1, atau dengan nol mean dan varians unit), dan menjalankan regresi ridge, kita masih dapat memiliki gagasan tentang fitur penting dengan mengurutkan nilai absolut dari koefisien (fitur yang paling penting memiliki nilai koefisien absolut tertinggi). Meskipun kami tidak memilih fitur secara eksplisit, interpretabilitas tidak hilang dengan menggunakan regresi ridge. Pada saat yang sama, kita masih dapat mencapai kekuatan prediksi yang tinggi. Lalu mengapa kita membutuhkan LASSO? Apakah saya melewatkan sesuatu di sini?

  2. Apakah LASSO lebih disukai karena sifat pemilihan fiturnya? Menurut pemahaman saya, alasan mengapa kita memerlukan pemilihan fitur adalah kemampuan untuk menggeneralisasi dan kemudahan komputasi.

    Untuk kemudahan perhitungan, kami tidak ingin memasukkan semua 1 juta fitur ke dalam model kami jika kami melakukan beberapa tugas NLP, jadi kami membuang beberapa fitur yang jelas tidak berguna terlebih dahulu untuk mengurangi biaya komputasi. Namun, untuk LASSO, kami hanya dapat mengetahui hasil pemilihan fitur (vektor jarang) setelah kami memasukkan semua data ke dalam model kami, jadi kami tidak mendapat manfaat dari LASSO dalam hal mengurangi biaya komputasi. Kami hanya dapat membuat prediksi sedikit lebih cepat karena sekarang kami hanya memberi makan subset fitur (misalnya 500 dari 1 juta) ke dalam model kami untuk menghasilkan hasil yang diprediksi.

    Jika LASSO lebih disukai karena kemampuannya untuk menggeneralisasi, maka kita juga dapat mencapai tujuan yang sama menggunakan regresi ridge (atau jenis regularisasi lainnya). Mengapa kita perlu LASSO (atau jaring elastis) lagi? Mengapa kita tidak bisa tetap berpegang teguh pada regresi?

Bisakah seseorang menjelaskan beberapa hal tentang ini? Terima kasih!

Brad Li
sumber
3
Ini membuat LASSO secara empiris metode suboptimal dalam hal prediktabilitas dibandingkan dengan regresi ridge. Saya tidak setuju. Saya tidak berpikir LASSO umumnya lebih buruk (atau lebih baik) daripada bubungan dalam hal prediksi. Seperti @jona katakan dalam jawabannya, Anda mungkin menghadapi situasi di mana beberapa fitur benar-benar bukan milik model, dan kemudian LASSO akan lebih efektif mengeluarkannya. Namun, dengan punggungan semua fitur akan dimasukkan dan yang tidak relevan akan mencemari prediksi. Itu sebabnya kita perlu bersih elastis - untuk membiarkan data menentukan kombinasi yang tepat dari dan L 2 . L1L2
Richard Hardy
3
Saya juga bertanya-tanya buku teks mana yang mengatakan hal-hal seperti Untuk regresi ridge, ia menawarkan prediktabilitas yang lebih baik secara umum (berbeda dengan LASSO, saya mengerti, tidak berbeda dengan regresi tidak dibatasi). Mungkin umum tidak terlalu umum dalam penggunaannya. Juga, berapa banyak interpretabilitas yang seharusnya dihasilkan oleh metode regularisasi? (Juga, Shmueli "To Explain or To Predict" (2010) adalah bagian yang bagus, meskipun tidak berhubungan langsung.)
Richard Hardy
1
@ RichardHardy, kamu benar. Sekarang saya membaca buku pelajaran dengan lebih hati-hati dan menemukan bahwa " baik regresi ridge maupun laso tidak akan secara universal mendominasi yang lain " di halaman 223, Pengantar Pembelajaran Statistik dengan Aplikasi dalam R , Gareth James et al
Brad Li
@RichardHardy, awalnya saya menemukan argumen serupa untuk L1-regularisasi pada LIBLINEAR FAQ: csie.ntu.edu.tw/~cjlin/liblinear/…
Brad Li
Akankah punggungan dan Lasso pada contoh nyata atau dua mengklarifikasi perbedaan? (Tapi mereka tidak mudah untuk membandingkan - plot fit vs sparsity?)
denis

Jawaban:

15
  1. Jika Anda memesan 1 juta fitur ridge-shrunk, scaled, tetapi non-zero, Anda harus membuat beberapa keputusan: Anda akan melihat n prediktor terbaik, tetapi apa itu n ? LASSO memecahkan masalah ini dengan cara yang berprinsip dan obyektif, karena untuk setiap langkah di jalan (dan sering, Anda akan menyelesaikan satu titik melalui mis. Validasi silang), hanya ada koefisien m yang bukan nol.

  2. Sangat sering, Anda akan melatih model pada beberapa data dan kemudian menerapkannya pada beberapa data yang belum dikumpulkan. Misalnya, Anda dapat memuat model Anda di 50.000.000 email dan kemudian menggunakan model itu di setiap email baru. Benar, Anda akan memasangnya pada set fitur lengkap untuk 50.000.000 email pertama, tetapi untuk setiap email berikut, Anda akan berurusan dengan model yang jauh lebih jarang dan lebih cepat, dan lebih hemat memori. Anda juga bahkan tidak perlu mengumpulkan informasi untuk fitur yang dihapus, yang mungkin sangat membantu jika fitur mahal untuk diekstraksi, misalnya melalui genotyping.

Perspektif lain pada masalah L1 / L2 yang diungkapkan oleh misalnya Andrew Gelman adalah bahwa Anda sering memiliki intuisi seperti apa masalah Anda. Dalam beberapa keadaan, mungkin kenyataan itu benar-benar jarang. Mungkin Anda telah mengukur jutaan gen, tetapi masuk akal bahwa hanya 30.000 di antaranya yang benar-benar menentukan metabolisme dopamin. Dalam situasi seperti itu, L1 bisa dibilang cocok dengan masalah yang lebih baik.
Dalam kasus lain, kenyataan mungkin padat. Misalnya, dalam psikologi, "semuanya berkorelasi (sampai taraf tertentu) dengan segalanya" (Paul Meehl). Preferensi untuk apel vs jeruk mungkin memang berkorelasi dengan kecenderungan politik entah bagaimana - dan bahkan dengan IQ. Regularisasi mungkin masih masuk akal di sini, tetapi efek nol sebenarnya seharusnya jarang, jadi L2 mungkin lebih tepat.

jona
sumber
y=2x1+3x2x3
x2>x1>x3[0,1]
Brad Li
Tentu saja Anda dapat mengurutkannya, tetapi Anda masih harus membuat semacam keputusan tentang subset dari mereka yang Anda lihat.
jona
6
Cara lain untuk frase ini adalah: ridge dapat membantu pemilihan fitur, LASSO melakukan pemilihan fitur.
jona
1
@Brad, selain jawaban yang sangat baik oleh jona (+1), perhatikan bahwa menilai fitur penting dengan koefisien regresi standarnya adalah salah satu pendekatan yang mungkin, tetapi bukan satu-satunya; ada berbagai ukuran "fitur penting" dan mereka dapat dengan mudah memberikan hasil yang bertentangan. Lihat utas ini untuk diskusi panjang: stats.stackexchange.com/questions/64010 .
Amuba mengatakan Reinstate Monica
1

Interpretabilitas berkurang jika target bergantung pada banyak fitur. Ini meningkat jika kita dapat mengurangi jumlah fitur sekaligus menjaga akurasi. Regularisasi Ridge tidak memiliki kemampuan untuk mengurangi jumlah fitur. Tetapi Lasso memiliki kemampuan. Bagaimana ini terjadi dijelaskan secara visual di tautan berikut:

Klik Artikel Menuju Ilmu Data

solver149
sumber