Apa itu regularisasi jaring elastis, dan bagaimana cara mengatasi kelemahan Ridge ( ) dan Lasso ( )?

Jawaban:

42

1. Metode mana yang lebih disukai?

Ya, jaring elastis selalu lebih disukai daripada laso & regresi ridge karena mengatasi keterbatasan kedua metode, sementara juga memasukkan masing-masing sebagai kasus khusus. Jadi jika solusi ridge atau laso memang, yang terbaik, maka setiap rutin pemilihan model yang baik akan mengidentifikasi itu sebagai bagian dari proses pemodelan.

Komentar untuk posting saya telah menunjukkan bahwa keuntungan dari jaring elastis tidak memenuhi syarat. Saya bertahan dalam keyakinan saya bahwa generalisasi regresi jaring elastis masih lebih baik daripada regularisasi L.1 atau L.2 sendiri. Secara khusus, saya berpikir bahwa poin pertentangan antara saya dan orang lain secara langsung terkait dengan asumsi apa yang ingin kami buat tentang proses pemodelan. Di hadapan pengetahuan yang kuat tentang data yang mendasarinya, beberapa metode akan lebih disukai daripada yang lain. Namun, preferensi saya untuk jaring elastis berakar pada skeptisisme saya bahwa seseorang akan dengan yakin tahu bahwa L.1 atau L.2 adalah model yang sebenarnya.

  1. Klaim: Pengetahuan sebelumnya mungkin meniadakan salah satu kebutuhan untuk menggunakan regresi jaring elastis.

Ini agak melingkar. Maafkan saya jika ini agak fasih, tetapi jika Anda tahu bahwa LASSO (punggungan) adalah solusi terbaik, maka Anda tidak akan bertanya pada diri sendiri bagaimana cara memodelkannya dengan tepat; Anda hanya akan cocok dengan model LASSO (ridge). Jika Anda benar - benar yakin bahwa jawaban yang benar adalah regresi LASSO (ridge), maka Anda jelas yakin bahwa tidak ada alasan untuk membuang waktu memasang jaring elastis. Tetapi jika Anda sedikit kurang yakin apakah LASSO (ridge) adalah cara yang benar untuk melanjutkan, saya percaya masuk akal untuk memperkirakan model yang lebih fleksibel, dan mengevaluasi seberapa kuat data mendukung keyakinan sebelumnya.

  1. Klaim: Data yang cukup besar tidak akan mengizinkan penemuan solusi atau sebagai pilihan, bahkan dalam kasus ketika solusi atau adalah model yang sebenarnya.L.1L.2L.1L.2

Ini juga benar, tetapi saya pikir itu melingkar untuk alasan yang sama: jika Anda telah memperkirakan solusi optimal dan menemukan bahwa maka itulah model yang didukung data. Di satu sisi, ya, model perkiraan Anda bukan model yang sebenarnya, tetapi saya harus bertanya-tanya bagaimana orang akan tahu bahwa model yang sebenarnya adalah (atau ) sebelum estimasi model apa pun. Mungkin ada domain tempat Anda memiliki pengetahuan sebelumnya, tetapi pekerjaan profesional saya bukan salah satunya.α{0,1},α=1α=0

  1. Klaim: Memperkenalkan hyperparameters tambahan meningkatkan biaya komputasi untuk memperkirakan model.

Ini hanya relevan jika Anda memiliki keterbatasan waktu / komputer; kalau tidak, itu hanya gangguan. GLMNET adalah algoritma standar emas untuk memperkirakan solusi jaring elastis. Pengguna memasok beberapa nilai alpha, dan menggunakan properti path dari solusi regularisasi untuk dengan cepat memperkirakan keluarga model untuk berbagai nilai dari besarnya hukuman , dan seringkali dapat memperkirakan keluarga solusi ini lebih cepat daripada memperkirakan hanya satu solusi untuk nilai spesifik . Jadi, ya, menggunakan GLMNET tidak membuat Anda ke domain menggunakan metode gaya grid (beralih pada beberapa nilai dan biarkan GLMNET mencoba berbagai s), tapi itu cukup cepat.λλαλ

  1. Klaim: Peningkatan kinerja jaring elastis di atas LASSO atau regresi ridge tidak dijamin.

Ini benar, tetapi pada langkah di mana seseorang merenungkan metode mana yang digunakan, orang tidak akan tahu mana jaring elastis, punggungan atau LASSO adalah yang terbaik. Jika salah satu alasan bahwa solusi terbaik harus LASSO atau regresi ridge, maka kita berada dalam domain klaim (1). Jika kita masih ragu mana yang terbaik, maka kita dapat menguji solusi LASSO, ridge dan elastis, dan membuat pilihan model akhir pada saat itu (atau, jika Anda seorang akademisi, cukup tulis makalah Anda tentang ketiganya ). Situasi ketidakpastian sebelumnya ini akan menempatkan kita dalam domain klaim (2), di mana model sebenarnya adalah LASSO / ridge tetapi kami tidak mengetahuinya sebelumnya, dan kami tidak sengaja memilih model yang salah karena hyperparameters yang diidentifikasi dengan buruk, atau jaring elastis sebenarnya adalah solusi terbaik.

  1. Klaim: Pilihan hiperparameter tanpa validasi silang sangat bias dan rawan kesalahan .

Validasi model yang tepat adalah bagian integral dari setiap perusahaan pembelajaran mesin. Validasi model biasanya merupakan langkah yang mahal juga, jadi orang akan berusaha untuk meminimalkan inefisiensi di sini - jika salah satu inefisiensi tersebut sia-sia mencoba nilai-nilai yang diketahui sia-sia, maka satu saran mungkin untuk melakukannya. Ya, tentu saja lakukan itu, jika Anda merasa nyaman dengan pernyataan kuat yang Anda buat tentang bagaimana data Anda disusun - tetapi kami kembali ke wilayah klaim (1) dan klaim (2).α

2. Apa intuisi dan matematika di balik jaring elastis?

Saya sangat menyarankan membaca literatur tentang metode ini, dimulai dengan kertas asli di jaring elastis. Makalah ini mengembangkan intuisi dan matematika, dan sangat mudah dibaca. Mereproduksi di sini hanya akan merugikan penjelasan penulis. Tetapi ringkasan tingkat tinggi adalah bahwa jaring elastis merupakan jumlah cembung dari punggungan dan penalti laso, sehingga fungsi objektif untuk model kesalahan Gaussian terlihat seperti

Residual Mean Square Error+αPenalti Ridge+(1-α)Hukuman LASSO

untukα[0,1].

Hui Zou dan Trevor Hastie. " Pengaturan dan pemilihan variabel melalui jaring elastis ." Statistik JR. Soc., Vol 67 (2005), Bagian 2., hlm. 301-320.

Richard Hardy menunjukkan bahwa ini dikembangkan secara lebih rinci dalam Hastie et al. "Unsur Pembelajaran Statistik" bab 3 dan 18.

3. Bagaimana jika Anda menambahkan norma tambahan ?L.q

Ini adalah pertanyaan yang diajukan kepada saya di komentar:

Izinkan saya menyarankan satu argumen lebih lanjut terhadap sudut pandang Anda bahwa jaring elastis secara seragam lebih baik daripada laso atau punggungan saja. Bayangkan bahwa kita menambahkan penalti lain ke fungsi biaya bersih elastis, misalnya biaya , dengan hyperparameter . Saya tidak berpikir ada banyak penelitian tentang itu, tapi saya berani bertaruh Anda bahwa jika Anda melakukan pencarian validasi silang pada kotak parameter 3d, maka Anda akan mendapatkan sebagai nilai optimal. Jika demikian, akan Anda kemudian berpendapat bahwa itu adalah selalu ide yang baik untuk menyertakan biaya juga.L.3γγ0L.3

Saya menghargai bahwa semangat pertanyaannya adalah "Jika itu seperti yang Anda klaim dan dua hukuman itu baik, mengapa tidak menambahkan yang lain?" Tapi saya pikir jawabannya terletak pada mengapa kita mengatur di tempat pertama.

L.1 regularisasi cenderung menghasilkan solusi jarang, tetapi juga cenderung untuk memilih fitur yang paling sangat berkorelasi dengan hasil dan nol sisanya. Selain itu, dalam kumpulan data dengan pengamatan, ia dapat memilih paling banyak fitur. Regularisasi cocok untuk menangani masalah-masalah keliru yang dihasilkan dari fitur-fitur yang sangat berkorelasi. Dalam kumpulan data dengan fitur , regularisasi dapat digunakan untuk mengidentifikasi model secara unik dalam kasus .nnL.2halL.2hal>n

Mengesampingkan salah satu dari masalah ini, model yang diregulasi masih dapat mengungguli model ML karena sifat susut estimator bersifat "pesimistis" dan menarik koefisien ke arah 0.

Tetapi saya tidak mengetahui sifat statistik untuk regularisasi . Dalam masalah yang saya kerjakan, kita biasanya menghadapi kedua masalah: dimasukkannya fitur yang berkorelasi buruk (hipotesis yang tidak didukung oleh data), dan fitur co-linear.L.3

Memang, ada alasan kuat bahwa hukuman dan pada parameter adalah satu-satunya yang biasanya digunakan.L.1L.2

Dalam Mengapa kita hanya melihat regularisasi dan tetapi tidak pada norma lainnya? L 2L.1L.2, @whuber menawarkan komentar ini:

Saya belum menyelidiki pertanyaan ini secara khusus, tetapi pengalaman dengan situasi yang serupa menunjukkan mungkin ada jawaban kualitatif yang bagus: semua norma yang dapat dibedakan kedua pada titik asal akan setara secara lokal satu sama lain, di mana norma adalah standar . Semua norma lain tidak akan dapat dibedakan pada asal dan secara kualitatif mereproduksi perilaku mereka. Itu mencakup keseluruhan. Akibatnya, kombinasi linear dari norma dan mendekati setiap norma ke urutan kedua di titik asal - dan inilah yang paling penting dalam regresi tanpa menghilangkan residu.L.2L.1L.1L.2

Jadi kita dapat secara efektif mencakup berbagai opsi yang mungkin dapat disediakan oleh norma sebagai kombinasi dari norma dan - semua tanpa memerlukan penyetelan hyperparameter tambahan.L.qL.1L.2

Sycorax berkata Reinstate Monica
sumber
4
Mengatakan bahwa "jaring elastis selalu lebih disukai daripada laso & regresi ridge" mungkin sedikit terlalu kuat. Dalam sampel kecil atau menengah, jaring elastis tidak boleh memilih LASSO murni atau larutan punggungan murni bahkan jika yang pertama atau yang terakhir sebenarnya yang relevan. Mengingat pengetahuan sebelumnya yang kuat, masuk akal untuk memilih LASSO atau punggungan di tempat jaring elastis. Namun, dengan tidak adanya pengetahuan sebelumnya, jaring elastis harus menjadi solusi yang lebih disukai.
Richard Hardy
4
Saya harus setuju: memperkenalkan sebagai hyperparameter lain berarti harus disetel atau disetel & peningkatan kinerja tidak dijamin - lihat Seberapa buruk penyetelan hyperparameter di luar validasi silang? α
Scortchi
7
+1 untuk diskusi mendalam, tetapi izinkan saya menyarankan satu argumen lebih lanjut terhadap sudut pandang Anda bahwa jaring elastis secara seragam lebih baik daripada laso atau punggungan saja. Bayangkan bahwa kita menambahkan penalti lain ke fungsi biaya bersih elastis, misalnya biaya L3, dengan hyperparameter . Saya tidak berpikir ada banyak penelitian tentang itu, tetapi saya berani bertaruh Anda bahwa jika Anda melakukan pencarian validasi silang pada kotak parameter 3d, maka Anda akan mendapatkan sebagai nilai optimal. Jika demikian, apakah Anda kemudian berpendapat bahwa itu selalu merupakan ide yang baik untuk memasukkan biaya L3 juga? γ 0γγ0
Amoeba berkata Reinstate Monica
5
@ Pertanyaan amoeba sangat cerdas, & saya pikir dalam menjawabnya Anda tampaknya telah mengubah standar Anda. Kecuali Anda benar - benar yakin bahwa campuran hukuman & yang terbaik maka mengapa tidak membiarkan data memutuskan berapa banyak hukuman untuk diterapkan? Argumen Anda masih tampak sedikit terlalu kuat & tampaknya membenarkan penambahan lebih banyak (hiper) parameter di hampir semua situasi. L 2 L 3L.1L.2L.3
Scortchi
3
"Kami dapat menguji solusi LASSO, ridge, dan elastis, dan membuat pilihan model akhir" - kami bisa, tetapi tentu saja itu sendiri merupakan prosedur baru, mengoptimalkan kriteria yang dikenai kesalahan acak, yang mungkin atau mungkin tidak berkinerja lebih baik dari LASSo, atau regresi ridge, atau jaring elastis saja.
Scortchi
11

Saya biasanya setuju dengan jawaban @ Scorax, tetapi saya ingin menambahkan beberapa kualifikasi.

Mengatakan bahwa "jaring elastis selalu lebih disukai daripada laso & regresi ridge" mungkin sedikit terlalu kuat. Dalam sampel kecil atau menengah, jaring elastis tidak boleh memilih LASSO murni atau larutan punggungan murni bahkan jika yang pertama atau yang terakhir sebenarnya adalah yang relevan. Mengingat pengetahuan sebelumnya yang kuat, masuk akal untuk memilih LASSO atau punggungan di tempat jaring elastis. Namun, dengan tidak adanya pengetahuan sebelumnya, jaring elastis harus menjadi solusi yang lebih disukai.

Selain itu, jaring elastis secara komputasi lebih mahal daripada LASSO atau punggungan karena bobot relatif LASSO versus punggungan harus dipilih menggunakan validasi silang. Jika kisi-kisi nilai alfa yang masuk akal adalah [0,1] dengan ukuran langkah 0,1, itu berarti jaring elastis kira-kira 11 kali lebih mahal secara komputasi daripada LASSO atau punggungan. (Karena LASSO dan ridge tidak memiliki kompleksitas komputasi yang sama, hasilnya hanyalah tebakan kasar.)

Richard Hardy
sumber
1
Atau memang LASSO atau regresi ridge mungkin tidak memberikan peningkatan kinerja prediktif dibandingkan dengan regresi yang tidak diterapkan.
Scortchi
4
Pengetahuan seperti apa yang akan menyebabkan seseorang lebih memilih Lasso dan pengetahuan sebelumnya seperti apa yang akan menyebabkan seseorang lebih menyukai ridge?
Amoeba berkata Reinstate Monica
4
@amoeba, jika masuk akal bahwa semua regressor relevan, tetapi mereka sangat berkorelasi, maka tidak ada pemilihan variabel yang diperlukan dan dengan demikian punggungan bisa lebih disukai. Jika, di sisi lain, beberapa regresi cenderung sama sekali tidak relevan (tapi kami tidak tahu yang mana) maka pemilihan variabel diperlukan dan LASSO bisa lebih disukai. Pengetahuan ini akan diambil dari domain subjek-materi. Saya pikir mungkin ada beberapa contoh dalam Hastie et al. "Elemen Pembelajaran Statistik" atau dalam literatur terkait, saya hanya tidak ingat di mana saya membaca itu.
Richard Hardy
1
@kjetilbhalvorsen, terima kasih, itu sangat membantu.
Richard Hardy
1
@amoeba, punggungan lebih baik untuk data berkorelasi, di mana L2 mendorong banyak bobot kecil (rata-rata) di atas input .. contoh klasik adalah pengukuran berulang dengan noise independen (mis. pemrosesan sinyal, atau misalnya beberapa ujian dari subjek yang sama), sedangkan l1 adalah lebih baik di mana 1 var mendominasi yang lain, kasus klasik menjadi data hierarkis: di mana koefisien harus diperkirakan pada tingkat tertinggi dalam hierarki.
seanv507