Apa kerugian menggunakan laso untuk pemilihan variabel untuk regresi?

60

Dari yang saya tahu, menggunakan laso untuk pemilihan variabel menangani masalah input berkorelasi. Juga, karena ini setara dengan Least Angle Regression, itu tidak lambat secara komputasi. Namun, banyak orang (misalnya orang yang saya kenal melakukan bio-statistik) tampaknya masih mendukung pemilihan variabel secara bertahap atau bertahap. Apakah ada kerugian praktis menggunakan laso yang membuatnya tidak menguntungkan?

xuexue
sumber
9
Saya tidak tahu dari mana Anda mendengar bahwa Lasso menangani masalah collinearity, itu sama sekali tidak benar.
Makro
3
Sebelumnya horseshoe lebih baik daripada LASSO untuk pemilihan model - setidaknya dalam kasus model jarang (di mana pemilihan model adalah yang paling berguna). Anda dapat menemukan diskusi tentang poin-poin ini di Tautan ini . Dua dari penulis makalah ini juga mendapat artikel serupa dalam pertemuan Valencia, Bayesian Statistics 9 "Shrink Globally Act Locally: Regulerisasi dan prediksi Bayesian Jarang". Artikel Valencia membahas lebih rinci tentang kerangka hukuman.
probabilityislogic
9
Jika Anda hanya tertarik pada prediksi, maka pemilihan model tidak membantu dan biasanya sakit (sebagai lawan dari penalti kuadrat = L2 norma = regresi ridge tanpa pemilihan variabel). LASSO membayar harga dalam diskriminasi prediktif untuk mencoba melakukan pemilihan variabel.
Frank Harrell
3
Melempar koin untuk membuat keputusan yang sewenang-wenang seringkali mengungkapkan bahwa Anda benar-benar peduli dengan hasilnya. Metode apa pun yang menawarkan untuk membuat keputusan bagi Anda tentang pemilihan prediktor sering membuat jelas bahwa Anda memang memiliki gagasan tentang prediktor mana yang lebih alami dalam model, ide-ide yang tidak ingin Anda abaikan. LASSO dapat bekerja seperti itu.
Nick Cox
5
Saya kedua @Nick: "tidak ada teori untuk memandu pemilihan model" hampir tidak pernah realistis. Akal sehat adalah teori.
Scortchi

Jawaban:

29

Tidak ada alasan untuk melakukan seleksi bertahap. Itu salah.

LASSO / LAR adalah metode otomatis terbaik. Tetapi mereka adalah metode otomatis. Mereka membiarkan analis tidak berpikir.

Dalam banyak analisis, beberapa variabel harus ada dalam model TERKAIT dengan ukuran signifikansi apa pun. Terkadang mereka adalah variabel kontrol yang diperlukan. Di lain waktu, menemukan efek kecil bisa menjadi sangat penting.

Peter Flom - Pasang kembali Monica
sumber
43
"TIDAK ada alasan untuk melakukan seleksi bertahap. Itu hanya salah." - Hampir tidak pernah ada pernyataan luar biasa seperti itu, tanpa konteks, praktik statistik yang baik. Jika ada sesuatu di sini "salah", itu adalah pernyataan tebal di atas. Jika analisis Anda tidak menekankan nilai- atau estimasi parameter (misalnya model prediktif) maka pemilihan variabel bertahap mungkin merupakan hal yang masuk akal untuk dilakukan dan dapat :: gasp :: mengungguli LASSO dalam beberapa kasus. (Peter, saya tahu kami pernah memiliki obrolan ini sebelumnya - komentar ini lebih ditujukan pada pembaca masa depan yang mungkin hanya menemukan posting ini dan bukan yang lain). p
Makro
4
-1 karena kritik selimut stepwise. Ini bukan "hanya salah" tetapi memiliki tempat sebagai model pencarian deterministik. Anda benar-benar memiliki lebah di topi Anda tentang metode otomatis.
probabilityislogic
8
@ Elvis, saya bukan ahli dalam subjek atau advokat untuk bertahap; Saya hanya mengambil masalah dengan sifat pernyataan tanpa syarat. Tapi, karena penasaran saya melakukan beberapa simulasi sederhana dan menemukan bahwa ketika Anda memiliki banyak prediktor collinear yang semuanya memiliki efek yang kira-kira sama, seleksi mundur lebih baik daripada LASSO, dalam hal prediksi out-of-sample. Saya menggunakan dengan . Prediktor adalah standar normal dengan untuk setiap pasangan . ε ~ N ( 0 , 1 ) c o r ( X i j , X i k ) = 1 / 2 ( j , k )
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)
Makro
10
Anda tentu harus menyelidiki kolinearitas sebelum memulai regresi apa pun. Saya akan mengatakan bahwa jika Anda memiliki sejumlah besar variabel collinear Anda tidak boleh menggunakan LASSO atau Stepwise; Anda harus menyelesaikan masalah collinearity (menghapus variabel, mendapatkan lebih banyak data, dll) atau menggunakan metode yang dirancang untuk masalah seperti itu (misalnya regresi ridge)
Peter Flom - Reinstate Monica
5
OKE, Anda benar tetapi saya tidak berpikir itu benar-benar relevan. Baik mundur NOR laso (atau metode pemilihan variabel) memecahkan semua masalah. Ada beberapa hal yang harus Anda lakukan sebelum memulai pemodelan - dan salah satunya adalah memeriksa kolinearitas. Saya juga tidak akan peduli metode pemilihan variabel mana yang bekerja untuk set data lain yang melanggar aturan regresi yang dimaksudkan untuk diterapkan kedua metode.
Peter Flom - Reinstate Monica
22

Jika Anda hanya peduli pada kesalahan prediksi dan tidak peduli tentang interpretabilitas, inferensi kasual, kesederhanaan model, tes koefisien, dll., Mengapa Anda masih ingin menggunakan model regresi linier?

Anda dapat menggunakan sesuatu seperti meningkatkan pada pohon keputusan atau mendukung regresi vektor dan mendapatkan kualitas prediksi yang lebih baik dan masih menghindari overfitting dalam kedua kasus yang disebutkan. Artinya Lasso mungkin bukan pilihan terbaik untuk mendapatkan kualitas prediksi terbaik.

Jika pemahaman saya benar, Lasso ditujukan untuk situasi ketika Anda masih tertarik dengan model itu sendiri, bukan hanya prediksi. Yaitu - lihat variabel yang dipilih dan koefisiennya, tafsirkan dalam beberapa cara dll. Dan untuk ini - Lasso mungkin bukan pilihan terbaik dalam situasi tertentu seperti yang dibahas dalam pertanyaan lain di sini.

Kochede
sumber
20

LASSO mendorong menyusutnya koefisien ke 0, yaitu menjatuhkan variasi-variasi dari model Anda. Sebaliknya, teknik regularisasi lainnya seperti punggungan cenderung mempertahankan semua varian.

Jadi saya akan merekomendasikan untuk memikirkan apakah penurunan ini masuk akal untuk data Anda. Misalnya pertimbangkan untuk membuat tes diagnostik klinis baik pada data microarray gen atau pada data spektroskopi vibrasi.

  • Anda mengharapkan beberapa gen membawa informasi yang relevan, tetapi banyak gen lain hanya noise noise. aplikasi Anda. Menjatuhkan variasinya adalah ide yang masuk akal.

  • Sebaliknya, set data spektroskopi getaran (sementara biasanya memiliki dimensi yang sama dibandingkan dengan data microarray) cenderung memiliki informasi yang relevan "dioleskan" pada sebagian besar spektrum (korelasi). Dalam situasi ini, meminta regularisasi untuk menjatuhkan varian bukanlah pendekatan yang masuk akal. Terlebih lagi, karena teknik regularisasi lainnya seperti PLS lebih disesuaikan dengan tipe data ini.

Elemen Pembelajaran Statistik memberikan diskusi yang baik tentang LASSO, dan membandingkannya dengan teknik regularisasi lainnya.

Cbeleites mendukung Monica
sumber
14

Jika dua prediktor berkorelasi tinggi, LASSO dapat berakhir dengan menjatuhkan satu dengan agak sewenang-wenang. Itu tidak terlalu baik ketika Anda ingin membuat prediksi untuk populasi di mana kedua prediktor tersebut tidak berkorelasi tinggi, & mungkin alasan untuk memilih regresi ridge dalam keadaan itu.

Anda mungkin juga berpikir standardisasi prediktor (untuk mengatakan ketika koefisien "besar" atau "kecil") agak sewenang-wenang & bingung (seperti saya) tentang cara yang masuk akal untuk membakukan prediktor kategori.

Scortchi - Reinstate Monica
sumber
1
Terima kasih atas jawaban ini. Apakah Anda tahu ada makalah yang membahas masalah dengan prediktor berkorelasi / prediktor kategori?
Berk U.
2
Nilainya menambahkan bahwa ada metode regresi lainnya yang dihukum yang berusaha untuk meringankan masalah-masalah tersebut (seperti jaring elastis).
bdeonovic
Untuk melakukan pemilihan variabel dengan variabel yang sangat collinear, punggungan adaptif iteratif (yang mendekati regresi L0 yang dihukum dan diterapkan dalam paket l0ara) cenderung berkinerja terbaik, atau penalti L0L2, seperti yang diterapkan dalam paket L0Learn juga berkinerja baik ...
Tom Wenseleers
9

Lasso hanya berguna jika Anda membatasi diri Anda untuk mempertimbangkan model yang linier dalam parameter yang akan diestimasi. Dengan kata lain, laso tidak mengevaluasi apakah Anda telah memilih bentuk hubungan yang benar antara variabel independen dan dependen.

Sangat masuk akal bahwa mungkin ada efek nonlinier, interaktif, atau polinomial dalam kumpulan data yang berubah-ubah. Namun, spesifikasi model alternatif ini hanya akan dievaluasi jika pengguna melakukan analisis itu; laso bukan pengganti untuk melakukannya.

Untuk contoh sederhana tentang bagaimana ini bisa salah, pertimbangkan kumpulan data di mana interval disjoint dari variabel independen akan memprediksi bolak-balik nilai tinggi dan rendah dari variabel dependen. Ini akan menjadi tantangan untuk memilah-milah menggunakan model linier konvensional, karena tidak ada efek linier dalam variabel manifes hadir untuk analisis (tetapi beberapa transformasi dari variabel manifes mungkin membantu). Ditinggalkan dalam bentuk manifesnya, laso akan secara keliru menyimpulkan bahwa fitur ini asing dan nol koefisiennya karena tidak ada hubungan linier . Di sisi lain, karena ada perpecahan sumbu-selaras dalam data, model berbasis pohon seperti hutan acak mungkin akan cukup baik.

masukkan deskripsi gambar di sini

Pasang kembali Monica
sumber
5

Salah satu kelemahan praktis dari laso dan teknik regularisasi lainnya adalah menemukan koefisien regularisasi optimal, lambda. Menggunakan validasi silang untuk menemukan nilai ini bisa semahal teknik seleksi bertahap.

rm999
sumber
Apa yang Anda maksud dengan "mahal"?
mark999
4
Klaim ini tidak sepenuhnya benar. Jika Anda mengadopsi pencarian grid "mulai hangat" seperti pada metode glmnet, Anda dapat menghitung seluruh grid dengan sangat cepat.
probabilityislogic
1
@probabilityislogic Benar, saya hanya membaca tentang mulai hangat setelah saya membuat komentar di atas. Apa pendapat Anda tentang makalah ini, yang menunjukkan mulai hangat lebih lambat dan kadang-kadang kurang efektif daripada validasi silang sederhana? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999
5
λ
5

Saya bukan ahli LASSO tetapi saya ahli dalam deret waktu. Jika Anda memiliki data deret waktu atau data spasial maka saya akan dengan rajin menghindari solusi yang didasarkan pada pengamatan independen. Lebih jauh lagi jika ada efek deterministik yang tidak diketahui yang telah memainkan malapetaka dengan data Anda (pergeseran level / tren waktu dll) maka LASSO akan menjadi palu yang lebih baik. Sebagai penutup ketika Anda memiliki data deret waktu, Anda sering perlu mengelompokkan data saat dihadapkan dengan parameter atau varian kesalahan yang berubah seiring waktu.

IrishStat
sumber
1
LASSO dapat memberikan kinerja peramalan yang baik ketika diterapkan pada model deret waktu berbasis regresi seperti autoregresi (AR), autoregresi vektor (VAR) dan model koreksi kesalahan vektor (VECM). Sebagai contoh, cari autoregresi vektor laso dan Anda akan menemukan banyak contoh dalam literatur akademik. Dalam pengalaman saya sendiri, menggunakan LASSO untuk model VAR stasioner memberikan kinerja peramalan yang unggul dibandingkan dengan semua pilihan subset atau regularisasi ridge, sementara regularisasi ridge mengalahkan LASSO untuk model VAR terintegrasi (karena multikolinieritas, sesuai jawaban Scortchi).
Richard Hardy
Jadi kegagalan LASSO tidak melekat pada data yang menjadi deret waktu.
Richard Hardy
3

Ini sudah merupakan pertanyaan yang sudah cukup lama tetapi saya merasa bahwa sementara itu sebagian besar jawaban di sini sudah usang (dan yang sudah diperiksa karena jawaban yang benar benar salah imho).

Pertama, dalam hal mendapatkan kinerja prediksi yang baik, tidak secara universal benar bahwa LASSO selalu lebih baik daripada bertahap. Makalah "Perbandingan Perbandingan Seleksi Subset Terbaik, Seleksi Stepwise Maju, dan Lasso" oleh Hastie et al (2017) memberikan perbandingan ekstensif langkah maju, LASSO dan beberapa varian LASSO seperti LASSO santai serta subset terbaik, dan mereka tunjukkan bahwa langkah bertahap terkadang lebih baik daripada LASSO. Varian LASSO - santai LASSO - adalah salah satu yang menghasilkan akurasi prediksi model tertinggi di bawah berbagai keadaan. Kesimpulan tentang yang terbaik sangat tergantung pada apa yang Anda anggap terbaik, misalnya apakah ini akan menjadi akurasi prediksi tertinggi atau memilih variabel positif palsu paling sedikit.

Ada seluruh kebun binatang metode pembelajaran yang jarang, yang sebagian besar lebih baik daripada LASSO. Misalnya ada LASSO santai Meinhausen , LASSO adaptif dan SCAD dan regresi MCP dihukum seperti yang diterapkan dalam ncvregpaket, yang semuanya memiliki bias kurang dari LASSO standar dan karenanya lebih disukai. Selain itu, jika Anda tertarik pada solusi sparsest absolut dengan kinerja prediksi terbaik maka regresi L0 dihukum (alias subset terbaik, yaitu berdasarkan hukuman dari nr dari koefisien bukan nol dibandingkan dengan jumlah dari nilai absolut dari koefisien dalam LASSO) lebih baik daripada LASSO, lihat misalnya l0arapaket yang mendekati L0 yang dihukum GLM menggunakan prosedur punggungan adaptif iteratif, dan yang tidak seperti LASSO juga bekerja sangat baik dengan variabel yang sangat collinear, dan L0Learnpaket , yang dapat sesuai dengan model regresi L0 yang menggunakan penurunan koordinat , berpotensi dikombinasikan dengan penalti L2 untuk mengatur collinearity.

Jadi untuk kembali ke pertanyaan awal Anda: mengapa tidak menggunakan LASSO untuk pemilihan variabel? :

(1) karena koefisien akan sangat bias, yang ditingkatkan dalam regresi yang dihukum LASSO, MCP dan SCAD, dan diselesaikan sepenuhnya dalam regresi yang dikenakan sanksi L0 (yang memiliki sifat oracle penuh, yaitu dapat memilih variabel kausal dan retun koefisien bias, juga untuk kasus p> n)

(2) karena cenderung menghasilkan jauh lebih banyak hasil positif palsu daripada regresi yang diberi penalti L0 (dalam pengujian saya l0araberkinerja terbaik, yaitu punggungan adaptif iteratif, diikuti oleh L0Learn)

(3) karena tidak dapat menangani dengan baik variabel collinear (pada dasarnya hanya akan secara acak memilih salah satu variabel collinear) - punggungan adaptif berulang / l0aradan hukuman L0L2 L0Learnjauh lebih baik dalam berurusan dengan itu.

Tentu saja, secara umum, Anda masih harus menggunakan validasi silang untuk menyesuaikan parameter regularisasi Anda untuk mendapatkan kinerja prediksi yang optimal, tetapi itu bukan masalah. Dan Anda bahkan dapat melakukan inferensi dimensi tinggi pada parameter Anda dan menghitung interval kepercayaan 95% pada koefisien Anda jika Anda suka melalui bootstrap nonparametrik (bahkan dengan mempertimbangkan ketidakpastian pada pemilihan regularisasi optimal jika Anda melakukan validasi silang Anda juga pada setiap dataset bootstrap , meskipun itu menjadi sangat lambat).

Secara komputasional, LASSO tidak lebih lambat untuk menyesuaikan diri daripada pendekatan bertahap btw, tentu saja tidak jika seseorang menggunakan kode yang sangat dioptimalkan yang menggunakan penghangat awal untuk mengoptimalkan regularisasi LASSO Anda (Anda dapat membandingkan diri Anda menggunakan fsperintah forward forward stepwise dan lassountuk LASSO dalam bestsubsetpaket). Fakta bahwa pendekatan bertahap masih populer mungkin ada hubungannya dengan kepercayaan banyak orang bahwa seseorang kemudian dapat menyimpan model akhir Anda dan melaporkan itu terkait nilai p - yang sebenarnya bukan hal yang benar untuk dilakukan, karena ini tidak memperhitungkan ketidakpastian yang diperkenalkan oleh pemilihan model Anda, menghasilkan nilai p yang terlalu optimis.

Semoga ini membantu?

Tom Wenseleers
sumber
0

Satu yang besar adalah kesulitan melakukan pengujian hipotesis. Anda tidak dapat dengan mudah mengetahui variabel mana yang signifikan secara statistik dengan Lasso. Dengan regresi bertahap, Anda dapat melakukan pengujian hipotesis sampai taraf tertentu, jika Anda berhati-hati dengan perawatan pengujian berganda.

dsimcha
sumber
8
Saya akan mengatakan itu keuntungan, bukan kerugian. Ini menghentikan Anda dari melakukan sesuatu yang mungkin seharusnya tidak Anda lakukan.
Peter Flom - Pasang kembali Monica
@ Peter: Mengapa? Saya berasumsi bahwa Anda akan benar mengoreksi beberapa pengujian, dll sehingga nilai-P yang diperoleh akan valid.
dsimcha
10
sebenarnya tidak ada cara untuk benar mengoreksi beberapa pengujian secara bertahap. Lihat, misalnya strategi pemodelan Harrell Regression. Tidak ada cara untuk mengetahui koreksi yang tepat
Peter Flom - Reinstate Monica
4
Memang benar bahwa kesulitan melakukan pengujian hipotesis adalah kelemahan potensial LASSO. Tidak benar bahwa ini adalah kerugian vis-a-vie stepwise regression.
gung - Reinstate Monica
2
Nah ada kerangka kerja inferensi selektif (diimplementasikan dalam paket selectiveInference) untuk melakukan (posting seleksi) inferensi untuk LASSO ... Atau untuk metode pemilihan variabel, seseorang dapat menggunakan bootstrap nonparametrik untuk melakukan inferensi dan mendapatkan interval kepercayaan pada perkiraan parameter Anda. ..
Tom Wenseleers