Koefisien variabel naik, kemudian turun seiring lambda berkurang (LASSO)

8

Saya mundur prediktor kontinu pada lebih dari 60 variabel (baik kontinu dan kategoris) menggunakan LASSO (glmnet).

Dalam memeriksa plot jejak variabel, saya perhatikan bahwa seiring bertambahnya log lambda, salah satu variabel kunci memiliki koefisien yang benar-benar meningkat. Kemudian, setelah titik tertentu, mulai berkurang seperti yang kita harapkan.

Untuk memastikan ini bukan kebetulan, saya menjalankan 10 model menggunakan bootstraps dan memperoleh hasil yang sangat mirip.

Apakah ini mungkin, atau ada masalah dengan data? Jika sah, apa tren ini dalam koefisien variabel memberitahu kita tentang variabel dan hubungannya dengan respon?

Plot jejak variabel awal 10 model bootstrap

matsuo_basho
sumber

Jawaban:

10

Itu tidak hanya mungkin, itu adalah kejadian yang sangat umum.

Perhatikan bahwa hukumannya adalah  λ||β||1. Jadi beberapa komponen dapat bertambah besar selama yang lain berkurang, tanpa meningkatkan norma secara keseluruhan. Terkadang sebagaiλ meningkat, satu (atau beberapa) koefisien (s) dapat meningkat dalam ukuran dengan mengorbankan orang lain yang bersama-sama menurun setidaknya secepat, karena itu membantu menjaga laju kenaikan dalam kurangnya fit term lebih dari mengurangi semuanya bersama-sama akan.

Anda mungkin ingin merencanakan apa yang terjadi saya|βsaya| sebagai catatanλ meningkat.

Anda akan sering melihat perilaku seperti ini ketika ada beberapa korelasi di antara para prediktor - mungkin ada semacam efek substitusi.

Perhatikan bahwa di plot teratas Anda |β4|+|β11| hampir selalu menurun atau cukup stabil (kenaikan kecil sesekali akan diimbangi dengan penurunan koefisien masih variabel lainnya)

Glen_b -Reinstate Monica
sumber
Apa yang dikatakan dinamika ini tentang pengaruh variabel terhadap respons dibandingkan jika hanya berkurang dengan lambda yang meningkat?
matsuo_basho
Saya tidak yakin apa yang Anda tanyakan di sana, tetapi Anda perlu mempertimbangkan efek dari semua variabel secara bersamaan. Misalnya, jikaβ4-β11 hampir konstan dalam banyak peningkatan itu β4 dengan meningkatnya λ, seperti yang kita lihat di plot teratas Anda, Anda mungkin ingin mempertimbangkan apa efek dari kontras itu. Efek darix4sendiri mungkin membingungkan karena Anda melewatkan setengah cerita di sana.
Glen_b -Reinstate Monica
+1, tetapi mungkinkah untuk mendapatkan contoh konstruktif yang menunjukkan bagaimana dan mengapa hal seperti itu terjadi?
Richard Hardy
Biarkan saya memberikan latar belakang mengapa saya mengajukan pertanyaan. Saya ingin mengidentifikasi variabel paling penting dalam model. Dari model yang saya jalankan, kita melihat bahwa variabel 4 dan variabel 11 atau 24 konsisten dalam model ketika lambda tinggi. Jadi, kita dapat mengatakan bahwa itu penting. Meskipun variabel 4 umumnya memiliki koefisien positif, cara perubahannya agak membingungkan. Apakah dinamika ini memberi tahu kita apa pun tentang menafsirkan pengaruh variabel terhadap respons?
matsuo_basho