Bagaimana LASSO memilih di antara prediktor linier?

10

Saya mencari jawaban intuitif mengapa model GLM LASSO memilih prediktor spesifik dari kelompok yang sangat berkorelasi, dan mengapa itu melakukannya secara berbeda maka pemilihan fitur subset terbaik.

Dari geometri LASSO yang ditunjukkan pada Gambar 2 di Tibshirani 1996, saya dituntun untuk percaya bahwa LASSO memilih prediktor dengan varian yang lebih besar.

Sekarang anggaplah bahwa saya menggunakan pilihan subset terbaik dengan 10 kali lipat CV, untuk mendapatkan 2 prediktor untuk model regresi logistik dan saya memiliki pengetahuan sebelumnya yang masuk akal bahwa 2 prediktor ini optimal (dalam pengertian kerugian 0-1).

Solusi LASSO lebih menyukai solusi yang kurang parsimoni (5 prediktor) dengan kesalahan prediksi yang lebih besar. Secara intuitif, apa yang menyebabkan perbedaan muncul? Apakah karena cara LASSO memilih di antara para prediktor yang berkorelasi?

Piotr Sokol
sumber

Jawaban:

5

LASSO berbeda dari pemilihan subset terbaik dalam hal hukuman dan ketergantungan jalur.

Dalam pemilihan subset terbaik, mungkin CV digunakan untuk mengidentifikasi bahwa 2 prediktor memberikan kinerja terbaik. Selama CV, koefisien regresi skala penuh tanpa hukuman akan digunakan untuk mengevaluasi berapa banyak variabel yang akan dimasukkan. Setelah keputusan dibuat untuk menggunakan 2 prediktor, maka semua kombinasi dari 2 prediktor akan dibandingkan pada set data lengkap, secara paralel, untuk menemukan 2 untuk model akhir. Kedua prediktor terakhir akan diberikan koefisien regresi penuh-besarnya, tanpa hukuman, seolah-olah mereka satu-satunya pilihan selama ini.

Anda dapat menganggap LASSO sebagai dimulai dengan penalti besar pada jumlah besarnya koefisien regresi, dengan penalti berangsur-angsur reda. Hasilnya adalah bahwa variabel memasukkan satu per satu, dengan keputusan yang dibuat pada setiap titik selama relaksasi apakah lebih berharga untuk meningkatkan koefisien variabel yang sudah ada dalam model, atau menambahkan variabel lain. Tetapi ketika Anda mendapatkan, katakanlah, untuk model 2-variabel, koefisien regresi yang diizinkan oleh LASSO akan lebih rendah dalam besarnya daripada variabel yang sama akan memiliki dalam standar non-penalti yang digunakan untuk membandingkan model 2-variabel dan 3-variabel dalam pilihan subset terbaik.

Ini dapat dianggap sebagai membuatnya lebih mudah bagi variabel baru untuk masuk dalam LASSO daripada dalam pemilihan subset terbaik. Secara heuristik, LASSO memperdagangkan potensi koefisien regresi yang lebih rendah dari yang sebenarnya terhadap ketidakpastian dalam berapa banyak variabel yang harus dimasukkan. Ini akan cenderung untuk memasukkan lebih banyak variabel dalam model LASSO, dan berpotensi kinerja yang lebih buruk untuk LASSO jika Anda tahu pasti bahwa hanya 2 variabel yang perlu dimasukkan. Tetapi jika Anda sudah tahu berapa banyak variabel prediktor yang harus dimasukkan dalam model yang benar, Anda mungkin tidak akan menggunakan LASSO.

Sejauh ini tidak ada yang bergantung pada collinearity, yang menyebabkan berbagai jenis kesewenang-wenangan dalam pemilihan variabel dalam subset terbaik versus LASSO. Dalam contoh ini, subset terbaik memeriksa semua kemungkinan kombinasi 2 prediktor dan memilih yang terbaik di antara kombinasi tersebut. Jadi 2 terbaik untuk sampel data tertentu menang.

LASSO, dengan ketergantungan jalurnya dalam menambahkan satu variabel pada satu waktu, berarti bahwa pilihan awal dari satu variabel dapat memengaruhi ketika variabel lain yang berkorelasi dengannya masuk kemudian dalam proses relaksasi. Dimungkinkan juga untuk memasukkan variabel lebih awal dan kemudian koefisien LASSO-nya turun ketika variabel berkorelasi lainnya masuk.

Dalam praktiknya, pilihan di antara prediktor berkorelasi dalam model akhir dengan metode mana pun sangat tergantung pada sampel, seperti yang dapat diperiksa dengan mengulangi proses pembuatan model ini pada sampel bootstrap dari data yang sama. Jika tidak terlalu banyak prediktor, dan minat utama Anda adalah pada prediksi set data baru, regresi ridge, yang cenderung mempertahankan semua prediktor, mungkin merupakan pilihan yang lebih baik.

EdM
sumber