Intuisi untuk derajat kebebasan LASSO

12

Zou et al. "Pada" derajat kebebasan "dari laso" (2007) menunjukkan bahwa jumlah koefisien bukan nol adalah perkiraan yang tidak bias dan konsisten untuk derajat kebebasan laso.

Sepertinya agak berlawanan dengan intuisi saya.

  • Misalkan kita memiliki model regresi (di mana variabelnya nol rata-rata)

y=βx+ε.
  • Misalkan perkiraan OLS yang tidak dibatasi untuk adalah . Itu kira-kira bisa bertepatan dengan perkiraan LASSO dari untuk intensitas penalti yang sangat rendah.ββ^OLS=0.5β
  • Anggap lebih jauh bahwa perkiraan LASSO untuk intensitas penalti tertentu adalah . Misalnya, bisa menjadi "optimal" untuk kumpulan data yang ditemukan menggunakan validasi silang. λβ^LASSO,λ=0.4λλ
  • Jika saya mengerti benar, dalam kedua kasus derajat kebebasan adalah 1 karena kedua kali ada satu koefisien regresi nol.

Pertanyaan:

  • Mengapa derajat kebebasan dalam kedua kasus adalah sama meskipun menunjukkan lebih sedikit "kebebasan" dalam pemasangan daripada ?β^LASSO,λ=0.4β^OLS=0.5

Referensi:

Richard Hardy
sumber
1
pertanyaan bagus, itu pantas mendapat perhatian lebih!
Matifou

Jawaban:

8

Asumsikan kita diberikan satu set pengamatan berdimensi, , . Asumsikan model formulir: mana , , dan menunjukkan produk dalam. Biarkan menjadi perkiraan menggunakan metode fitting (baik OLS atau LASSO untuk tujuan kita). Rumus untuk derajat kebebasan yang diberikan dalam artikel (persamaan 1.2) adalah: n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Dengan memeriksa formula ini, kami dapat menduga bahwa, sesuai dengan intuisi Anda, DOF sebenarnya untuk LASSO memang akan kurang dari DOF sebenarnya dari OLS; koefisien-penyusutan yang dipengaruhi oleh LASSO harus cenderung mengurangi kovarian.

Sekarang, untuk menjawab pertanyaan Anda, alasan bahwa DOF untuk LASSO sama dengan DOF untuk OLS dalam contoh Anda adalah hanya karena Anda berurusan dengan perkiraan (meskipun yang tidak bias), diperoleh dari dataset tertentu yang diambil dari model , dari nilai DOF yang sebenarnya. Untuk setiap dataset tertentu, perkiraan seperti itu tidak akan sama dengan nilai sebenarnya (terutama karena estimasi tersebut diperlukan bilangan bulat, sedangkan nilai sebenarnya adalah bilangan real pada umumnya).

Namun, ketika perkiraan seperti itu dirata-ratakan atas banyak dataset sampel dari model, oleh ketidakberpihakan dan hukum sejumlah besar seperti rata-rata akan menyatu dengan DOF yang sebenarnya. Dalam kasus LASSO, beberapa set data tersebut akan menghasilkan estimator di mana koefisiennya adalah 0 (walaupun set data seperti itu mungkin langka jika kecil). Dalam kasus OLS, estimasi DOF selalu jumlah koefisien, bukan jumlah koefisien bukan nol, sehingga rata-rata untuk kasus OLS tidak akan mengandung angka nol ini. Ini menunjukkan bagaimana penaksir berbeda, dan bagaimana penaksir rata-rata untuk DOF LASSO dapat konvergen ke sesuatu yang lebih kecil dari penaksir rata-rata untuk DOF OLS.λ

e2crawfo
sumber
1
Terima kasih telah memperbaiki kesalahan dan formulasi yang tidak tepat. Biarkan saya melihat apakah saya mengerti Anda dengan baik. Intinya, jika kami mengulangi percobaan berkali-kali (atau sampel berkali-kali dari populasi yang sama), kami terkadang mendapatkan (koefisien akan menyusut hingga nol) dan rata-rata (melintasi percobaan) Saya akan mendapatkan DoF untuk LASSO sedangkan DoF untuk OLS (jelas). β^LASSO=0<1=1
Richard Hardy
Ngomong-ngomong, mengapa estimasi derajat kebebasan harus bilangan bulat? Benarkah itu? Izinkan saya juga berkomentar bahwa notasi produk dalam tampaknya tidak rumit dan jarang digunakan di situs ini; notasi matriks sudah cukup. Tapi itu pilihanmu, tentu saja.
Richard Hardy
1
Ya itu tentang jumlah itu. Perkiraan derajat kebebasan harus menjadi bilangan bulat untuk LASSO (setidaknya untuk satu set data tunggal) hanya karena perkiraannya adalah jumlah koefisien bukan nol.
e2crawfo
1
Pernyataan Perkiraan derajat kebebasan harus menjadi bilangan bulat untuk LASSO hanya karena perkiraannya adalah jumlah koefisien non-nol yang tampaknya sangat tautologis bagi saya. Secara umum, saya tidak berpikir df perlu integer, dari definisi df yang Anda tulis. Demikian pula, dalam kasus punggungan, tidak perlu nol.
Matifou