Zou et al. "Pada" derajat kebebasan "dari laso" (2007) menunjukkan bahwa jumlah koefisien bukan nol adalah perkiraan yang tidak bias dan konsisten untuk derajat kebebasan laso.
Sepertinya agak berlawanan dengan intuisi saya.
- Misalkan kita memiliki model regresi (di mana variabelnya nol rata-rata)
- Misalkan perkiraan OLS yang tidak dibatasi untuk adalah . Itu kira-kira bisa bertepatan dengan perkiraan LASSO dari untuk intensitas penalti yang sangat rendah.
- Anggap lebih jauh bahwa perkiraan LASSO untuk intensitas penalti tertentu adalah . Misalnya, bisa menjadi "optimal" untuk kumpulan data yang ditemukan menggunakan validasi silang.
- Jika saya mengerti benar, dalam kedua kasus derajat kebebasan adalah 1 karena kedua kali ada satu koefisien regresi nol.
Pertanyaan:
- Mengapa derajat kebebasan dalam kedua kasus adalah sama meskipun menunjukkan lebih sedikit "kebebasan" dalam pemasangan daripada ?
Referensi:
- Zou, Hui, Trevor Hastie, dan Robert Tibshirani. "Pada" derajat kebebasan "dari laso." The Annals of Statistics 35.5 (2007): 2173-2192.
regression
lasso
degrees-of-freedom
shrinkage
Richard Hardy
sumber
sumber
Jawaban:
Asumsikan kita diberikan satu set pengamatan berdimensi, , . Asumsikan model formulir: mana , , dan menunjukkan produk dalam. Biarkan menjadi perkiraan menggunakan metode fitting (baik OLS atau LASSO untuk tujuan kita). Rumus untuk derajat kebebasan yang diberikan dalam artikel (persamaan 1.2) adalah:n p xi∈Rp i=1,…,n
Dengan memeriksa formula ini, kami dapat menduga bahwa, sesuai dengan intuisi Anda, DOF sebenarnya untuk LASSO memang akan kurang dari DOF sebenarnya dari OLS; koefisien-penyusutan yang dipengaruhi oleh LASSO harus cenderung mengurangi kovarian.
Sekarang, untuk menjawab pertanyaan Anda, alasan bahwa DOF untuk LASSO sama dengan DOF untuk OLS dalam contoh Anda adalah hanya karena Anda berurusan dengan perkiraan (meskipun yang tidak bias), diperoleh dari dataset tertentu yang diambil dari model , dari nilai DOF yang sebenarnya. Untuk setiap dataset tertentu, perkiraan seperti itu tidak akan sama dengan nilai sebenarnya (terutama karena estimasi tersebut diperlukan bilangan bulat, sedangkan nilai sebenarnya adalah bilangan real pada umumnya).
Namun, ketika perkiraan seperti itu dirata-ratakan atas banyak dataset sampel dari model, oleh ketidakberpihakan dan hukum sejumlah besar seperti rata-rata akan menyatu dengan DOF yang sebenarnya. Dalam kasus LASSO, beberapa set data tersebut akan menghasilkan estimator di mana koefisiennya adalah 0 (walaupun set data seperti itu mungkin langka jika kecil). Dalam kasus OLS, estimasi DOF selalu jumlah koefisien, bukan jumlah koefisien bukan nol, sehingga rata-rata untuk kasus OLS tidak akan mengandung angka nol ini. Ini menunjukkan bagaimana penaksir berbeda, dan bagaimana penaksir rata-rata untuk DOF LASSO dapat konvergen ke sesuatu yang lebih kecil dari penaksir rata-rata untuk DOF OLS.λ
sumber