Mengapa lambda “dalam satu kesalahan standar dari minimum” adalah nilai yang direkomendasikan untuk lambda dalam regresi jaring elastis?

24

Saya mengerti apa peran lambda dalam regresi elastis-bersih. Dan saya bisa mengerti mengapa orang akan memilih lambda.min, nilai lambda yang meminimalkan kesalahan divalidasi silang.

Pertanyaan saya adalah Di mana dalam literatur statistik direkomendasikan untuk menggunakan lambda.1se, yaitu nilai lambda yang meminimalkan kesalahan CV ditambah satu kesalahan standar ? Sepertinya saya tidak dapat menemukan kutipan resmi, atau bahkan alasan mengapa ini sering merupakan nilai yang baik. Saya mengerti bahwa ini adalah regularisasi yang lebih ketat, dan akan mengecilkan parameter lebih ke nol, tapi saya tidak selalu yakin dengan kondisi di mana lambda.1se adalah pilihan yang lebih baik daripada lambda.min. Bisakah seseorang membantu menjelaskan?

jhersh
sumber
5
Referensi formal dapat ditemukan di Hastie et al. "Unsur Pembelajaran Statistik" halaman 61. Namun, mereka tidak memberikan banyak pembenaran untuk pilihan ini ...
Richard Hardy
Lihat stats.stackexchange.com/questions/80268 .
Amuba kata Reinstate Monica

Jawaban:

22

Friedman, Hastie, dan Tibshirani (2010) , mengutip The Elements of Statistics Learning , menulis,

Kita sering menggunakan aturan "satu kesalahan standar" ketika memilih model terbaik; ini mengakui fakta bahwa kurva risiko diperkirakan dengan kesalahan, jadi kesalahan di sisi kekikiran.

Alasan untuk menggunakan satu kesalahan standar, berbeda dengan jumlah lainnya, tampaknya karena itu, yah ... standar. Krstajic, et al (2014) menulis (tambang penekanan tebal):

Breiman et al. [25] telah menemukan dalam kasus pemilihan ukuran pohon optimal untuk model pohon klasifikasi bahwa ukuran pohon dengan kesalahan validasi silang minimal menghasilkan model yang umumnya overfits. Oleh karena itu, dalam Bagian 3.4.3 dari buku mereka Breiman et al. [25] mendefinisikan satu aturan kesalahan standar (1 aturan SE) untuk memilih ukuran pohon yang optimal, dan mereka menerapkannya di seluruh buku. Untuk menghitung kesalahan standar untuk validasi silang V-lipat tunggal, akurasi perlu dihitung untuk setiap lipatan, dan kesalahan standar dihitung dari akurasi V dari setiap lipatan. Hastie et al. [4] mendefinisikan aturan 1 SE sebagai memilih model paling keliru yang kesalahannya tidak lebih dari satu kesalahan standar di atas kesalahan model terbaik, dan mereka menyarankan di beberapa tempat menggunakan aturan 1 SE untuk penggunaan validasi silang umum.Poin utama dari aturan 1 SE, yang kami setujui, adalah memilih model paling sederhana yang akurasinya sebanding dengan model terbaik .

λ

shadowtalker
sumber
1
Terima kasih! Sekarang saya akhirnya dapat mengutip sesuatu yang sesuai ketika pertanyaan muncul untuk mereka yang tidak terbiasa dengan pilihan "standar" lambda. Tautan ke Krstajic dkk tampak hebat juga.
jhersh
Kutipan itu hanya mengatakan "1se ditemukan optimal untuk klasifikasi ". Tetapi pertanyaan yang diajukan tentang regresi ! Ada beberapa alternatif. Jika kita mencoba misalnya mundur ke 2se, kita mendapatkan masalah bahwa lambda terlalu besar dan menyusut koefisien terlalu banyak. Tetapi kita dapat membangun kembali model yang mengecualikan semua variabel yang tidak dipilih di lambda.1se dalam model asli.
smci
@smci kutipan yang mana? Itu tidak ada dalam kutipan yang saya ekstrak, yang keduanya menyarankan bahwa aturan 1-SE berlaku secara umum, bukan hanya dalam klasifikasi.
shadowtalker
6

Buku Breiman et al. (Dikutip dalam kutipan jawaban lain dari Krstajic) adalah referensi tertua yang saya temukan untuk aturan 1SE.

Ini adalah Breiman, Friedman, Stone, dan Pohon Klasifikasi dan Regresi Olshen (1984). Mereka "menurunkan" aturan ini di bagian 3.4.3.

Jadi, jika Anda memerlukan kutipan resmi, itu sepertinya sumber aslinya.

civilstat
sumber