Bagaimana cara menginterpretasikan plot cv.glmnet ()?

8

Saya melakukan laso dan kemudian meninggalkan validasi silang keluar-keluar

cv<-cv.glmnet(df, df$Price, nfolds = 1500) 

Ketika saya merencanakan cv saya mendapatkan yang berikut: masukkan deskripsi gambar di sini

Saya juga memperhatikan bahwa saya mendapatkan 2 lambda berbeda: lambda.mindanlambda.1se

  • Apa perbedaan antara lambda ini?
  • Apa yang bisa saya pahami dari plot di atas secara umum (apa interval kepercayaan ini, apa dua garis putus-putus dll)?

Jika saya mengubah untuk nfolds=10melakukan validasi 10 kali lipat, saya mendapatkan lambda.1sekoefisien yang berbeda dan berbeda untuk lambda ini. Berdasarkan kriteria apa saya dapat memilih yang terbaik untuk saya?

Melati
sumber
2
Sudahkah Anda mencoba mencari di sini: web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
ilanman
@ilanman Bagus sekali, terima kasih! Tapi tetap saja lambda mana yang harus saya sukai? Intuisi saya akan mengatakan lambda.min tetapi saya melihat bahwa lambda.1se biasanya disarankan ..
Jasmine

Jawaban:

16

Ini bukan tentang statistik, hanya membaca dokumentasi.

  • Dua nilai berbeda dari λ mencerminkan dua pilihan umum untuk λ. Ituλminadalah salah satu yang meminimalkan kehilangan sampel di CV. The adalah salah satu yang terbesar nilai dalam 1 standard error . Satu baris penalaran menyarankan penggunaan karena lindung nilai terhadap overfitting dengan memilih nilai besar daripada min. Pilihan mana yang terbaik tergantung pada konteks.λ1seλλminλ1seλ
  • Interval kepercayaan mewakili perkiraan kesalahan untuk metrik kerugian (titik merah). Mereka dihitung menggunakan CV. Garis vertikal menunjukkan lokasi dan . Angka-angka di atas adalah jumlah estimasi koefisien bukan nol.λminλ1se
Sycorax berkata Reinstate Monica
sumber