Mengapa R Squared bukan ukuran yang baik untuk regresi cocok menggunakan LASSO?

12

Saya telah membaca di beberapa tempat bahwa R Squared bukan ukuran ideal ketika model cocok menggunakan LASSO. Namun, saya tidak tahu persis mengapa itu terjadi.

Selain itu, dapatkah Anda merekomendasikan alternatif terbaik?

Dave
sumber

Jawaban:

19

Tujuan menggunakan LASSO adalah mendapatkan representasi yang jarang (dari jumlah yang diprediksi) dalam arti tidak memiliki banyak kovariat. Membandingkan model dengan cenderung lebih menyukai model dengan banyak kovariat: pada kenyataannya, menambahkan kovariat yang tidak terkait dengan hasil tidak akan pernah mengurangi dan hampir selalu meningkatkannya setidaknya sedikit. Model LASSO akan mengidentifikasi model dengan log-likelihood yang optimal (log-likelihood yang kemungkinan tidak monoton berhubungan dengan ). Statistik validasi yang lebih banyak digunakan untuk membandingkan model LASSO dengan tipe model lainnya adalah, misalnya, BIC atau cross-valided .R2R2R2R2

AdamO
sumber
1
+1 untuk secara jelas menyajikan alasannya dan memberikan alternatif
Haitao Du
1
Terima kasih banyak atas jawabannya! Apakah Anda keberatan untuk menguraikan "Model LASSO akan mengidentifikasi model dengan kemungkinan log-kemungkinan yang optimal (log-kemungkinan yang tidak dilaputkan berhubungan secara monoton dengan R2)." Saya mengambil bagian pertama berarti bahwa ia akan memilih model dengan jumlah kesalahan paling sedikit (dalam prediksi dan melalui hukuman)? Tapi saya tidak jelas apa arti dari sedikit tanda kurung. Apakah itu berarti bahwa LL yang tidak dilegalisasi naik ketika R2 turun? Juga, apakah R2 yang divalidasi silang harus dalam dataset yang sama sekali baru? Atau bisakah itu didasarkan pada data pelatihan?
Dave
3
@Dave Saya pikir Anda punya ide yang tepat. Model regresi linier adalah LASSO tanpa penalti, dan log-likelihoodnya hanya sedangkan R2 hanya . Penalti berkontribusi terhadap kesalahan secara tidak langsung, itu adalah harga yang Anda bayar untuk menegakkan kekurangan. Model yang tidak dipatenkan akan selalu memiliki kesalahan (internal) yang lebih rendah. Orang umumnya melakukan validasi silang dengan dataset yang sama. Menguji model dalam dataset baru adalah hal lain (tidak perlu bagian "cross") dan itu tidak cukup. catatan(2π)N+1-catatan(N)+catatan(saya=1nrsaya2)1-saya=1nrsaya2/saya=1nysaya2
AdamO
@ Adamo Saya pikir itu akan menjadi ide yang bagus untuk mengedit komentar Anda menjadi jawaban Anda, itu sangat bagus.
Matthew Drury
Hai @AdamO satu pertanyaan lanjutan terakhir. Saya mengerti sekarang mengapa R2 tradisional adalah ukuran yang buruk. Tapi, saya tidak jelas mengapa R2 divalidasi silang (dalam dataset yang sama) tidak apa-apa?
Dave