Berikut ini adalah plot glmnet dengan alpha default (1, karenanya laso) menggunakan mtcars
set data dalam R dengan mpg
sebagai DV dan yang lainnya sebagai variabel prediktor.
glmnet(as.matrix(mtcars[-1]), mtcars[,1])
Apa yang bisa kita simpulkan dari plot ini mengenai berbagai variabel, khususnya am
, cyl
dan wt
(garis merah, hitam dan biru muda)? Bagaimana kita akan mengeluarkan output dalam laporan yang akan diterbitkan?
Saya berpikir untuk mengikuti:
wt
adalah prediktor paling pentingmpg
. Ini secara negatif mempengaruhimpg
.cyl
adalah prediktor negatif lemahmpg
.am
mungkin merupakan prediktor positifmpg
.Variabel lain bukan merupakan prediktor kuat
mpg
.
Terima kasih atas pemikiran Anda tentang ini.
(Catatan: cyl
adalah garis hitam yang tidak mencapai 0 hingga sangat dekat dengannya.)
Sunting: Berikut ini adalah plot (mod, xvar = 'lambda') yang menunjukkan sumbu x dalam urutan kebalikan dari plot di atas:
(PS: Jika Anda menemukan pertanyaan ini menarik / penting, harap perbarui;)
-1
diglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.my_data_frame[1]
mengembalikan frame data dengan satu kolom, sedangkanmy_data_frame[[1]]
danmy_data_frame[, 1]
keduanya mengembalikan vektor yang tidak "terkandung" oleh bingkai data. Matriks, namun, sebenarnya vektor hanya datar dengan atribut khusus yang memungkinkan R untuk mengakses mereka seperti grid, sehinggamy_matrix[1]
,my_matrix[1, 1]
danmy_matrix[[1]]
semua akan kembali pertama elemen darimy_matrix
.my_matrix[, 1
] mengembalikan kolom pertama.Jawaban:
Untuk itu, saya membuat beberapa data yang berkorelasi dan tidak berkorelasi untuk menunjukkan:
Data
x_uncorr
memiliki kolom yang tidak berkorelasisementara
x_corr
memiliki korelasi yang telah ditetapkan sebelumnya antara kolomSekarang mari kita lihat plot laso untuk kedua kasus ini. Pertama, data yang tidak berkorelasi
Beberapa fitur menonjol
Ini semua adalah fakta umum yang berlaku untuk regresi laso dengan data yang tidak berkorelasi, dan semuanya dapat dibuktikan dengan tangan (latihan yang baik!) Atau ditemukan dalam literatur.
Sekarang mari kita lakukan data berkorelasi
Anda dapat membaca beberapa hal dari plot ini dengan membandingkannya dengan kasus yang tidak berkorelasi
Jadi sekarang mari kita lihat plot Anda dari dataset mobil dan bacalah beberapa hal menarik (saya mereproduksi plot Anda di sini sehingga diskusi ini lebih mudah dibaca):
Sebuah kata peringatan : Saya menulis analisis berikut yang didasarkan pada asumsi bahwa kurva menunjukkan koefisien terstandarisasi , dalam contoh ini mereka tidak. Koefisien non-standar tidak berdimensi, dan tidak dapat dibandingkan, sehingga tidak ada kesimpulan yang dapat diambil dari mereka dalam hal kepentingan prediktif. Agar analisis berikut ini valid, harap berpura-pura bahwa plot tersebut dari koefisien terstandarisasi, dan harap lakukan analisis sendiri pada jalur koefisien terstandarisasi.
wt
prediktor tampaknya sangat penting. Memasuki model pertama, dan memiliki keturunan yang lambat dan mantap ke nilai akhir. Itu memang memiliki beberapa korelasi yang membuatnya menjadi perjalanan yang sedikit bergelombang,am
khususnya tampaknya memiliki efek drastis ketika masuk.am
juga penting. Itu datang kemudian, dan berkorelasi denganwt
, karena mempengaruhi kemiringanwt
dengan cara kekerasan. Ini juga berkorelasi dengancarb
danqsec
, karena kita tidak melihat pelunakan lereng yang dapat diprediksi saat masuk. Setelah empat variabel tersebut telah memasuki meskipun, kita jangan melihat pola berkorelasi bagus, sehingga tampaknya tidak berkorelasi dengan semua prediktor di akhir.cyl
danwt
.cyl
cukup facinating. Memasuki kedua, jadi penting untuk model kecil. Setelah variabel lain, dan terutamaam
masuk, itu tidak begitu penting lagi, dan trennya berbalik, akhirnya semuanya dihapus. Sepertinya efekcyl
dapat sepenuhnya ditangkap oleh variabel yang masuk pada akhir proses. Apakah lebih tepat untuk digunakancyl
, atau kelompok variabel pelengkap, benar-benar tergantung pada pengorbanan bias-varians. Mempunyai grup dalam model akhir Anda akan meningkatkan variansnya secara signifikan, tetapi mungkin ini merupakan penyebab bias yang lebih rendah menebusnya!Itu pengantar kecil bagaimana saya belajar membaca informasi dari plot ini. Saya pikir mereka sangat menyenangkan!
Saya akan mengatakan kasus
wt
danam
jelas, mereka penting.cyl
jauh lebih halus, penting dalam model kecil, tetapi sama sekali tidak relevan dalam model besar.Saya tidak akan dapat menentukan apa yang akan dimasukkan hanya berdasarkan gambar, yang benar-benar harus dijawab konteks dari apa yang Anda lakukan. Anda dapat mengatakan bahwa jika Anda menginginkan model tiga prediktor, maka
wt
,am
dancyl
merupakan pilihan yang baik, karena mereka relevan dalam skema besar hal-hal, dan akhirnya akan memiliki ukuran efek yang masuk akal dalam model kecil. Ini didasarkan pada asumsi bahwa Anda memiliki beberapa alasan eksternal untuk menginginkan model tiga prediksi kecil.Memang benar, jenis analisis ini melihat seluruh spektrum lambdas dan memungkinkan Anda memilah-milah hubungan pada berbagai kompleksitas model. Yang mengatakan, untuk model akhir, saya pikir menyetel lambda optimal sangat penting. Dengan tidak adanya kendala lain, saya pasti akan menggunakan validasi silang untuk menemukan di mana di sepanjang spektrum ini lambda paling prediktif adalah, dan kemudian menggunakan lambda itu untuk model akhir , dan analisis akhir.
Di arah lain, kadang-kadang ada kendala luar untuk seberapa kompleks suatu model dapat (biaya implementasi, sistem warisan, minimalisme penjelas, interpretabilitas bisnis, warisan estetika) dan inspeksi semacam ini benar-benar dapat membantu Anda memahami bentuk data Anda, dan pengorbanan yang Anda lakukan dengan memilih model yang lebih kecil dari optimal.
sumber