Misalkan saya ingin mundur terhadap X yang dinormalisasi , tetapi saya ingin solusi yang jarang. Setelah regresi, mengapa membuang koefisien dengan besaran terkecil tidak diperbolehkan?
Sebagai catatan, saya telah mendengar tentang, dan sering menggunakan, metode LARS dan LASSO. Saya hanya ingin tahu mengapa pendekatan di atas tidak berlaku.
regression
regression-coefficients
Cam.Davidson.Pilon
sumber
sumber
Jawaban:
Tidak akan ada masalah jika adalah ortonormal. Namun, kemungkinan korelasi yang kuat antara variabel penjelas harus memberi kita jeda.X
Geometri dapat dibuat kembali dengan simulasi, seperti yang dilakukan oleh
R
perhitungan ini :Matriks sebar mengungkapkan semua:
sumber
Tampak bagi saya bahwa jika koefisien estimasi mendekati 0 dan data dinormalisasi bahwa prediksi tidak akan terluka dengan membuang variabel. Tentu saja jika koefisiennya tidak signifikan secara statistik, tampaknya tidak ada masalah. Tapi ini harus dilakukan dengan hati-hati. IVs mungkin berkorelasi dan menghapus satu bisa mengubah koefisien yang lain. Ini semakin berbahaya jika Anda mulai memperbaiki beberapa variabel dengan cara ini. Prosedur pemilihan subset dirancang untuk menghindari masalah seperti itu dan menggunakan kriteria yang masuk akal untuk memasukkan dan mengeluarkan variabel. Jika Anda bertanya kepada Frank Harrell, ia akan menentang prosedur bertahap. Anda menyebutkan LARS dan LASSO yang merupakan dua metode yang sangat modern. Tetapi ada banyak yang lain Termasuk kriteria informasi yang mendukung pengenalan terlalu banyak variabel.
Jika Anda mencoba prosedur pemilihan subset yang telah dipelajari dengan hati-hati dengan banyak literatur tentang hal itu, Anda mungkin akan menemukan bahwa itu akan mengarah pada solusi yang merevisi variabel dengan koefisien kecil terutama jika mereka gagal dalam tes karena secara statistik berbeda secara signifikan dari 0.
sumber