Diterapkan Lasso untuk memeringkat fitur dan mendapatkan hasil berikut:
rank feature prob.
==================================
1 a 0.1825477951589229
2 b 0.07858498115577893
3 c 0.07041793111843796
Perhatikan bahwa kumpulan data memiliki 3 label. Peringkat fitur untuk label yang berbeda sama.
Kemudian menerapkan hutan acak ke kumpulan data yang sama:
rank feature score
===================================
1 b 0.17504808300002753
6 a 0.05132699243632827
8 c 0.041690685195283385
Perhatikan bahwa peringkat sangat berbeda dari yang diproduksi oleh Lasso.
Bagaimana menafsirkan perbedaannya? Apakah itu menyiratkan model yang mendasarinya pada dasarnya adalah nonlinier?
Jawaban:
Jadi kueri Anda adalah perbandingan antara regresi linier dengan kepentingan variabel yang diturunkan dari model hutan acak.
Pendekatan populer lainnya adalah rata-rata atas pemesanan (LMG, 1980). LMG bekerja seperti ini:
Algoritma hutan acak cocok dengan beberapa pohon, setiap pohon di hutan dibangun dengan memilih secara acak fitur yang berbeda dari dataset. Simpul setiap pohon dibangun dengan memilih dan membelah untuk mencapai pengurangan varians maksimum. Sementara memprediksi pada dataset uji, output pohon individu rata-rata untuk mendapatkan hasil akhir. Setiap variabel diijinkan di antara semua pohon dan perbedaan kesalahan sampel sebelum dan sesudah permutasi dihitung. Variabel dengan perbedaan tertinggi dianggap paling penting, dan yang dengan nilai lebih rendah kurang penting.
Metode dimana model ini cocok dengan data pelatihan sangat berbeda untuk model regresi linier dibandingkan dengan model hutan acak. Tetapi kedua model tidak mengandung hubungan struktural antara variabel.
Mengenai pertanyaan Anda tentang non-linearitas variabel dependen: Lasso pada dasarnya adalah model linier yang tidak akan dapat memberikan prediksi yang baik untuk proses non-linear yang mendasarinya, dibandingkan dengan model berbasis pohon. Anda harus dapat memeriksanya dengan memverifikasi kinerja model pada set uji penyisihan, jika hutan acak berkinerja lebih baik, proses yang mendasarinya mungkin non-linear. Sebagai alternatif, Anda dapat memasukkan efek interaksi variabel dan variabel urutan lebih tinggi yang dibuat menggunakan a, b, dan c dalam model laso dan memverifikasi apakah model ini berkinerja lebih baik dibandingkan dengan laso dengan hanya kombinasi linear dari a, b dan c. Jika ya, maka proses yang mendasarinya mungkin non-linear.
Referensi:
sumber