kepentingan fitur melalui hutan acak dan regresi linier berbeda

9

Diterapkan Lasso untuk memeringkat fitur dan mendapatkan hasil berikut:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Perhatikan bahwa kumpulan data memiliki 3 label. Peringkat fitur untuk label yang berbeda sama.

Kemudian menerapkan hutan acak ke kumpulan data yang sama:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Perhatikan bahwa peringkat sangat berbeda dari yang diproduksi oleh Lasso.

Bagaimana menafsirkan perbedaannya? Apakah itu menyiratkan model yang mendasarinya pada dasarnya adalah nonlinier?

neurit
sumber
Peringkat fitur tidak benar-benar diterjemahkan di antara pengklasifikasi yang berbeda. Untuk menguji apakah modelnya nonlinier, lihat di sini misalnya: stats.stackexchange.com/questions/35893/…
Alex R.
1
Pentingnya fitur hanya saran berdasarkan "heuristik". Mereka terkadang tidak bisa diandalkan. Saya biasanya lebih percaya hutan acak dari pada Lasso.
Gerenuk

Jawaban:

6

Jadi kueri Anda adalah perbandingan antara regresi linier dengan kepentingan variabel yang diturunkan dari model hutan acak.

R2

Pendekatan populer lainnya adalah rata-rata atas pemesanan (LMG, 1980). LMG bekerja seperti ini:

  • SSSebuah/SStHaitSebuahlR2Sebuah
  • Sebuah,b,cb,Sebuah,cb,c,Sebuah
  • Temukan rata-rata korelasi semi-parsial untuk setiap pesanan ini. Ini adalah rata-rata dari pemesanan.

Algoritma hutan acak cocok dengan beberapa pohon, setiap pohon di hutan dibangun dengan memilih secara acak fitur yang berbeda dari dataset. Simpul setiap pohon dibangun dengan memilih dan membelah untuk mencapai pengurangan varians maksimum. Sementara memprediksi pada dataset uji, output pohon individu rata-rata untuk mendapatkan hasil akhir. Setiap variabel diijinkan di antara semua pohon dan perbedaan kesalahan sampel sebelum dan sesudah permutasi dihitung. Variabel dengan perbedaan tertinggi dianggap paling penting, dan yang dengan nilai lebih rendah kurang penting.

Metode dimana model ini cocok dengan data pelatihan sangat berbeda untuk model regresi linier dibandingkan dengan model hutan acak. Tetapi kedua model tidak mengandung hubungan struktural antara variabel.

Mengenai pertanyaan Anda tentang non-linearitas variabel dependen: Lasso pada dasarnya adalah model linier yang tidak akan dapat memberikan prediksi yang baik untuk proses non-linear yang mendasarinya, dibandingkan dengan model berbasis pohon. Anda harus dapat memeriksanya dengan memverifikasi kinerja model pada set uji penyisihan, jika hutan acak berkinerja lebih baik, proses yang mendasarinya mungkin non-linear. Sebagai alternatif, Anda dapat memasukkan efek interaksi variabel dan variabel urutan lebih tinggi yang dibuat menggunakan a, b, dan c dalam model laso dan memverifikasi apakah model ini berkinerja lebih baik dibandingkan dengan laso dengan hanya kombinasi linear dari a, b dan c. Jika ya, maka proses yang mendasarinya mungkin non-linear.

Referensi:

Sandeep S. Sandhu
sumber