Fitur penting dengan fitur kategoritas kardinalitas tinggi untuk regresi (variabel dependen numerik)

12

Saya mencoba menggunakan fitur penting dari Random Forests untuk melakukan beberapa pilihan fitur empiris untuk masalah regresi di mana semua fitur bersifat kategoris dan banyak dari mereka memiliki banyak tingkatan (pada urutan 100-1000). Mengingat bahwa pengodean satu-panas membuat variabel dummy untuk setiap level, kepentingan fitur adalah untuk setiap level dan bukan setiap fitur (kolom). Apa cara yang baik untuk menggabungkan pentingnya fitur ini?

Saya berpikir tentang menjumlahkan atau mendapatkan kepentingan rata-rata untuk semua level fitur (mungkin yang pertama akan bias terhadap fitur-fitur dengan level lebih banyak). Apakah ada referensi tentang masalah ini?

Apa lagi yang bisa dilakukan seseorang untuk mengurangi jumlah fitur? Saya mengetahui grup laso, tidak dapat menemukan sesuatu yang mudah digunakan untuk scikit-belajar.

user90772
sumber
Adakah yang bisa menjawab pertanyaan apakah menjumlahkan variabel penting dari setiap level variabel kategori masuk akal?
lihat 24
@ see24 Tidak, Anda tidak bisa menjumlahkan mereka: stats.stackexchange.com/questions/314567/...
Dan

Jawaban:

5

Itu tergantung pada bagaimana Anda meng-enkode mereka satu-panas. Banyak solusi otomatis untuk itu akan memberi nama semua boolean yang dikonversi dengan pola sehingga variabel kategorikal yang disebut "huruf" dengan nilai AZ akan berakhir seperti:

letter_A, letter_B, letter_C, letter_D, ....

Jika setelah Anda menemukan fitur penting, Anda memiliki sebuah array fitur dan bobot / kepentingan terkait, saya akan menganalisis array dan mungkin merangkum bobot pentingnya fitur untuk apa pun yang dimulai dengan "letter%".

CalZ
sumber
3
Bukankah penjumlahannya memberi keuntungan pada fitur-fitur dengan level lebih banyak?
user90772
Hmm, poin bagus. Mungkin jumlahkan kemudian bagi dengan jumlah level / satu variabel panas yang dikodekan untuk mendapatkan kepentingan "rata-rata".
CalZ
2
Saya memikirkan hal ini lagi dan itu tergantung pada seberapa penting skornya. Dalam beberapa kasus, nilai untuk setiap fitur adalah bobot relatif di mana keseluruhan himpunan berjumlah 1. Dalam hal itu, saya pikir masuk akal untuk merangkum fitur satu-panas. Jika skor untuk fitur lebih seperti koefisien regresi dan tidak berbobot relatif terhadap efek bersih, maka rata-rata mungkin akan lebih baik.
CalZ
Terima kasih atas balasannya. Mengingat bahwa saya cukup baru di bidang ini, saya pikir ini adalah hal standar bagi orang-orang dalam ilmu data tetapi entah itu yang seharusnya tidak saya lakukan untuk menilai pentingnya fitur kolom atau posting ini tidak mendapatkan cukup banyak pandangan. Bagaimanapun, terima kasih!
user90772
1
Banyak orang menganjurkan melihat internal model sebagai kotak hitam dan mengevaluasi kinerja sebagai gantinya. Dalam kasus-kasus tertentu (misalnya jaringan saraf) ini karena Anda tidak dapat benar-benar memeriksanya secara mendalam. Untuk beberapa tempat di mana Anda dapat dengan mudah melihat fitur mana yang penting (misalnya regresi linier), Anda dapat dengan mudah menyesatkan (lihat: stats.stackexchange.com/questions/105114/… ). Saya pikir itu sebabnya orang terkadang menghindar dari melihat pentingnya fitur individu.
CalZ