Saya menggunakan Regresi Logistik. Saya memiliki enam fitur, saya ingin tahu fitur-fitur penting dalam pengklasifikasi ini yang lebih memengaruhi hasil daripada fitur lainnya. Saya menggunakan Penguatan Informasi tetapi tampaknya itu tidak bergantung pada classifier yang digunakan. Apakah ada metode untuk memeringkat fitur sesuai dengan kepentingannya berdasarkan klasifikasi tertentu (seperti Regresi Logistik)? bantuan apa pun akan sangat dihargai.
10
Jawaban:
Saya pikir jawaban yang Anda cari mungkin adalah algoritma Boruta . Ini adalah metode pembungkus yang secara langsung mengukur pentingnya fitur dalam arti "semua relevansi" dan diimplementasikan dalam paket R , yang menghasilkan plot yang bagus seperti di mana pentingnya fitur apa pun pada sumbu y dan dibandingkan dengan null diplot dengan warna biru di sini. Posting blog ini menjelaskan pendekatannya dan saya sarankan Anda membacanya sebagai intro yang sangat jelas.
sumber
Untuk mulai memahami cara membuat peringkat variabel berdasarkan pentingnya model regresi, Anda dapat mulai dengan regresi linier. Pendekatan populer untuk menentukan peringkat kepentingan variabel dalam model regresi linier adalah menguraikan menjadi kontribusi yang dikaitkan dengan masing-masing variabel. Tetapi variabel penting tidak langsung dalam regresi linier karena korelasi antar variabel. Lihat dokumen yang menjelaskan metode PMD (Feldman, 2005) [ 3 ]. Pendekatan populer lainnya adalah rata-rata pemesanan (LMG, 1980) [ 2 ].R2
Tidak ada banyak konsensus mengenai bagaimana cara memeringkat variabel untuk regresi logistik. Tinjauan yang baik dari topik ini diberikan dalam [ 1 ], ini menjelaskan adaptasi dari regresi relatif penting teknik menggunakan Pseudo- untuk regresi logistik.R2
Daftar pendekatan populer untuk menentukan peringkat fitur penting dalam model regresi logistik adalah:
Referensi:
sumber
Dengan asumsi semua dinormalisasi, misalnya dengan membagi dengan besarnya , cukup mudah untuk melihat variabel mana yang lebih penting: variabel yang lebih besar dari yang lain atau (di sisi negatif) ) lebih kecil dari yang lain. Mereka paling mempengaruhi kerugian.x x
Jika Anda ingin menemukan variabel yang benar-benar penting dan dalam prosesnya tidak keberatan mengeluarkan sedikit pun, Anda dapat mengatur fungsi kerugian Anda: menit w , b n Σ i = 1 log ( 1 + exp ( - y i f w , b ( x i ) ) ) + λ | w |ℓ1
Derivatif atau regulator cukup mudah, jadi saya tidak akan menyebutkannya di sini. Dengan menggunakan bentuk regularisasi ini dan sesuai akan memberlakukan elemen-elemen yang kurang penting dalam menjadi nol dan yang lainnya tidak.wλ w
Saya harap ini membantu. Tanyakan apakah Anda memiliki pertanyaan lebih lanjut.
sumber