Ukuran pemisahan kelas dalam masalah klasifikasi

11

Contoh ukuran pemisahan kelas yang baik pada pembelajar diskriminan linier adalah rasio diskriminan linear Fisher. Apakah ada metrik berguna lainnya untuk menentukan apakah set fitur menyediakan pemisahan kelas yang baik antara variabel target? Secara khusus, saya tertarik untuk menemukan atribut input multivarian yang baik untuk memaksimalkan pemisahan kelas target dan akan menyenangkan untuk memiliki ukuran non-linear / non-parametrik untuk segera menentukan apakah mereka memberikan pemisahan yang baik.

menepuk
sumber
Saya membaca tentang ekspansi Karhunen Loeve yang memungkinkan penggunaan informasi kelas untuk ekstraksi fitur. Selain itu, ada ekstensi untuk PCA seperti menggunakan rata-rata tertimbang dari matriks kovarians kelas daripada matriks global. Terlepas dari informasi ini, saya juga tertarik pada kemungkinan jawaban untuk pertanyaan Anda.
Zoran

Jawaban:

1

Variable Importance Measures (VIMs) dari Random Forests mungkin yang Anda cari. Tinjauan singkat lebih dari dua ini diberikan dalam makalah Tinjauan Metodologi Hutan Acak dan Bimbingan Praktis dengan Penekanan pada Biologi Komputasi dan Bioinformatika oleh Boulesteix et al.

Gagasan untuk Gini VIM adalah Anda mendapatkan beberapa statistik tentang seberapa sering hutan acak telah menggunakan atribut tertentu sebagai kriteria pemisahan. Fitur informatif lebih sering dipilih di sini.

The permutasi VIM didasarkan pada gagasan bahwa kesalahan-perkiraan RF-classifier dibandingkan antara

  • dataset asli dan
  • dataset buatan tempat nilai-nilai untuk SATU atribut telah diijinkan.

Selisih estimasi kesalahan yang dihasilkan akan besar untuk fitur-fitur penting.

Sejauh yang saya ingat, VIM juga dapat digunakan untuk menemukan dependensi antar fitur.

Damian
sumber
0

Menemukan set fitur yang optimal bisa sangat mahal secara komputasi. Kategori utama dari solusi yang tersedia dapat dikelompokkan dalam dua set: baik mengikat ke classifier tertentu (Wrappers) atau peringkat fitur sederhana berdasarkan beberapa kriteria (metode Filter).

Berdasarkan kebutuhan Anda (cepat / non-parametrik / non-linear) mungkin Anda memerlukan kandidat dari metode Filter. Ada beberapa contoh yang dijelaskan dalam literatur . Misalnya Penguatan Informasi - yang mengevaluasi nilai atribut dengan mengukur perolehan informasi sehubungan dengan kelas; atau Korelasi yang mengevaluasi nilai atribut berdasarkan pada korelasi antara atribut dan kelas.

Metode wrapper mengikat ke classifier dan mungkin berakhir ke set fitur yang lebih baik untuk classifier yang menarik. Karena sifatnya (pelatihan / pengujian penuh dalam setiap iterasi), mereka tidak dapat dianggap cepat atau non-parametrik, namun mereka dapat menangani hubungan fitur non-linear (persyaratan 3 Anda). Contohnya adalah Penghapusan Fitur Rekursif yang didasarkan pada SVM, sehingga target memaksimalkan margin antara kelas-kelas dan dapat menangani hubungan fitur non-linear (menggunakan kernel non-linear).

iliasfl
sumber