Apa pilihan variabel / fitur yang Anda sukai untuk klasifikasi biner ketika ada lebih banyak variabel / fitur daripada pengamatan dalam set pembelajaran? Tujuannya di sini adalah untuk membahas prosedur pemilihan fitur apa yang mengurangi kesalahan klasifikasi terbaik.
Kita dapat memperbaiki notasi untuk konsistensi: untuk , mari menjadi kumpulan pembelajaran pengamatan dari grup . Jadi adalah ukuran set pembelajaran. Kami menetapkan menjadi jumlah fitur (yaitu dimensi ruang fitur). Misalkan menunjukkan koordinat ke- dari .{ x i 1 , … , x i n i } i n 0 + n 1 = n p x [ i ] i x ∈ R p
Tolong berikan referensi lengkap jika Anda tidak bisa memberikan detailnya.
EDIT (diperbarui terus menerus): Prosedur diusulkan dalam jawaban di bawah ini
- Greedy forward selection Prosedur pemilihan variabel untuk klasifikasi biner
- Eliminasi mundur Prosedur pemilihan variabel untuk klasifikasi biner
- Pemindaian Metropolis / MCMC Prosedur pemilihan variabel untuk klasifikasi biner
- regresi logistik dihukum Prosedur pemilihan variabel untuk klasifikasi biner
Karena ini adalah komunitas wiki, akan ada lebih banyak diskusi dan pembaruan
Saya punya satu komentar: dalam arti tertentu, Anda semua memberikan prosedur yang mengizinkan pemesanan variabel tetapi tidak pemilihan variabel (Anda cukup mengelak tentang cara memilih jumlah fitur, saya kira Anda semua menggunakan validasi silang?) Dapatkah Anda meningkatkan jawaban ke arah ini? (karena ini adalah komunitas wiki Anda tidak perlu menjadi penulis jawaban untuk menambahkan informasi tentang cara memilih jumlah variabel? Saya telah membuka pertanyaan ke arah ini di sini Validasi silang dalam dimensi yang sangat tinggi (untuk memilih jumlah variabel yang digunakan dalam klasifikasi dimensi yang sangat tinggi) )
sumber
Jawaban:
Sebuah pendekatan yang sangat populer adalah regresi logistik yang dihukum, di mana seseorang memaksimalkan jumlah kemungkinan log dan istilah hukuman yang terdiri dari norma-L1 ("laso"), norma-L2 ("punggung"), kombinasi keduanya. ("elastis"), atau penalti yang terkait dengan grup variabel ("grup laso"). Pendekatan ini mempunyai beberapa keuntungan:
sumber
Saya memiliki sedikit preferensi untuk Hutan Acak oleh Leo Breiman & Adele Cutleer karena beberapa alasan:
Beberapa penulis berpendapat bahwa itu dilakukan serta dihukum SVM atau Gradient Boosting Machines (lihat, misalnya Cutler et al., 2009, untuk poin terakhir).
Cakupan lengkap aplikasi atau keuntungannya mungkin di luar topik, jadi saya sarankan Elemen Pembelajaran Statistik dari Hastie et al. (bab 15) dan Sayes et al. (2007) untuk bacaan lebih lanjut.
Last but not least, ia memiliki implementasi yang bagus di R, dengan paket randomForest . Paket R lainnya juga memperluas atau menggunakannya, mis. Pesta dan tanda sisipan .
Referensi:
Cutler, A., Cutler, DR, dan Stevens, JR (2009). Metode Berbasis Pohon, dalam Analisis Data Dimensi Tinggi dalam Penelitian Kanker , Li, X. dan Xu, R. (eds.), Hlm. 83-101, Springer.
Saeys, Y., Inza, I., dan Larrañaga, P. (2007). Tinjauan teknik pemilihan fitur dalam bioinformatika. Bioinformatika , 23 (19) : 2507-2517.
sumber
Pemindaian Metropolis / MCMC
dE
perbedaan kesalahan pada set baru dikurangi kesalahan pada set sebelumnya.min(1;exp(-beta*dE))
menerima perubahan ini, jika tidak tolak dan coba perubahan acak lainnya.Anda dapat memperluasnya dengan kontrol
beta
parameter yang lebih bijaksana . Cara yang lebih sederhana adalah dengan menggunakan simulasi anil ketika Anda meningkatkanbeta
(menurunkan suhu dalam analogi fisik) dari waktu ke waktu untuk mengurangi fluktuasi dan mendorong algoritma ke minimum. Lebih sulit adalah menggunakan pertukaran replika .sumber
Jika Anda hanya tertarik pada kinerja generalisasi, Anda mungkin lebih baik tidak melakukan pemilihan fitur dan menggunakan regularisasi sebagai gantinya (misalnya regresi ridge). Ada beberapa tantangan terbuka di komunitas pembelajaran mesin tentang pemilihan fitur, dan metode yang mengandalkan regularisasi daripada pemilihan fitur yang umumnya berkinerja paling baik juga, jika tidak lebih baik.
sumber
Pilihan maju serakah.
Langkah-langkah untuk metode ini adalah:
sumber
Eliminasi mundur.
Mulailah dengan set lengkap, kemudian latih classifier pada fitur yang tersisa dan hapus fitur dengan kepentingan terkecil, berhenti ketika kesalahan classifier dengan cepat meningkat / menjadi tinggi yang tidak dapat diterima.
Pentingnya bahkan dapat diperoleh dengan menghapus secara iteratif setiap fitur dan memeriksa peningkatan kesalahan atau diadaptasi dari pengklasifikasi jika memproduksinya (seperti dalam kasus Hutan Acak).
sumber
(n - k - p) / (k - 1) * ...
dengann
jumlah pengamatan,k
jumlah kelas (2 di sini) danp
jumlah variabel.n - 2 - p < 0
kapann < p + 2
(yang terjadi di sini) yang mengarah keF < 0
. Bukankah itu akan menjadi masalah?