Klasifikasi dengan satu prediktor dominan

9

Saya memiliki masalah klasifikasi ( -class), dengan urutan 100 prediktor nilai nyata, salah satunya tampaknya memiliki kekuatan penjelas yang lebih banyak daripada yang lain. Saya ingin masuk lebih dalam ke efek dari variabel lain. Namun, teknik pembelajaran mesin standar (hutan acak, SVM, dll) tampaknya dibanjiri oleh satu peramal yang kuat dan tidak memberi saya banyak informasi menarik tentang yang lain.k

Jika ini adalah masalah regresi, saya hanya akan mundur terhadap prediktor yang kuat dan kemudian menggunakan residu sebagai input untuk algoritma lain. Saya tidak benar-benar melihat bagaimana pendekatan ini dapat diterjemahkan ke dalam konteks klasifikasi.

Naluri saya adalah bahwa masalah ini harus cukup umum: apakah ada teknik standar untuk menghadapinya?

Martin O'Leary
sumber

Jawaban:

2

Untuk masalah 2-kelas, Anda dapat menggunakan paket GBM di R , yang secara iteratif akan menyesuaikan pohon klasifikasi dengan residu dari fungsi kehilangan. Sayangnya itu belum mendukung masalah multi-kelas.

Ini sepertinya masalah yang cocok untuk meningkatkan, tapi saya tidak tahu ada paket peningkatan yang mendukung masalah kelas-k. Saya pikir masalahnya adalah menulis fungsi kerugian yang sesuai untuk beberapa kelas. glmnetPaket - paket memiliki fungsi kehilangan multinomial, mungkin Anda dapat melihat melalui kode sumber untuk beberapa petunjuk.

Anda bisa mencoba menulis algoritma peningkatan Anda sendiri, atau Anda bisa mengubah masalah Anda menjadi masalah klasifikasi biner (satu kelas vs semua kelas lainnya), muat model gbm untuk setiap masalah, dan rata-rata probabilitas kelas dari masing-masing model.

Zach
sumber
2
Zach Tidak yakin di mana itu berada dalam stabilitas pembangunan, tetapi GBM di R Forge memiliki multinomial logistik sebagai fungsi kerugian yang memungkinkan klasifikasi multi kategori.
B_Miner
Terima kasih! Saya setuju bahwa meningkatkan kemungkinan menjadi cara yang baik untuk mendekati ini, dan saya akan melihat ke hal-hal yang Anda sarankan. Saya masih tertarik untuk mengetahui apakah ada cara yang baik untuk mengatasi ini dengan mengubah masalah.
Martin O'Leary
@ Zak, Tolong beri tahu saya cara kerjanya.
B_Miner