Saya memiliki data dengan beberapa ribu fitur dan saya ingin melakukan pemilihan fitur rekursif (RFE) untuk menghapus yang tidak informatif. Saya melakukan ini dengan tanda sisipan dan RFE. Namun, saya mulai berpikir, jika saya ingin mendapatkan kecocokan regresi terbaik (hutan acak, misalnya), kapan saya harus melakukan penyetelan parameter ( mtry
untuk RF)? Yaitu, seperti yang saya pahami caret melatih RF berulang kali pada himpunan bagian fitur yang berbeda dengan mtry tetap. Saya kira yang optimal mtry
harus ditemukan setelah pemilihan fitur selesai, tetapi akankah mtry
nilai yang menggunakan caret mempengaruhi subset fitur yang dipilih? Menggunakan tanda sisipan dengan rendah mtry
jauh lebih cepat, tentu saja.
Semoga ada yang bisa menjelaskan hal ini kepada saya.
Jawaban:
Satu hal yang mungkin ingin Anda perhatikan adalah hutan acak yang diatur, yang secara khusus dirancang untuk pemilihan fitur. Makalah ini menjelaskan konsepnya, dan bagaimana mereka berbeda dari hutan acak normal
Seleksi Fitur melalui Pohon yang Diatur
Ada juga paket CRAN RRF yang dibangun di atas randomForest yang akan memungkinkan Anda untuk mengimplementasikannya dengan mudah di R. Saya sendiri beruntung dengan metodologi ini.
Mengenai pertanyaan awal Anda, satu-satunya saran yang bisa saya berikan adalah bahwa jika Anda memiliki banyak collinearity maka Anda perlu menggunakan ukuran pohon yang lebih kecil. Ini memungkinkan algoritma untuk menentukan kepentingan dengan sedikit gangguan dari efek collinearity.
sumber
Anda mungkin dapat menggunakan
caretFuncs
Sesuatu seperti ini:Juga, seseorang dapat memeriksa
valSelRF
paket. Tidak yakin bagaimana perbedaannya dari yangregularized random forest
disebutkan di sini.sumber