Saya baru belajar mesin. Saya menerapkan regresi logistik dan hutan acak pada dataset yang sama. Jadi saya mendapatkan variabel penting (koefisien absolut untuk regresi logistik dan variabel penting untuk hutan acak). Saya berpikir untuk menggabungkan keduanya untuk mendapatkan kepentingan variabel akhir. Adakah yang bisa berbagi pengalamannya? Saya sudah memeriksa bagging, boosting, modeling ansambel, tetapi bukan itu yang saya butuhkan. Mereka lebih menggabungkan informasi untuk model yang sama di seluruh ulangan. Apa yang saya cari adalah untuk menggabungkan hasil dari beberapa model.
machine-learning
logistic
random-forest
pengguna1946504
sumber
sumber
Jawaban:
Mungkin tergantung pada apa Anda ingin menggunakan variabel penting untuk. Apakah akan digunakan sebagai kriteria untuk pemilihan fitur untuk model klasifikasi ketiga? Dalam hal ini Anda dapat mencoba untuk menghitung rata-rata tertimbang kepentingan variabel (mungkin setelah menormalkan masing-masing variabel penting vektor untuk panjang unit) untuk berbagai nilai dan bobot rata-rata dan kemudian mengambil nilai yang menghasilkan skor tervalidasi silang terbaik untuk final model.
Adapun untuk menggabungkan hasil dari model regresi logistik dan model hutan acak (tanpa mempertimbangkan variabel penting), posting blog berikut ini sangat informatif dan menunjukkan bahwa rata-rata tunggal output adalah metode ensemble sederhana namun sangat efektif untuk model regresi.
sumber
(Mengomentari respons dan umpan balik di atas)
Terima kasih sudah membaca blog!
Fungsi cross-entropy error memiliki sedikit cheat, memotong nilai prediksi ke [1e-10, 1-1e-10] sebagai cara yang murah dan mudah untuk mencegah kesalahan dalam fungsi log. Kalau tidak, ini adalah formula standar.
Untuk dataset, sangat mungkin untuk memiliki dataset di mana hutan acak jauh lebih unggul daripada log. reg. dan log. reg. tidak menambahkan apa pun pada ansambel. Pastikan, tentu saja, bahwa Anda menggunakan data penahan - hutan acak hampir selalu memiliki hasil unggul pada data pelatihan karena memiliki parameter yang jauh lebih efektif.
sumber