Bagaimana cara menggabungkan hasil regresi logistik dan hutan acak?

12

Saya baru belajar mesin. Saya menerapkan regresi logistik dan hutan acak pada dataset yang sama. Jadi saya mendapatkan variabel penting (koefisien absolut untuk regresi logistik dan variabel penting untuk hutan acak). Saya berpikir untuk menggabungkan keduanya untuk mendapatkan kepentingan variabel akhir. Adakah yang bisa berbagi pengalamannya? Saya sudah memeriksa bagging, boosting, modeling ansambel, tetapi bukan itu yang saya butuhkan. Mereka lebih menggabungkan informasi untuk model yang sama di seluruh ulangan. Apa yang saya cari adalah untuk menggabungkan hasil dari beberapa model.

pengguna1946504
sumber
5
Pemodelan ensemble juga dapat menggabungkan model. Lihatlah ke dalam pemungutan suara mayoritas misalnya. Lihat juga, menumpuk.
tepuk
4
Sebenarnya, menggunakan ukuran koefisien bukanlah cara yang baik untuk menentukan "variabel penting" dalam regresi logistik. Bahkan jika Anda melihat koefisien terstandarisasi, itu bukan metode yang baik. Mengapa? Ingat bahwa koefisien hanya perkiraan dan ada kesalahan yang terkait dengannya. Memilih koefisien berdasarkan ukuran berarti Anda memilih yang Anda perkirakan secara berlebihan ukuran koefisien dan menjatuhkan koefisien yang Anda perkirakan di bawah ukuran koefisien.
user765195

Jawaban:

12

Mungkin tergantung pada apa Anda ingin menggunakan variabel penting untuk. Apakah akan digunakan sebagai kriteria untuk pemilihan fitur untuk model klasifikasi ketiga? Dalam hal ini Anda dapat mencoba untuk menghitung rata-rata tertimbang kepentingan variabel (mungkin setelah menormalkan masing-masing variabel penting vektor untuk panjang unit) untuk berbagai nilai dan bobot rata-rata dan kemudian mengambil nilai yang menghasilkan skor tervalidasi silang terbaik untuk final model.

Adapun untuk menggabungkan hasil dari model regresi logistik dan model hutan acak (tanpa mempertimbangkan variabel penting), posting blog berikut ini sangat informatif dan menunjukkan bahwa rata-rata tunggal output adalah metode ensemble sederhana namun sangat efektif untuk model regresi.

ogrisel
sumber
1
Terimakasih atas balasan anda. Blog yang Anda sebutkan adalah studi yang sangat menarik. Saya pikir saya punya ide. Satu-satunya kekhawatiran adalah formula cross entropy-nya. Tampaknya berbeda dengan yang saya temukan online. Nya menggunakan: cross.entropy <- fungsi (target, prediksi) {prediksi = pmax (1e-10, pmin (1-1e-10, prediksi)) - jumlah (target * log (prediksi) + (1 - target) * log (1 - prediksi))}
user1946504
2
dan ketika saya menerapkan ide yang sama ke dataset saya sendiri, saya menggunakan kesalahan klasifikasi kesalahan sebagai kriteria, plotnya tidak ada yang sama. Hutan acak ternyata jauh lebih baik daripada regresi logistik. kesalahan kesalahan klasifikasi RF adalah 0,2, untuk LR adalah 0,4. Pada saat yang sama, AUC untuk RF adalah 0,8, untuk LR adalah 0,73.
user1946504
5

(Mengomentari respons dan umpan balik di atas)

Terima kasih sudah membaca blog!

Fungsi cross-entropy error memiliki sedikit cheat, memotong nilai prediksi ke [1e-10, 1-1e-10] sebagai cara yang murah dan mudah untuk mencegah kesalahan dalam fungsi log. Kalau tidak, ini adalah formula standar.

Untuk dataset, sangat mungkin untuk memiliki dataset di mana hutan acak jauh lebih unggul daripada log. reg. dan log. reg. tidak menambahkan apa pun pada ansambel. Pastikan, tentu saja, bahwa Anda menggunakan data penahan - hutan acak hampir selalu memiliki hasil unggul pada data pelatihan karena memiliki parameter yang jauh lebih efektif.

OverKAnalitik
sumber