Bagaimana penggolong ensemble menggabungkan prediksi penggolong konstituennya? Saya mengalami kesulitan menemukan deskripsi yang jelas. Dalam beberapa contoh kode yang saya temukan, ansambel hanya memperkirakan rata-rata, tetapi saya tidak melihat bagaimana ini bisa membuat akurasi keseluruhan yang "lebih baik".
Pertimbangkan kasus berikut. Penggolong ensemble terdiri dari 10 pengklasifikasi. Satu classifier memiliki akurasi 100% dari waktu dalam subset data X, dan 0% semua waktu lainnya. Semua pengklasifikasi lain memiliki akurasi 0% dalam subset data X, dan 100% semua waktu lainnya.
Menggunakan rumus rata-rata, di mana akurasi classifier diabaikan, classifier ensemble akan memiliki, paling baik, akurasi 50%. Apakah ini benar, atau saya kehilangan sesuatu? Bagaimana mengambil prediksi rata-rata dari N pengklasifikasi yang mungkin tidak mengerti mungkin dapat membuat prediksi yang lebih baik daripada pengklasifikasi tunggal yang ahli dalam domain tertentu?
Anda melewatkan fakta bahwa penggolong "buruk" tidak memiliki keakuratan 0%, tetapi itu tidak jauh lebih baik daripada menebak secara acak.
Dengan cara ini, prediksi yang baik selalu sama dan terakumulasi (karena kebenarannya hanya satu) sedangkan prediksi yang buruk adalah noise acak yang rata-rata keluar.
sumber
Dalam hal klasifikasi pada umumnya ada dua cara untuk menetapkan prediksi. Katakanlah ini adalah masalah klasifikasi kelas biner dan Anda memiliki 3 model untuk ensemble yang disebut m1, m2 dan m3 dan dataset pelatihan disebut train dan dataset pengujian disebut test. Model sudah dibangun di atas kereta. Kemudian kode python akan seperti berikut.
Metode pertama adalah mengambil putaran rata-rata
Jadi output akan menjadi vektor dengan nilai 0 dan 1
Metode kedua adalah ensemble probabilitas prediksi masing-masing kelas dari model-model ini dan ensemble itu dan kemudian memutuskan kelas baik berdasarkan ambang keras atau logika.
iterate melalui seluruh vektor pred_proba untuk menemukan mana dalam 0 dan yang 1 adalah 1 mendasarkan pada ambang keras 0,5
Jadi pred adalah prediksi ensembel terakhir.
sumber