Ensemble Learning: Mengapa Model Stacking Efektif?

Baru-baru ini, saya menjadi tertarik pada model susun sebagai bentuk pembelajaran ansambel. Secara khusus, saya telah bereksperimen sedikit dengan beberapa dataset mainan untuk masalah regresi. Saya pada dasarnya telah mengimplementasikan individual "level 0" regressor, menyimpan prediksi output masing-masing regressor sebagai fitur baru untuk "meta-regressor" sebagai inputnya, dan menyesuaikan meta-regressor ini pada fitur-fitur baru ini (prediksi dari level 0 regresi). Saya sangat terkejut melihat bahkan sedikit perbaikan pada individu regressor ketika menguji meta-regressor terhadap set validasi.

Jadi, inilah pertanyaan saya: mengapa model susun efektif? Secara intuitif, saya berharap model melakukan susun untuk berkinerja buruk karena tampaknya memiliki representasi fitur yang miskin dibandingkan dengan masing-masing model level 0. Yaitu, jika saya melatih 3 regresor level 0 pada set data dengan 20 fitur, dan menggunakan prediksi regresor level 0 ini sebagai input untuk meta-regressor saya, ini berarti meta-regressor saya hanya memiliki 3 fitur untuk dipelajari. Sepertinya ada lebih banyak informasi yang dikodekan dalam 20 fitur asli yang dimiliki oleh level 0 regressor untuk pelatihan daripada 3 fitur output yang digunakan meta-regressor untuk pelatihan.

machine-learning ensemble stacking kylerthecreator
sumber

Jawaban:

Pikirkan ensembling sebagai eksploitasi teorema limit pusat.

Teorema batas pusat secara longgar mengatakan bahwa, ketika ukuran sampel meningkat, rata-rata sampel akan menjadi perkiraan yang semakin akurat dari lokasi sebenarnya dari rata-rata populasi (dengan asumsi itu adalah statistik yang Anda lihat), dan varians akan diperketat .

Jika Anda memiliki satu model dan menghasilkan satu prediksi untuk variabel dependen Anda, prediksi itu kemungkinan akan tinggi atau rendah hingga taraf tertentu. Tetapi jika Anda memiliki 3 atau 5 atau 10 model berbeda yang menghasilkan prediksi berbeda, untuk setiap pengamatan yang diberikan, prediksi tinggi dari beberapa model akan cenderung untuk mengimbangi kesalahan rendah dari beberapa model lain, dan efek bersihnya akan menjadi konvergensi rata-rata (atau kombinasi lainnya) dari prediksi ke arah "kebenaran." Tidak pada setiap pengamatan, tetapi pada umumnya itulah kecenderungannya. Dan, pada umumnya, sebuah ensemble akan mengungguli model tunggal terbaik.

Doug Dame
sumber