Tampaknya menjadi aksiomatis bahwa ansambel peserta didik mengarah ke hasil model terbaik - dan itu menjadi jauh lebih jarang, misalnya, untuk model tunggal untuk memenangkan kompetisi seperti Kaggle. Apakah ada penjelasan teoretis mengapa ansambel sangat efektif?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
sumber
sumber
Jawaban:
Untuk model tertentu Anda memasukkan data, pilih fitur, pilih hyperparameters dan sebagainya. Dibandingkan dengan kenyataan itu membuat tiga jenis kesalahan:
Ensemble rata-rata mengeluarkan sejumlah model ini. Bias karena bias pengambilan sampel tidak akan diperbaiki karena alasan yang jelas, itu dapat memperbaiki beberapa bias kompleksitas model, namun kesalahan varians yang dibuat sangat berbeda dari model yang berbeda. Terutama model berkorelasi rendah membuat kesalahan yang sangat berbeda dalam bidang ini, model tertentu berkinerja baik di bagian tertentu dari ruang fitur Anda. Dengan rata-rata keluar model ini Anda mengurangi varians ini sedikit. Inilah sebabnya ansambel bersinar.
sumber
Jawaban yang dipilih sangat fantastis, tetapi saya ingin menambahkan dua hal:
sumber
Ensemble menang berdasarkan prediksi karena alasan teoretis dan praktis.
Ada teori fundamental tentang peramalan optimal, jika kita bermaksud memprediksi peristiwa berikutnya secara berurutan berdasarkan pengetahuan tentang peristiwa sebelumnya. Prediksi Solomonoff (Solomonoff 1964) terbukti optimal dalam beberapa hal, termasuk bahwa ia "akan belajar untuk memprediksi dengan benar setiap urutan yang dapat dihitung dengan hanya jumlah minimum data absolut." (Hutter, Legg & Vitanyi 2007) Prediktor Solomonoff menimbang semua program yang kompatibel dengan data yang ada, sesuai dengan kompleksitas Kolmogorov program dan probabilitas yang diberikan program pada data sejauh ini, menggabungkan filosofi Epicurean ("simpan semua teori") dan Ockham ("lebih suka teori sederhana") dalam kerangka Bayesian.
Sifat optimalitas prediksi Solomonoff menjelaskan temuan kuat yang Anda lihat: rata-rata atas model, sumber, atau pakar meningkatkan prediksi, dan prediksi rata-rata mengungguli bahkan prediktor tunggal terbaik. Berbagai metode ansambel yang terlihat dalam praktik dapat dilihat sebagai perkiraan yang dapat dihitung untuk prediksi Solomonoff - dan beberapa seperti MML (Wallace 2005) secara eksplisit mengeksplorasi ikatan, meskipun sebagian besar tidak.
Wallace (2005) mencatat bahwa prediktor Solomonoff tidak pelit - ia menyimpan kumpulan model yang tak terbatas - tetapi sebagian besar daya prediktif pasti jatuh ke seperangkat model yang relatif kecil. Dalam beberapa domain model terbaik tunggal (atau keluarga model yang hampir tidak dapat dibedakan) dapat menjelaskan sebagian besar daya prediksi dan mengungguli ansambel generik, tetapi dalam domain kompleks dengan sedikit teori kemungkinan besar tidak ada keluarga yang menangkap sebagian besar probabilitas posterior, dan karenanya rata-rata kandidat yang masuk akal harus meningkatkan prediksi. Untuk memenangkan hadiah Netflix, tim Bellkor memadukan lebih dari 450 model (Koren 2009).
Manusia biasanya mencari penjelasan yang bagus: dalam domain "teori tinggi" seperti fisika, ini bekerja dengan baik. Memang jika mereka menangkap dinamika kausal yang mendasarinya, mereka seharusnya hampir tidak terkalahkan. Tetapi ketika teori yang tersedia tidak sesuai dengan fenomena (katakanlah, rekomendasi film atau geopolitik), model tunggal akan berkinerja buruk: semua tidak lengkap, jadi tidak ada yang mendominasi. Demikianlah penekanan terakhir pada ansambel (untuk pembelajaran mesin) dan Wisdom of the Crowds (untuk para ahli), dan keberhasilan program-program seperti IARPA ACE dan secara khusus Good Judgment Project (Tetlock & Gardiner 2015).
Referensi
sumber