Apa jaminan teoritis mengantongi

17

Saya (kurang-lebih) pernah mendengar bahwa:

bagging adalah teknik untuk mengurangi varians dari algoritma prediktor / estimator / pembelajaran.

Namun, saya belum pernah melihat bukti matematis formal dari pernyataan ini. Adakah yang tahu mengapa ini benar secara matematis? Sepertinya fakta yang diterima / diketahui secara luas, sehingga saya akan mengharapkan referensi langsung untuk ini. Saya akan terkejut jika tidak ada. Juga, apakah ada yang tahu apa efeknya terhadap bias ini?

Apakah ada jaminan teoretis lain dari pendekatan mengantongi bahwa ada yang tahu dan berpikir penting dan ingin membagikannya?

Charlie Parker
sumber

Jawaban:

21

Kasus penggunaan utama untuk mengantongi adalah mengurangi varians dari model yang bias rendah dengan menyatukannya. Ini dipelajari secara empiris dalam makalah tengara " Sebuah Perbandingan Empiris Algoritma Klasifikasi Voting: Bagging, Boosting, dan Varian " oleh Bauer dan Kohavi . Biasanya berfungsi seperti yang diiklankan.

Namun, bertentangan dengan kepercayaan populer, mengantongi tidak dijamin untuk mengurangi varians . Penjelasan yang lebih baru dan (menurut saya) yang lebih baik adalah bahwa mengantongi mengurangi pengaruh poin leverage. Leverage poin adalah mereka yang secara tidak proporsional mempengaruhi model yang dihasilkan, seperti outlier dalam regresi kuadrat-terkecil. Jarang tetapi mungkin untuk poin leverage untuk secara positif mempengaruhi model yang dihasilkan, dalam hal ini mengantongi mengurangi kinerja. Lihatlah " Bagging equalizes pengaruh " oleh Grandvalet .

Jadi, untuk akhirnya menjawab pertanyaan Anda: efek mengantongi sangat tergantung pada poin leverage. Beberapa jaminan teoritis ada, kecuali bahwa mengantongi secara linear meningkatkan waktu perhitungan dalam hal ukuran tas! Yang mengatakan, itu masih merupakan teknik yang banyak digunakan dan sangat kuat. Ketika belajar dengan label noise, misalnya, mengantongi dapat menghasilkan pengklasifikasi yang lebih kuat .

Rao dan Tibshirani telah memberikan interpretasi Bayesian dalam " Metode out-of-bootstrap untuk model rata-rata dan seleksi " :

Dalam pengertian ini, distribusi bootstrap mewakili (perkiraan) distribusi posterior nonparametrik, non-informatif untuk parameter kami. Tetapi distribusi bootstrap ini diperoleh tanpa rasa sakit - tanpa harus secara formal menentukan sebelum dan tanpa harus mengambil sampel dari distribusi posterior. Karena itu, kita mungkin menganggap distribusi bootstrap sebagai posterior Bayes orang miskin.

Marc Claesen
sumber
1
Bagaimana penjelasan 'poin leverage' berlaku untuk pohon, yang sering direkomendasikan untuk mengantongi? Sementara itu jelas apa poin leverage yang tinggi untuk regresi linier, apa poin ini untuk pohon?
DavidR
menemukan referensi lain untuk pertanyaan ini: quora.com/… bagaimana menurutmu? Apakah ini bertentangan dengan fakta yang Anda katakan tidak mengurangi varians secara teoritis?
Charlie Parker
Saya melihat bahwa wikipedia mengatakan bahwa mengantongi (agregasi bootstrap) menurunkan varian. Jika tidak ada bukti teoretis untuk ini, apakah ini berarti artikel itu salah?
Charlie Parker
Dalam kebanyakan kasus, mengantongi varian yang lebih rendah tetapi itu bukan mekanisme yang sebenarnya. Grandvalet telah menunjukkan contoh-contoh di mana ia meningkatkan varians, dan mengilustrasikan bahwa mekanisme itu lebih dekat terkait dengan menyamakan pengaruh titik data yang sangat mempengaruhi model, seperti outlier dalam regresi kuadrat-terkecil, yang dalam banyak kasus mengurangi varians.
Marc Claesen