Pada "kekuatan" peserta didik yang lemah

22

Saya memiliki beberapa pertanyaan yang berkaitan erat tentang pelajar yang lemah dalam pembelajaran ensemble (misalnya meningkatkan).

  1. Ini mungkin terdengar bodoh, tetapi apa manfaat menggunakan yang lemah sebagai lawan dari pelajar yang kuat? (mis. mengapa tidak meningkatkan dengan metode pembelajaran "kuat"?)
  2. Apakah ada semacam kekuatan "optimal" untuk peserta didik yang lemah (mis. Sambil menjaga semua parameter ensemble lainnya tetap)? Apakah ada "sweet spot" dalam hal kekuatan mereka?
  3. Bagaimana kita bisa mengukur kekuatan pelajar yang lemah sehubungan dengan metode ensemble yang dihasilkan. Bagaimana kita mengukur secara kuantitatif manfaat marjinal dari menggunakan sebuah ensemble?
  4. Bagaimana kita membandingkan beberapa algoritma pembelajaran yang lemah untuk memutuskan mana yang akan digunakan untuk metode ensemble yang diberikan?
  5. Jika metode ensemble tertentu membantu pengklasifikasi lemah lebih dari yang kuat, bagaimana kita memberi tahu classifier yang diberikan sudah "terlalu kuat" untuk menghasilkan keuntungan signifikan saat meningkatkannya?
Amelio Vazquez-Reina
sumber

Jawaban:

16

Ini mungkin lebih dalam semangat mengantongi, namun demikian:

  • Jika Anda benar-benar memiliki pembelajar yang kuat, tidak perlu memperbaikinya dengan hal-hal ensemble.
  • Saya akan mengatakan ... tidak relevan. Dalam pencampuran dan pengepakan sepele, dalam meningkatkan pembuatan penggolong terlalu kuat dapat menyebabkan beberapa pelanggaran dalam konvergensi (yaitu prediksi keberuntungan dapat membuat iterasi berikutnya untuk memprediksi kebisingan murni dan dengan demikian menurunkan kinerja), tetapi ini biasanya diperbaiki dalam melanjutkan iterasi.
  • Sekali lagi, ini bukan masalah sebenarnya. Inti dari metode itu adalah untuk

    1. memaksa penggolong parsial untuk melihat lebih dalam masalah.
    2. bergabung dengan prediksi mereka untuk melemahkan kebisingan dan memperkuat sinyal.

    1) membutuhkan perhatian dalam meningkatkan (yaitu skema peningkatan yang baik, pembelajar parsial yang berperilaku baik - tetapi ini sebagian besar harus dinilai dengan eksperimen pada seluruh dorongan), 2) dalam mengantongi dan memadukan (kebanyakan bagaimana memastikan kurangnya korelasi antara peserta didik dan jangan terlalu banyak memuji ansambel). Selama ini OK, akurasi classifier parsial adalah masalah urutan ketiga.


sumber
Terima kasih @ mbq. Apakah di atas berarti bahwa pengklasifikasi lemah biasanya mendapat manfaat lebih dari metode ensemble daripada yang kuat? (Yaitu meningkatkan membantu pengklasifikasi lemah lebih dari yang kuat). Dalam pengertian ini, bagaimana kita tahu classifier yang diberikan sudah cukup kuat untuk metode ensemble tertentu? (mis. bagaimana Anda dapat secara kasar memberi tahu Anda memiliki pelajar yang kuat yang tidak akan mendapat banyak manfaat dari peningkatan?)
Amelio Vazquez-Reina
1
Alih-alih hanya pengklasifikasi lemah yang memberi ruang untuk perbaikan. Secara umum kekuatan adalah kualitas abstrak dan kita tidak bisa mengukurnya. Satu-satunya tes tertentu adalah hanya untuk melakukan percobaan dan memeriksa apakah ensembing secara signifikan meningkatkan kinerja. Jika demikian, classifier lemah. Jika tidak, yah, kita masih belum tahu apa-apa.
11

Pertama, pengertian "lemah" dan "kuat" hanya didefinisikan dengan lemah. Dari sudut pandang saya, mereka harus didefinisikan relatif terhadap pengklasifikasi Bayes yang optimal, yang merupakan target dari setiap algoritma pelatihan. Dengan mengingat hal ini, balasan saya untuk tiga poin adalah sebagai berikut.

  1. Komputasi seperti yang saya lihat. Sebagian besar peserta didik yang lemah saya tahu adalah komputasi cepat (dan sebaliknya tidak layak dipertimbangkan). Poin utama dalam ensemble learning adalah kita dapat menggabungkan pelajar yang sederhana dan cepat, tetapi tidak begitu baik, dan meningkatkan tingkat kesalahan. Jika kita menggunakan pembelajar yang lebih kuat (dan lebih menuntut komputasi) ruang untuk peningkatan menjadi lebih kecil namun biaya komputasi menjadi lebih besar, yang membuat penggunaan metode ensemble menjadi kurang menarik. Selain itu, pelajar yang kuat mungkin lebih mudah untuk ditafsirkan. Namun, apa yang lemah dan apa yang kuat tergantung pada masalah dan tingkat Bayes optimal yang kami coba capai. Oleh karena itu, jika pelajar yang sering dianggap kuat masih menyisakan ruang untuk peningkatan ketika meningkatkannya dan meningkatkan secara komputasi layak, maka lakukan peningkatan ...
  2. Ini akan tergantung pada kriteria yang Anda gunakan untuk mengukur "optimal". Dalam hal tingkat kesalahan saya akan mengatakan tidak (saya menerima koreksi jika orang lain memiliki pengalaman yang berbeda). Dalam hal kecepatan, mungkin, tetapi saya akan membayangkan bahwa ini sangat tergantung pada masalah. Saya tidak tahu literatur apa pun yang membahas hal ini, maaf.
  3. ?
  4. Validasi silang, validasi silang, validasi silang. Seperti halnya perbandingan metode pelatihan lainnya dengan tujuan membuat prediksi, kita memerlukan perkiraan yang tidak bias dari kesalahan generalisasi untuk perbandingan, yang dapat dicapai dengan mengesampingkan kumpulan data uji atau memperkirakannya dengan validasi silang.
NRH
sumber
Terima kasih @NRH, itu sangat membantu. Saya telah memisahkan pertanyaan ketiga menjadi dua pertanyaan terpisah, karena saya pikir mereka mungkin memerlukan jawaban yang berbeda.
Amelio Vazquez-Reina
Jadi adakah cara untuk mengetahui seberapa dekat classifier dengan classifier Bayes yang optimal? Jika sudah cukup dekat maka kita tidak bisa memperbaikinya.
highBandWidth
@HighBandWidth, tidak mungkin untuk mengetahui berapa bayes rate. Ini adalah kuantitas teoretis yang bergantung pada distribusi yang tidak diketahui. Asumsi teoritis dapat memberikan batas bawah dan atas (asimptotik), dan dengan menggunakan validasi silang atau data uji independen, dimungkinkan untuk memperkirakan batas atas secara akurat. Tetapi kecuali Anda tahu distribusinya, tidak mungkin untuk mengetahui apakah batas atas seperti itu ketat atau meninggalkan ruang untuk perbaikan.
NRH