Klasifikasi dasar untuk meningkatkan

8

Algoritma pendongkrak , seperti AdaBoost , menggabungkan beberapa pengklasifikasi 'lemah' untuk membentuk satu pengklasifikasi yang lebih kuat. Meskipun secara teori, peningkatan harus dimungkinkan dengan pengklasifikasi dasar, dalam praktiknya tampaknya pengklasifikasi berbasis pohon adalah yang paling umum.

Kenapa ini? Apa sifat pengklasifikasi pohon yang membuatnya paling cocok untuk tugas ini? Apakah ada pengklasifikasi dasar lain yang juga mendapat banyak manfaat dari peningkatan? Saya bertanya dengan masalah klasifikasi dalam pikiran, tetapi saya juga akan tertarik pada jawaban tentang aplikasi regresi.

Martin O'Leary
sumber

Jawaban:

10

Saya cukup yakin Anda benar dan bahwa tidak ada alasan yang mengharuskan menggunakan pohon keputusan alih-alih pengklasifikasi lainnya. Yang mengatakan, saya pikir ada beberapa alasan mengapa mereka sering digunakan. Kecepatan adalah salah satu faktor: Meningkatkan mungkin memerlukan pelatihan banyak pengklasifikasi. Jika masing-masing adalah jaringan saraf multi-layer raksasa, seluruh prosedur akan menjadi sangat lambat.

Lebih penting lagi, saya pikir pohon keputusan "cukup baik." Karena seluruh ide di balik meningkatkan kumpulan penggolongan lemah , tidak ada insentif besar untuk menjatuhkan solusi berat yang mungkin membutuhkan lebih banyak penyetelan (misalnya, mengutak-atik hyperparameter dan kernel untuk SVM).

Akhirnya, meningkatkan dan membuat pohon keputusan, setidaknya di kepala saya, agak mirip secara konseptual (misalnya, menambahkan node / membangun classifier baru). Banyak hal pembelajaran ensemble yang tampaknya menggunakan pohon. Saya pikir Anda bisa memiliki "hutan acak" pelajar Naive Bayes jika Anda benar-benar menginginkannya.

Matt Krause
sumber
1
Saya tidak benar-benar yakin tentang ini, tetapi utas ini sampai pada kesimpulan yang sama: stats.stackexchange.com/questions/13597/…
Matt Krause
Saya pikir kecepatan mungkin merupakan herring merah di sini - sebagian besar waktu saya lebih suka memiliki classifier yang lebih akurat daripada sesuatu yang sedikit lebih cepat untuk dilatih. Bagaimanapun, waktu CPU cukup murah saat ini.
Martin O'Leary
Benar, benar, meskipun daya tarik meningkatkan adalah Anda bisa mendapatkan prediksi cepat dan akurat dari metode yang hanya bisa biasanya memberi Anda prediksi cepat. Yang mengatakan, saya seharusnya menekankan mereka dalam urutan ini:> Kecepatan> kecepatan> Apa pun yang terjadi di kepala saya :-)
Matt Krause
Saya mengerti apa yang Anda katakan, tetapi saya masih merasa bahwa "cukup baik" adalah jawaban yang tidak memuaskan. Saya mengambil poin Anda tentang kurangnya mengutak-atik parameter hiper sekalipun.
Martin O'Leary
9

Ada beberapa karakteristik yang dapat menambah wawasan pemahaman metode ansambel.

Mengantongi

Mungkin metode ensemble yang paling sederhana, bagging, yang tidak lebih dari kumpulan pengklasifikasi homogen serupa yang dibangun di atas data pelatihan yang di-resampled dan disatukan dengan metode kombinasi, memperbaiki varian yang disebabkan oleh ketidakstabilan dalam pengklasifikasi dasar dengan rata-rata outputnya. Ensembel memanfaatkan ketidakstabilan ini untuk mengatasi komponen varians dari kesalahan pengklasifikasi dasar dan pada tingkat yang lebih rendah biasnya.

Anda dapat menganggap mengantongi sebagai memberikan tingkat perataan yang signifikan terhadap apa yang seharusnya menjadi pengklasifikasi dasar "lemah" yang sangat tidak stabil. Salah satu alasan, terlepas dari kecenderungan mereka terhadap efisiensi komputasi, mengapa pengklasifikasi yang lemah dipilih adalah karena mereka menunjukkan keanekaragaman yang lebih tinggi, yang adalah karakteristik yang bermanfaat bagi ansambel.

Jika Anda memvisualisasikan ansambel kantong penuh dengan pengklasifikasi stabil sangat kuat, mereka akan memiliki tingkat persetujuan yang sangat tinggi pada klasifikasi contoh mereka yang disajikan kepada ansambel. Akibatnya mereka semua memilih dengan cara yang sama. Sebuah komite di mana semua anggota memberikan suara yang sama memiliki sedikit kegunaan atas setiap anggota komite.

Jadi untuk bekerja secara efektif, sebuah ansambel harus merangkul tingkat keragaman di antara para anggotanya. Jelas sebuah komite anggota yang memunculkan pendapat yang hampir acak juga tidak berguna. Jadi beberapa posisi menengah antara ekstrem ini dicari.

Dalam praktiknya, karena tidak ada teori lengkap tentang subjek, kompromi ini ditemukan menggunakan metode empiris seperti validasi silang atau uji coba bertahan. Ini digunakan untuk mengukur kekuatan yang sesuai untuk pengklasifikasi dasar.

Karena pencarian untuk ansambel optimal biasanya melibatkan penyesuaian parameter dari pengklasifikasi dasar dan ansambel itu sendiri, maka diinginkan agar jumlah parameter tersebut dijaga sekecil mungkin. Jika tidak, dimensi ruang pencarian parameter dengan cepat berarti bahwa menemukan minimum global tidak dapat dikomputasi secara komputasi. Pohon keputusan adalah pilihan populer karena, seperti telah disebutkan, mereka dapat digunakan secara efektif tanpa harus menyetel parameternya.

Hutan Acak

Hutan acak, yang utamanya dikantongi pohon keputusan, memanfaatkan ketidakstabilan pohon yang signifikan dengan menyuntikkan komponen stokastik yang kuat [permutasi sejumlah fitur / faktor pada setiap simpul keputusan dalam pohon] untuk menciptakan keragaman dalam ansambel. Karena setiap simpul pohon disajikan dengan pilihan fitur acak baru, pohon sangat beragam. Ansambel kemudian memiliki efek rata-rata keluar varians dan bias dari beragam koleksi pohon.

Agar efektif "hutan acak" dari pengklasifikasi naif Bayes, atau pengklasifikasi basis stabil lainnya seperti SVM, perlu penambahan elemen stokastik. Untuk pengklasifikasi yang stabil variasi yang relatif kecil dalam data pelatihan, seperti yang timbul dari pengemasan, mengarah ke pengklasifikasian yang sangat mirip.

Untuk meningkatkan keragaman, pendekatan lain dapat diterapkan. Misalnya meng-permutasi fitur yang diperlihatkan ke setiap classifier dasar. Ini memiliki batasan bahwa keragaman yang tersedia tersedia untuk jumlah kombinasi dari set fitur. Setelah kombinasi telah habis, tidak ada pengklasifikasi baru yang tersedia untuk ansambel yang akan memberikan suara berbeda kepada anggota yang ada.

Untuk masalah dengan fitur yang relatif sedikit, ini sangat membatasi kumpulan pengklasifikasi yang tersedia. Adalah mungkin untuk menyuntikkan sumber-sumber keacakan lebih lanjut, misalnya dengan melakukan sub-sampel data pelatihan secara agresif. Buktinya kelihatannya, bahwa dalam kasus umum, pendekatan semacam itu lebih rendah daripada campuran tertentu bias dan keanekaragaman yang ditawarkan oleh hutan acak.

Dimungkinkan untuk berhasil menggunakan pengklasifikasi dasar tidak stabil lainnya, seperti multi-layer perceptrons (jaringan saraf) yang memiliki beberapa node dan jumlah terbatas pelatihan atau pendekatan pengisian ruang berbasis poin misalnya diskriminasi stokastik, untuk menyuntikkan keragaman dalam metode ansambel. Tentu saja dalam kasus MLP, tingkat penyetelan parameter sangat penting.

Meningkatkan

Boosting mengambil pendekatan berbeda untuk membangun ansambel daripada model aglomerasi sederhana yang diadopsi oleh Bagging. Saya kira secara konseptual jika Anda menganggap mengantongi sebagai model ansambel datar, meningkatkan konstruksi classifier berlapis.

Setiap putaran boosting memilih classifier baru dari sekumpulan classifier potensial yang dibangun dari data pelatihan yang dibobot, atau di-resampled, sesuai dengan kesalahan klasifikasi pada babak sebelumnya. Pengklasifikasi baru dipilih untuk meminimalkan kesalahan total ensemble.

Ini sangat kontras dengan kurangnya kriteria seleksi yang tidak disukai dalam konstruksi ansambel hutan acak. Setiap classifier basis baru secara khusus diperlukan untuk fokus pada titik-titik lemah dari ensemble yang ada, dengan hasil yang meningkatkan secara agresif akan menurunkan kesalahan pelatihan.

Pada tahap awal peningkatan konstruksi ansambel memiliki sedikit pengklasifikasi lemah dan masing-masing difokuskan pada area yang berbeda dari ruang pelatihan, efeknya adalah untuk mengurangi bias. Ketika ukuran ensemble tumbuh, ruang lingkup untuk pengurangan bias berkurang dan kesalahan dari varian ditingkatkan.

Manfaat dari ketidakstabilan dalam pengklasifikasi dasar untuk meningkatkan adalah bahwa ketika ansambel tumbuh, jumlah contoh salah klasifikasi yang tersisa turun. Diperlukan tingkat keanekaragaman yang lebih tinggi untuk menghasilkan pengelompokan yang mengadopsi pandangan berbeda yang berguna dari sampel yang tersisa dari pendahulunya.

Kekuatan dari pendekatan ini dapat dilihat oleh fakta bahwa hasil yang dapat diterima dapat dicapai hanya dengan tunggul keputusan, meskipun MLP telah terbukti sangat efektif secara umum.

Karena fokus yang konstan pada contoh-contoh yang diklasifikasi, kelemahan boosting adalah bahwa ia dapat rentan terhadap noise, sampai batas tertentu upaya logitboost untuk mengatasi kegagalan ini.

Tidak makan siang gratis

Perlu diingat bahwa tidak ada teori unified grand pembelajaran mesin ada dan bahwa hasil dari setiap classifier sangat tergantung pada jenis data yang digunakan. Jadi, apriori, tidak ada alasan keras dan cepat untuk menegaskan satu tipe classifier lebih unggul daripada yang lain, selain dari konsensus yang diperoleh dari eksperimen sebelumnya dengan data yang sama dan utilitas umum yang ditunjukkan oleh suatu algoritma di berbagai set data. Untuk mendapatkan solusi yang baik, Anda mungkin ingin bereksperimen dengan beberapa pendekatan populer.

image_doctor
sumber
+1 untuk menyebutkan NFL, tapi saya berpendapat bahwa NFL adalah 'teori terpadu besar' pembelajaran mesin, atau sedekat mungkin dengan hal yang mungkin akan kita lihat ...
John Doucette