Saya menemukan banyak artikel yang menyatakan bahwa metode peningkatan sensitif terhadap outlier, tetapi tidak ada artikel yang menjelaskan mengapa.
Dalam pengalaman saya, pencilan buruk untuk algoritma pembelajaran mesin, tetapi mengapa meningkatkan metode dipilih sebagai sangat sensitif?
Bagaimana algoritma berikut akan memberi peringkat dalam hal sensitivitas terhadap pencilan: boost-tree, hutan acak, jaringan saraf, SVM, dan metode regresi sederhana seperti regresi logistik?
Jawaban:
Pencilan dapat berakibat buruk untuk meningkatkan karena meningkatkan membangun setiap pohon pada residu / kesalahan pohon sebelumnya. Pencilan akan memiliki residu yang jauh lebih besar daripada yang tidak pencilan, sehingga peningkatan gradien akan memusatkan perhatian yang tidak proporsional pada titik-titik tersebut.
sumber
Algoritma yang Anda tentukan adalah untuk klasifikasi, jadi saya berasumsi Anda tidak bermaksud outlier dalam variabel target, tetapi input outlier variabel. Metode Boosted Tree harus cukup kuat untuk pencilan dalam fitur input karena pelajar dasar adalah pembagian pohon. Misalnya, jika pemisahannya
x > 3
maka 5 dan 5.000.000 diperlakukan sama. Ini mungkin atau mungkin bukan hal yang baik, tapi itu pertanyaan yang berbeda.Jika sebaliknya Anda berbicara tentang regresi dan pencilan dalam variabel target, maka sensitivitas metode pohon yang ditingkatkan akan tergantung pada fungsi biaya yang digunakan. Tentu saja, kesalahan kuadrat sensitif terhadap outlier karena perbedaannya kuadrat dan itu akan sangat mempengaruhi pohon berikutnya karena meningkatkan upaya agar sesuai dengan (gradien dari) kerugian. Namun, ada fungsi kesalahan yang lebih kuat yang dapat digunakan untuk metode pohon yang ditingkatkan seperti Huber loss dan Absolute Loss.
sumber
Dalam meningkatkan kami mencoba untuk memilih dataset di mana hasil algoritma buruk, bukan secara acak memilih subset data. Contoh-contoh sulit ini adalah yang penting untuk dipelajari, jadi jika kumpulan data memiliki banyak outlier dan algoritma tidak berkinerja baik pada mereka daripada belajar contoh-contoh keras algoritma akan mencoba untuk mengambil himpunan bagian dari contoh-contoh itu.
sumber