mengapa metode peningkatan sensitif terhadap outlier

12

Saya menemukan banyak artikel yang menyatakan bahwa metode peningkatan sensitif terhadap outlier, tetapi tidak ada artikel yang menjelaskan mengapa.

Dalam pengalaman saya, pencilan buruk untuk algoritma pembelajaran mesin, tetapi mengapa meningkatkan metode dipilih sebagai sangat sensitif?

Bagaimana algoritma berikut akan memberi peringkat dalam hal sensitivitas terhadap pencilan: boost-tree, hutan acak, jaringan saraf, SVM, dan metode regresi sederhana seperti regresi logistik?

lserlohn
sumber
1
Saya telah mengedit untuk mencoba mengklarifikasi (juga jika Anda meletakkan spasi di awal baris, stackexchange akan memperlakukannya sebagai kode). Bagi para paragraf kedua Anda, upaya meningkatkan itu apa? Anda mungkin harus mendefinisikan sensitivitas.
Jeremy Miles
1
Juga, outlier dan noice bukan hal yang sama.
Jeremy Miles
Saya tidak akan menandai pertanyaan ini sebagai belum diselesaikan. Tidak jelas apakah meningkatkan sebenarnya menderita outlier lebih dari metode lain atau tidak. Tampaknya jawaban yang diterima sebagian besar diterima karena bias konfirmasi.
rinspy
Bisakah Anda membagikan beberapa artikel ini?
acnalb

Jawaban:

11

Pencilan dapat berakibat buruk untuk meningkatkan karena meningkatkan membangun setiap pohon pada residu / kesalahan pohon sebelumnya. Pencilan akan memiliki residu yang jauh lebih besar daripada yang tidak pencilan, sehingga peningkatan gradien akan memusatkan perhatian yang tidak proporsional pada titik-titik tersebut.

Ryan Zotti
sumber
2
Akan lebih baik jika Anda bisa memberikan lebih banyak detail matematis ke OP!
Metariat
5
@Matemattica Saya tidak setuju bahwa menambahkan rincian matematika akan memberikan kejelasan tambahan di sini. Itu hanya akan menjadi simbol untuk gradien pohon, dan tingkat pembelajaran pohon berikutnya.
Ryan Zotti
1
@RyanZotti: Saya setuju dengan Metariat. Notasi yang lebih formal akan menyelesaikan beberapa kebingungan. Misalnya dalam kalimat 'Pencilan akan memiliki residu yang jauh lebih besar daripada bukan pencuri', maksud Anda residualnya bergantung pada apa? Model yang diperkirakan atau yang benar? Jika yang pertama, itu tidak benar secara umum dan jika yang terakhir, itu tidak relevan.
user603
1

Algoritma yang Anda tentukan adalah untuk klasifikasi, jadi saya berasumsi Anda tidak bermaksud outlier dalam variabel target, tetapi input outlier variabel. Metode Boosted Tree harus cukup kuat untuk pencilan dalam fitur input karena pelajar dasar adalah pembagian pohon. Misalnya, jika pemisahannya x > 3maka 5 dan 5.000.000 diperlakukan sama. Ini mungkin atau mungkin bukan hal yang baik, tapi itu pertanyaan yang berbeda.

Jika sebaliknya Anda berbicara tentang regresi dan pencilan dalam variabel target, maka sensitivitas metode pohon yang ditingkatkan akan tergantung pada fungsi biaya yang digunakan. Tentu saja, kesalahan kuadrat sensitif terhadap outlier karena perbedaannya kuadrat dan itu akan sangat mempengaruhi pohon berikutnya karena meningkatkan upaya agar sesuai dengan (gradien dari) kerugian. Namun, ada fungsi kesalahan yang lebih kuat yang dapat digunakan untuk metode pohon yang ditingkatkan seperti Huber loss dan Absolute Loss.

Zak
sumber
0

Dalam meningkatkan kami mencoba untuk memilih dataset di mana hasil algoritma buruk, bukan secara acak memilih subset data. Contoh-contoh sulit ini adalah yang penting untuk dipelajari, jadi jika kumpulan data memiliki banyak outlier dan algoritma tidak berkinerja baik pada mereka daripada belajar contoh-contoh keras algoritma akan mencoba untuk mengambil himpunan bagian dari contoh-contoh itu.

kenari sial
sumber