Saya telah membaca di beberapa sumber, termasuk yang satu ini , bahwa Random Forests tidak sensitif terhadap pencilan (dalam cara Regresi Logistik dan metode ML lainnya, misalnya).
Namun, dua intuisi mengatakan sebaliknya:
Setiap kali pohon keputusan dibangun, semua poin harus diklasifikasikan. Ini berarti bahwa outlier akan diklasifikasikan, dan karenanya akan memengaruhi pohon keputusan tempat mereka dipilih selama peningkatan.
Bootstrapping adalah bagian dari bagaimana RandomForest melakukan sub-sampling. Bootstrap rentan terhadap pencilan.
Apakah ada cara untuk merekonsiliasi intuisi saya tentang kepekaannya terhadap outlier, dengan sumber yang tidak setuju?
random-forest
bootstrap
outliers
cart
Hunle
sumber
sumber
min_samples_leaf_node
ini1
, maka bisa rentan terhadap outlier.Jawaban:
Intuisi Anda benar. Jawaban ini hanya menggambarkannya pada contoh.
Memang merupakan kesalahpahaman umum bahwa CART / RF entah bagaimana kuat untuk outlier.
Untuk mengilustrasikan kurangnya kekokohan RF terhadap keberadaan outlier tunggal, kita dapat (secara ringan) memodifikasi kode yang digunakan dalam jawaban Soren Havelund Welling di atas untuk menunjukkan bahwa satu outlier 'y' cukup untuk sepenuhnya mempengaruhi model RF yang dipasang. Misalnya, jika kita menghitung kesalahan prediksi rata-rata dari pengamatan yang tidak terkontaminasi sebagai fungsi jarak antara pencilan dan sisa data, kita dapat melihat (gambar di bawah) yang memperkenalkan pencilan tunggal (dengan mengganti salah satu pengamatan asli dengan nilai arbitrer pada ruang 'y') cukup untuk menarik prediksi model RF secara sewenang-wenang jauh dari nilai-nilai yang akan mereka miliki jika dihitung berdasarkan data asli (tidak terkontaminasi):
Berapa jauh? Dalam contoh di atas, pencilan tunggal telah banyak mengubah fit sehingga kesalahan prediksi rata-rata (pada yang tidak terkontaminasi) sekarang adalah 1-2 urutan besarnya lebih besar daripada seharusnya, seandainya model telah dipasang pada data yang tidak terkontaminasi.
Jadi tidak benar bahwa pencilan tunggal tidak dapat mempengaruhi kecocokan RF.
Selain itu, seperti yang saya tunjukkan di tempat lain , outlier yang jauh lebih sulit untuk berurusan dengan ketika ada potensi beberapa dari mereka (meskipun mereka tidak perlu menjadi besar proporsi dari data untuk efek mereka muncul). Tentu saja, data yang terkontaminasi dapat mengandung lebih dari satu pencilan; untuk mengukur dampak beberapa pencilan pada kesesuaian RF, bandingkan plot di sebelah kiri yang diperoleh dari RF pada data yang tidak terkontaminasi dengan plot di sebelah kanan yang diperoleh dengan mengubah 5% nilai respons secara sewenang-wenang (kode berada di bawah jawaban) .
Akhirnya, dalam konteks regresi, penting untuk menunjukkan bahwa outlier dapat menonjol dari sebagian besar data baik dalam desain dan ruang respon (1). Dalam konteks spesifik RF, outlier desain akan memengaruhi estimasi parameter-hiper. Namun, efek kedua ini lebih nyata ketika jumlah dimensi besar.
Apa yang kami amati di sini adalah kasus khusus dari hasil yang lebih umum. Sensitivitas ekstrim terhadap pencilan metode pemasangan data multivariat berdasarkan fungsi kehilangan cembung telah ditemukan kembali beberapa kali. Lihat (2) untuk ilustrasi dalam konteks spesifik metode ML.
Edit.
sumber
p
dans
dalam formula?outlier 1a: Outlier ini memiliki satu atau lebih nilai fitur ekstrim dan ditempatkan jauh dari sampel lain. Pencilan akan mempengaruhi pemisahan awal pohon seperti sampel lainnya, jadi tidak ada pengaruh yang kuat. Ini akan memiliki kedekatan yang rendah dengan sampel lain, dan hanya akan menentukan struktur model di bagian jauh dari ruang fitur. Selama prediksi sebagian besar sampel baru cenderung tidak mirip dengan pencilan ini, dan jarang akan berakhir di simpul terminal yang sama. Selain itu pohon keputusan menganggap fitur seolah-olah mereka ordinal (peringkat). Nilainya lebih kecil / sama dengan atau lebih besar dari break point, sehingga tidak masalah jika nilai fitur merupakan pencilan ekstrim.
outlier 1b: Untuk klasifikasi satu sampel tunggal dapat dianggap sebagai outlier, ketika tertanam di tengah banyak sampel dari kelas yang berbeda. Saya jelaskan sebelumnya bagaimana model RF default akan dipengaruhi oleh satu sampel kelas ganjil ini, tetapi hanya sangat dekat dengan sampel.
outlier 2: Outlier ini memiliki nilai target ekstrem yang mungkin jauh lebih tinggi daripada nilai-nilai lainnya, tetapi nilai-nilai fitur normal. Sebagian kecil .631 pohon akan memiliki simpul terminal dengan sampel ini. Struktur model akan terpengaruh secara lokal dekat dengan pencilan. Perhatikan struktur model dipengaruhi terutama sejajar dengan sumbu fitur, karena node dibagi secara un-variately.
EDIT: komentar ke pengguna603
Ya untuk outlier ekstrim pada skala target, orang harus mempertimbangkan untuk mengubah skala target sebelum menjalankan RF. Saya menambahkan di bawah ini fungsi robustModel () yang mengubah randomForest. Solusi lain adalah membuat log transformasi sebelum pelatihan.
sumber
y[1]=200
Anda akan melihat bahwa itu sendirian menyebabkan kesalahan prediksi pada pengamatan yang tidak terkontaminasi untuk melompat dengan faktor 20!Ini bukan algoritma Acak Hutan itu sendiri yang kuat untuk outlier, tetapi dasar pelajar itu didasarkan pada: pohon keputusan . Pohon keputusan mengisolasi pengamatan atipikal menjadi daun kecil (yaitu, ruang bagian kecil dari ruang asli). Selanjutnya, pohon keputusan adalah model lokal . Tidak seperti regresi linier, di mana persamaan yang sama berlaku untuk seluruh ruang, model yang sangat sederhana dipasang secara lokal untuk setiap subruang (yaitu, untuk setiap daun).
Oleh karena itu, untuk regresi misalnya, nilai-nilai ekstrem tidak mempengaruhi keseluruhan model karena mereka mendapatkan rata-rata secara lokal. Jadi kesesuaian dengan nilai-nilai lain tidak terpengaruh.
Sebenarnya, properti yang diinginkan ini dibawa ke struktur seperti pohon lainnya, seperti dendogram. Hierarchical clustering, misalnya, telah lama digunakan untuk pembersihan data karena secara otomatis mengisolasi pengamatan menyimpang ke dalam kelompok-kelompok kecil. Lihat misalnya Loureiro et al. (2004). Deteksi outlier menggunakan metode clustering: aplikasi pembersihan data .
Jadi, secara singkat, RF mewarisi ketidakpekaannya terhadap pencilan dari partisi rekursif dan pemasangan model lokal .
Perhatikan bahwa pohon keputusan memiliki bias yang rendah tetapi model varians tinggi: strukturnya cenderung berubah pada modifikasi kecil dari set pelatihan (penghapusan atau penambahan beberapa pengamatan). Tapi ini tidak boleh disalahartikan dengan sensitivitas terhadap pencilan, ini adalah masalah yang berbeda.
sumber
labeled
atauunlabeled
data? Dan bagaimana pengelompokan ini dapat dicapai pada data heterogen yang berisi fitur kategorikal dan numerik?