Saya mencoba menguji kemampuan hutan acak untuk mengklasifikasikan sampel antara 2 kelompok; Ada 54 sampel dan berbagai jumlah variabel yang digunakan untuk klasifikasi.
Saya bertanya-tanya mengapa perkiraan out-of-bag (OOB) dapat bervariasi sebanyak 5% dari satu sama lain bahkan ketika saya menggunakan 50k pohon? Apakah ini sesuatu yang bisa membantu bootstrapping?
machine-learning
random-forest
Sethzard
sumber
sumber
Jawaban:
Ada dua sumber varian OOB. Salah satunya adalah keacakan prosedur itu sendiri; ini dapat dikurangi dengan menambah jumlah pohon.
Sumber varians lainnya adalah ketidaksempurnaan yang tidak dapat dikurangi karena memiliki data yang terbatas dan hidup di dunia yang kompleks. Meningkatkan jumlah pohon tidak dapat memperbaikinya.
Selain itu, terkadang tidak ada cukup data untuk menyelesaikan masalah. Sebagai contoh, bayangkan dua contoh memiliki label yang berlawanan tetapi nilai-nilai fitur yang identik. Salah satu sampel ini akan selalu salah diklasifikasikan. (Ini adalah contoh ekstrem, tetapi mengilustrasikan bagaimana beberapa masalah tidak dapat diperbaiki. Kita dapat mengendurkannya dengan mempertimbangkan sedikit gangguan pada satu vektor; sekarang biasanya akan diklasifikasikan sama dengan kembarannya, tetapi tidak selalu.) Untuk mengatasi masalah ini , Anda harus mengumpulkan pengukuran tambahan untuk membedakan kedua poin lebih lanjut.
Varians irreducible tidak dapat diperbaiki dengan bootstrap. Selain itu, hutan acak sudah dibooting; itu bagian dari alasan bahwa ia memiliki "acak" dalam namanya. (Alasan lainnya adalah bahwa subset fitur secara acak dipilih pada setiap pemisahan.)
sumber