Mengapa hasil hutan acak saya sangat bervariasi?

10

Saya mencoba menguji kemampuan hutan acak untuk mengklasifikasikan sampel antara 2 kelompok; Ada 54 sampel dan berbagai jumlah variabel yang digunakan untuk klasifikasi.

Saya bertanya-tanya mengapa perkiraan out-of-bag (OOB) dapat bervariasi sebanyak 5% dari satu sama lain bahkan ketika saya menggunakan 50k pohon? Apakah ini sesuatu yang bisa membantu bootstrapping?

Sethzard
sumber
6
Anda harus beberapa sampel. 50k pohon tidak masuk akal dengan sedikit sampel. Variasi kemungkinan besar hanya satu sampel yang diklasifikasikan secara salah antara berjalan.
ThiS
@ Thi Saya berpikir bahwa meningkatkan jumlah pohon akan mengurangi jumlah varians yang saya dapatkan. Apakah ada cara untuk menguranginya menjadi nol secara efektif atau mengetahui mana yang paling akurat?
Sethzard

Jawaban:

12

Ada dua sumber varian OOB. Salah satunya adalah keacakan prosedur itu sendiri; ini dapat dikurangi dengan menambah jumlah pohon.

Sumber varians lainnya adalah ketidaksempurnaan yang tidak dapat dikurangi karena memiliki data yang terbatas dan hidup di dunia yang kompleks. Meningkatkan jumlah pohon tidak dapat memperbaikinya.

Selain itu, terkadang tidak ada cukup data untuk menyelesaikan masalah. Sebagai contoh, bayangkan dua contoh memiliki label yang berlawanan tetapi nilai-nilai fitur yang identik. Salah satu sampel ini akan selalu salah diklasifikasikan. (Ini adalah contoh ekstrem, tetapi mengilustrasikan bagaimana beberapa masalah tidak dapat diperbaiki. Kita dapat mengendurkannya dengan mempertimbangkan sedikit gangguan pada satu vektor; sekarang biasanya akan diklasifikasikan sama dengan kembarannya, tetapi tidak selalu.) Untuk mengatasi masalah ini , Anda harus mengumpulkan pengukuran tambahan untuk membedakan kedua poin lebih lanjut.

hal(y=1|x)x¯x¯x¯N(μ,σ2n)μσ2x¯σ2=0

Varians irreducible tidak dapat diperbaiki dengan bootstrap. Selain itu, hutan acak sudah dibooting; itu bagian dari alasan bahwa ia memiliki "acak" dalam namanya. (Alasan lainnya adalah bahwa subset fitur secara acak dipilih pada setiap pemisahan.)

Sycorax berkata Reinstate Monica
sumber