Apakah pemodelan dengan Hutan Acak membutuhkan validasi silang?

Sejauh yang saya lihat, pendapat cenderung berbeda tentang ini. Praktik terbaik tentu akan menentukan menggunakan validasi silang (terutama jika membandingkan RF dengan algoritma lain pada dataset yang sama). Di sisi lain, sumber asli menyatakan bahwa fakta kesalahan OOB dihitung selama pelatihan model cukup dari indikator kinerja set tes. Bahkan Trevor Hastie, dalam pembicaraan yang relatif baru mengatakan bahwa "Hutan Acak memberikan validasi silang gratis". Secara intuitif, ini masuk akal bagi saya, jika melatih dan mencoba meningkatkan model berbasis RF pada satu dataset.

Apa pendapat Anda tentang ini?

cross-validation random-forest overfitting out-of-sample neuron
sumber

ini tidak membahas poin utama dari pertanyaan - tetapi Anda mungkin masih ingin memvalidasi silang parameter sekunder (seperti kedalaman pohon, dll.)

Wouter

Anda dapat menggunakan RF atau membandingkannya dengan pendekatan lain dalam hal kinerja pada set pelatihan, atau menggunakan independen / subset data untuk menguji kinerja. Ini adalah pertanyaan dari hipotesis Anda: apakah Anda mencoba untuk menggeneralisasi hasil ke populasi yang lebih besar atau hanya untuk mengklasifikasikan data yang ada, daripada properti RF.

katya

Jawaban:

Kesalahan OOB dihitung oleh untuk setiap pengamatan hanya menggunakan pohon yang tidak memiliki pengamatan khusus ini dalam sampel bootstrap mereka; lihat pertanyaan terkait ini . Ini kira-kira sama dengan validasi silang dua kali lipat karena probabilitas pengamatan tertentu dalam sampel bootstrap tertentu adalah . $1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Seperti yang ditunjukkan oleh @Wouter, Anda mungkin ingin melakukan validasi silang untuk penyetelan parameter, tetapi sebagai perkiraan kesalahan set tes, kesalahan OOB harus baik-baik saja.

Einar
sumber