Saya menggunakan hutan acak pada data kelompok berdimensi tinggi (50 variabel input numerik) yang memiliki struktur hierarki. Data dikumpulkan dengan 6 replikasi pada 30 posisi dari 70 objek berbeda yang menghasilkan 12600 titik data, yang tidak independen.
Tampaknya hutan acak terlalu pas data, karena kesalahan oob jauh lebih kecil dari kesalahan yang kita dapatkan ketika meninggalkan data dari satu objek keluar selama pelatihan dan kemudian memprediksi hasil objek yang ditinggalkan dengan hutan acak terlatih. Selain itu, saya memiliki residu yang berkorelasi.
Saya pikir overfitting disebabkan karena hutan acak mengharapkan data independen. Apakah mungkin untuk memberi tahu hutan acak tentang struktur hierarki data? Atau adakah metode ensemble atau penyusutan yang kuat yang dapat menangani data kelompok berdimensi tinggi dengan struktur interaksi yang kuat?
Adakah petunjuk bagaimana saya bisa melakukan yang lebih baik?
sumber
Jawaban:
Sangat terlambat ke pesta juga, tetapi saya pikir itu bisa terkait dengan sesuatu yang saya lakukan beberapa tahun yang lalu. Karya itu dipublikasikan di sini:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379
dan tentang berurusan dengan variabel korelasi ke dalam ansambel pohon keputusan. Anda harus melihat pada daftar pustaka yang menunjuk ke banyak proposal untuk menangani jenis masalah ini (yang umum di bidang "genetik").
Kode sumber tersedia di sini (tetapi tidak benar-benar dipertahankan lagi).
sumber
Over-Fitting dari Random Forest dapat disebabkan oleh berbagai alasan, dan itu sangat tergantung pada parameter RF. Tidak jelas dari pos Anda bagaimana Anda menyetel RF Anda.
Berikut beberapa tips yang dapat membantu:
Tambah jumlah pohon
Tune Kedalaman Maksimum dari pohon. Parameter ini sangat tergantung pada masalah yang dihadapi. Menggunakan pohon yang lebih kecil dapat membantu mengatasi masalah overfitting.
sumber