Saya memiliki kumpulan data yang terdiri dari 24 baris data bulanan. Fitur-fiturnya adalah PDB, kedatangan bandara, bulan, dan beberapa lainnya. Variabel dependen adalah jumlah pengunjung ke tujuan wisata populer. Apakah Random Forest cocok untuk masalah seperti itu?
Data bersifat non-publik sehingga saya tidak dapat memposting sampel.
random-forest
small-sample
hughesdan
sumber
sumber
Jawaban:
Hutan acak pada dasarnya adalah bootstrap resampling dan melatih pohon-pohon keputusan pada sampel, jadi jawaban untuk pertanyaan Anda perlu mengatasi keduanya.
Bootstrap resampling adalah bukan obat untuk sampel kecil . Jika Anda hanya memiliki dua puluh empat pengamatan dalam dataset Anda, maka masing-masing sampel yang diambil dengan penggantian dari data ini akan terdiri tidak lebih dari dua puluh empat nilai yang berbeda. Mengocok kasing dan tidak menggambar beberapa di antaranya tidak akan banyak mengubah kemampuan Anda untuk mempelajari sesuatu yang baru tentang distribusi yang mendasarinya. Jadi sampel kecil adalah masalah untuk bootstrap.
Pohon keputusan dilatih dengan membagi data secara kondisional pada variabel-variabel prediktor, satu variabel pada satu waktu, untuk menemukan sub-sampel yang memiliki kekuatan diskriminatif terbesar. Jika Anda hanya memiliki dua puluh empat kasing, maka katakan bahwa jika Anda beruntung dan semua potongannya berukuran sama, maka dengan dua perpecahan Anda akan berakhir dengan empat kelompok enam kotak, dengan potongan pohon, dengan delapan kelompok tiga. Jika Anda menghitung sarana bersyarat pada sampel (untuk memprediksi nilai kontinu dalam pohon regresi, atau probabilitas bersyarat dalam pohon keputusan), Anda akan mendasarkan kesimpulan Anda hanya pada beberapa kasus tersebut! Jadi sub-sampel yang akan Anda gunakan untuk membuat keputusan akan lebih kecil daripada data asli Anda.
Dengan sampel kecil biasanya bijaksana untuk menggunakan metode sederhana . Selain itu, Anda dapat menangkap sampel kecil dengan menggunakan prior informatif dalam pengaturan Bayesian (jika Anda memiliki pengetahuan out-of-data yang masuk akal tentang masalah), sehingga Anda dapat mempertimbangkan menggunakan beberapa model Bayesian yang dibuat khusus.
sumber
Di satu sisi, ini adalah kumpulan data kecil, dan hutan acak haus data.
Di sisi lain, mungkin ada sesuatu yang lebih baik daripada tidak sama sekali. Tidak ada lagi yang bisa dikatakan selain "Cobalah dan lihat." Anda harus memutuskan apakah model tertentu itu "baik;" Selain itu, kami tidak dapat memberi tahu Anda apakah model apa pun cocok untuk tujuan tertentu (dan Anda juga tidak ingin kami - tidak ada biaya bagi kami jika kami salah!).
sumber