Saya menggunakan algoritma hutan acak sebagai penggolong kuat dari dua kelompok dalam studi microarray dengan ribuan fitur.
- Apa cara terbaik untuk menyajikan hutan acak sehingga ada cukup informasi untuk membuatnya dapat diproduksi ulang di kertas?
- Apakah ada metode plot dalam R untuk benar-benar plot pohon, jika ada sejumlah kecil fitur?
- Apakah estimasi tingkat kesalahan OOB statistik terbaik untuk mengutip?
r
machine-learning
classification
random-forest
microarray
danielsbrewer
sumber
sumber
Jawaban:
Mengenai membuatnya dapat direproduksi, cara terbaik adalah memberikan penelitian yang dapat direproduksi (yaitu kode dan data) bersama dengan makalah. Jadikan tersedia di situs web Anda, atau di situs hosting (seperti github).
Mengenai visualisasi, Leo Breiman telah melakukan beberapa pekerjaan yang menarik dalam hal ini (lihat homepage-nya , khususnya pada bagian grafis ).
Tetapi jika Anda menggunakan R, maka
randomForest
paket tersebut memiliki beberapa fungsi yang berguna:Dan
Saya tidak mengetahui cara sederhana untuk benar-benar plot pohon, tetapi Anda dapat menggunakan
getTree
fungsi untuk mengambil pohon dan plot itu secara terpisah.The Strobl / Zeileis presentasi tentang "Mengapa dan bagaimana menggunakan langkah-langkah penting variabel hutan random (dan bagaimana Anda tidak harus)" memiliki contoh pohon yang harus telah diproduksi dengan cara ini. Posting blog ini pada model pohon memiliki beberapa contoh bagus plot pohon CART yang dapat Anda gunakan misalnya.
Seperti yang dikomentari @chl, satu pohon tidak terlalu berarti dalam konteks ini, sehingga singkat menggunakannya untuk menjelaskan apa itu hutan acak, saya tidak akan memasukkan ini ke dalam makalah.
sumber
plot.randomForest
menunjukkan bagaimana kesalahan OOB dan kesalahan OOB di kelas berevolusi dengan meningkatnya jumlah pohon;varImpPlot
menunjukkan ukuran kepentingan atribut untuk atribut teratas danMDSplot
semua objek diplot pada proyeksi 2D ukuran kedekatan objek RF.MDSplot()
fungsi. Saya harus mengakui bahwa saya sering menggunakan RF sebagai cara untuk menyoroti kelompok individu (berdasarkan ukuran kedekatan RF) daripada memilih fitur terbaik. Dokter sering membaca plot seperti itu dengan mudah daripada dotplot var. pentingnya ...sumber
Perlu diingat peringatan di jawaban lain tentang plot tentu menjadi bermakna. Tetapi jika Anda menginginkan plot untuk tujuan ilustrasi / pedagogis, cuplikan R berikut mungkin berguna. Tidak sulit untuk menambahkan "titik split" ke teks tepi jika Anda membutuhkannya.
sumber