Saya menggunakan randomForest untuk mengklasifikasikan 6 perilaku hewan (mis. Berdiri, Berjalan, Berenang dll) berdasarkan 8 variabel (postur tubuh dan gerakan yang berbeda).
MDSplot dalam paket randomForest memberi saya hasil ini dan saya memiliki masalah dalam menafsirkan hasilnya. Saya melakukan PCA pada data yang sama dan mendapat pemisahan yang bagus antara semua kelas di PC1 dan PC2, tetapi di sini Dim1 dan Dim2 tampaknya hanya memisahkan 3 perilaku. Apakah ini berarti bahwa ketiga perilaku ini lebih berbeda daripada semua perilaku lain (jadi MDS mencoba menemukan perbedaan terbesar antara variabel, tetapi tidak harus semua variabel pada langkah pertama)? Apa yang dimaksud dengan penentuan posisi ketiga kluster (seperti misalnya pada Dim1 dan Dim2)? Karena saya agak baru ke RI juga punya masalah merencanakan legenda untuk plot ini (namun saya punya ide apa arti warna yang berbeda), tetapi mungkin seseorang dapat membantu? Terima kasih banyak!!
Saya menambahkan plot yang dibuat dengan fungsi ClassCenter di RandomForest. Fungsi ini juga menggunakan matriks kedekatan (sama seperti dalam MDS Plot) untuk memplot prototipe. Tetapi hanya dari melihat titik data untuk enam perilaku yang berbeda, saya tidak bisa mengerti mengapa matriks proximity akan memetakan prototipe saya seperti halnya. Saya juga mencoba fungsi classcenter dengan data iris dan berfungsi. Tapi sepertinya itu tidak berfungsi untuk data saya ...
Berikut adalah kode yang saya gunakan untuk plot ini
be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE)
class1 <- classCenter(be[,-1], be[,1], be.rf$prox)
Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))])
points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange"))
Kolom kelas saya adalah yang pertama, diikuti oleh 8 prediktor. Saya merencanakan dua variabel prediktor terbaik sebagai x dan y.