Sudah lama sejak saya melihat pohon partisi. Terakhir kali saya melakukan hal semacam ini, saya suka pesta di R (dibuat oleh Hothorn). Ide inferensi bersyarat melalui pengambilan sampel masuk akal bagi saya. Tetapi rpart juga memiliki daya tarik.
Dalam aplikasi saat ini (saya tidak bisa memberikan rincian, tetapi itu melibatkan mencoba untuk menentukan siapa yang akan masuk penjara di antara sejumlah besar tahanan). Saya tidak dapat menggunakan metode canggih seperti hutan acak, mengantongi, meningkatkan dll. - Saya perlu penjelasan yang mudah aturan.
Saya juga ingin memiliki beberapa kontrol manual atas yang membelah node, seperti yang direkomendasikan dalam Zhang & Singer (2010) Partisi Rekursif dan Aplikasi . Freeware yang disertakan dengan buku itu memungkinkan ini, tetapi sebaliknya agak primitif dalam input penggunanya.
Ada rekomendasi atau saran?
sumber
[NB: Lihat pembaruan 1 di bawah.] Saya menemukan metodologi untuk
rpart
jauh lebih mudah untuk dijelaskan daripadaparty
. Yang terakhir, bagaimanapun, jauh lebih canggih dan cenderung memberikan model yang lebih baik. Cara saya kadang-kadang menjelaskanparty
adalah dengan menyebutnya sebagai dasar untuk memproduksi model linear lokal (atau GLM). Saya membangun ini dengan menunjukkan hasil untukrpart
adalah konstan di semua elemen yang jatuh ke simpul daun, yaitu kotak / wilayah yang dibatasi oleh pemisahan. Bahkan jika mungkin ada perbaikan melalui model lokal, Anda tidak mendapatkan apa pun selain prediksi konstan.Sebaliknya,
party
mengembangkan pemisahan untuk berpotensi mengoptimalkan model untuk daerah. Ini sebenarnya menggunakan kriteria yang berbeda dari optimalitas model, tetapi Anda perlu mengukur kapasitas Anda sendiri untuk menjelaskan perbedaan untuk menentukan apakah Anda dapat menjelaskannya dengan baik. Makalah untuk itu cukup mudah diakses oleh seorang peneliti, tetapi mungkin cukup menantang bagi seseorang yang tidak mau mempertimbangkan metode yang lebih sederhana seperti hutan acak, meningkatkan, dll. Secara matematis, saya berpikir bahwaparty
lebih canggih ... Meskipun demikian, model CART lebih mudah untuk menjelaskan, baik dalam hal metodologi dan hasil, dan ini memberikan batu loncatan yang layak untuk memperkenalkan model berbasis pohon yang lebih canggih.Singkatnya, saya akan mengatakan bahwa Anda harus melakukan
rpart
untuk kejelasan, dan Anda dapat menggunakanparty
untuk akurasi / kinerja, tetapi saya tidak akan memperkenalkanparty
tanpa memperkenalkanrpart
.Pembaruan 1. Saya mendasarkan jawaban saya pada pemahaman saya
party
seperti satu atau dua tahun yang lalu. Ini telah tumbuh sedikit, tetapi saya akan memodifikasi jawaban saya untuk mengatakan bahwa saya masih merekomendasikanrpart
untuk singkatnya dan warisannya, jika "tidak suka" menjadi kriteria penting bagi klien / kolaborator Anda. Namun, saya akan mencoba bermigrasi untuk menggunakan lebih banyak fungsi dariparty
, setelah memperkenalkan seseorangrpart
. Lebih baik memulai dari yang kecil, dengan fungsi kerugian, kriteria pemisahan, dll., Dalam konteks yang sederhana, sebelum memperkenalkan paket dan metodologi yang melibatkan konsep yang jauh lebih terlibat.sumber
party
bisa dilakukan paket. Fungsi murniparty
hanya membuat satu pohon sederhana sepertirpart
dengan suara terbanyak di daun. Themob
fungsi dalamparty
adalah apa membangun pohon dengan model yang lebih kompleks dalam daun (dan memilih perpecahan berdasarkan ketidakstabilan parameter.)mob
atau jika sisa paket telah tumbuh cukup sedikit - saya tidak ingat melihat hutan acak sebelumnya, misalnya. Saya akan merevisi jawaban saya ...ctree
untuk membuat pohon tunggal,cforest
untuk membuat hutan acak danmob
untuk membuat model berbasis daun. Dan fyi, hutan itu menyenangkan, tetapi sangat lambat untuk diprediksi.mob
mungkin sudah ada sejak awal, atau setidaknya datang setelahnyactree
, saya kira. Sudah ada sejak 2009 atau sebelumnya. Ngomong-ngomong, langsung saja tunjukkan bahwa kita semua bisa belajar sesuatu yang baru di SE. :)