Adakah yang bisa menjelaskan perbedaan utama antara pohon inferensi bersyarat ( ctree
dari party
paket dalam R) dibandingkan dengan algoritma pohon keputusan yang lebih tradisional (seperti rpart
dalam R)?
- Apa yang membuat pohon CI berbeda?
- Kekuatan dan kelemahan?
Pembaruan: Saya telah melihat makalah oleh Horthorn et al yang dimaksud Chi dalam komentar. Saya tidak dapat mengikutinya sepenuhnya - adakah yang bisa menjelaskan bagaimana variabel dipilih menggunakan permutasi (misalnya apa itu fungsi pengaruh)?
Terima kasih!
r
machine-learning
cart
B_Miner
sumber
sumber
Jawaban:
Untuk apa nilainya:
keduanya
rpart
danctree
secara rekursif melakukan pemisahan univariat dari variabel dependen berdasarkan nilai-nilai pada seperangkat kovariat.rpart
dan algoritma terkait biasanya menggunakan langkah-langkah informasi (seperti koefisien Gini ) untuk memilih kovariat saat ini.ctree
, menurut penulisnya (lihat komentar chl ) menghindari bias pemilihan variabel berikutrpart
(dan metode terkait): Mereka cenderung memilih variabel yang memiliki banyak kemungkinan pemisahan atau banyak nilai yang hilang. Tidak seperti yang lain,ctree
menggunakan prosedur uji signifikansi untuk memilih variabel daripada memilih variabel yang memaksimalkan ukuran informasi (misalnya koefisien Gini).Tes signifikansi, atau lebih baik: tes signifikansi berganda yang dihitung pada setiap permulaan algoritma (pilih kovariat - pilih split - perulangan) adalah tes permutasi , yaitu, "distribusi statistik uji di bawah hipotesis nol diperoleh dengan menghitung semua nilai yang mungkin dari statistik uji di bawah penataan ulang label pada titik data yang diamati. " (dari artikel wikipedia).
Sekarang untuk statistik uji: ini dihitung dari transformasi (termasuk identitas, yaitu, tidak ada transformasi) dari variabel dependen dan kovariat. Anda dapat memilih salah satu dari sejumlah transformasi untuk kedua variabel. Untuk DV (Dependent Variable), transformasi disebut fungsi pengaruh yang Anda tanyakan.
Contoh (diambil dari kertas ):
contoh kecil untuk tes permutasi di
R
:Sekarang anggaplah Anda memiliki seperangkat kovariat, tidak hanya satu seperti di atas. Kemudian hitung nilai- p untuk masing-masing kovariat seperti dalam skema di atas, dan pilih nilai p -nilai terkecil . Anda ingin menghitung nilai- p daripada korelasi secara langsung, karena Anda bisa memiliki kovariat dari jenis yang berbeda (misalnya numerik dan kategorikal).
Setelah Anda memilih kovariat, sekarang jelajahi semua pemisahan yang mungkin (atau sering kali jumlah yang mungkin dari semua pemisahan yang mungkin, misalnya dengan membutuhkan sejumlah kecil elemen DV sebelum pemisahan) kembali mengevaluasi tes berbasis permutasi.
ctree
hadir dengan sejumlah transformasi yang memungkinkan untuk DV dan kovariat (lihat bantuanTransformations
dalamparty
paket).jadi umumnya perbedaan utama tampaknya adalah yang
ctree
menggunakan skema seleksi kovariat yang didasarkan pada teori statistik (yaitu seleksi dengan uji signifikansi berbasis permutasi) dan dengan demikian menghindari bias potensialrpart
, jika tidak mereka tampaknya serupa; misalnya pohon inferensi bersyarat dapat digunakan sebagai pelajar dasar untuk Hutan Acak.Ini sejauh yang saya bisa dapatkan. Untuk informasi lebih lanjut, Anda benar-benar perlu membaca koran. Perhatikan bahwa saya sangat menyarankan Anda benar-benar tahu apa yang Anda lakukan ketika Anda ingin menerapkan segala jenis analisis statistik.
sumber