Saya sedang mengerjakan masalah klasifikasi. Saya memiliki dataset yang berisi jumlah variabel kategori dan variabel kontinu yang sama. Bagaimana saya tahu teknik apa yang digunakan? antara pohon keputusan dan regresi logistik?
Apakah benar untuk berasumsi bahwa regresi logistik akan lebih cocok untuk variabel kontinu dan pohon keputusan akan lebih cocok untuk variabel kategori + kontinu?
Jawaban:
Singkat cerita : lakukan apa yang dikatakan @untitleprogrammer, coba kedua model dan validasi silang untuk membantu memilihnya.
Baik pohon keputusan (tergantung pada implementasinya, misalnya C4.5) dan regresi logistik harus dapat menangani data yang kontinu dan kategorikal dengan baik. Untuk regresi logistik, Anda ingin membuat dummy kode variabel kategoris Anda .
Seperti yang disebutkan @untitleprogrammer, sulit untuk mengetahui apriori mana teknik yang akan lebih baik hanya berdasarkan pada jenis fitur yang Anda miliki, terus menerus atau sebaliknya. Ini benar-benar tergantung pada masalah spesifik Anda dan data yang Anda miliki. (Lihat Tidak Ada Teorema Makan Siang Gratis )
Anda perlu diingat bahwa model regresi logistik sedang mencari batas keputusan linier tunggal dalam ruang fitur Anda, sedangkan pohon keputusan pada dasarnya mempartisi ruang fitur Anda menjadi setengah-ruang menggunakan batas keputusan linear -axis-aligned . Efek bersihnya adalah Anda memiliki batas keputusan non-linear, mungkin lebih dari satu.
Ini bagus ketika titik data Anda tidak mudah dipisahkan oleh hyperplane tunggal, tetapi di sisi lain, pohon keputusan sangat fleksibel sehingga mereka cenderung rentan terhadap overfitting. Untuk mengatasi ini, Anda dapat mencoba pemangkasan. Regresi logistik cenderung kurang rentan (tetapi tidak kebal!) Terhadap overfitting.
Jadi, Anda harus bertanya pada diri sendiri:
Tentu saja, selalu merupakan ide yang baik untuk mencoba kedua model dan melakukan cross-validation. Ini akan membantu Anda mengetahui mana yang lebih mungkin memiliki kesalahan generalisasi yang lebih baik.
sumber
Coba gunakan pohon regresi dan keputusan. Bandingkan efisiensi setiap teknik dengan menggunakan validasi silang 10 kali lipat. Tetap pada yang dengan efisiensi lebih tinggi. Akan sulit untuk menilai metode mana yang lebih cocok hanya dengan mengetahui bahwa dataset Anda kontinu dan, atau kategorikal.
sumber
Itu sangat tergantung pada struktur distribusi yang mendasari data Anda. Jika Anda memiliki alasan kuat untuk meyakini bahwa data tersebut mendekati distribusi Bernoulli, regresi logistik multinomial akan berkinerja baik dan memberi Anda hasil yang dapat ditafsirkan. Namun jika ada struktur nonlinear dalam distribusi yang mendasarinya, Anda harus mempertimbangkan metode nonparametrik secara serius.
Meskipun Anda dapat menggunakan pohon keputusan sebagai metode nonparametrik Anda, Anda juga dapat mempertimbangkan untuk membuat hutan acak - ini pada dasarnya menghasilkan sejumlah besar pohon keputusan individu dari himpunan bagian data dan klasifikasi akhir adalah suara yang diaglomerasi dari semua pohon . Hutan acak membantu memberi Anda gagasan tentang pembagian setiap variabel prediktor yang berkontribusi terhadap respons.
Faktor lain yang perlu diingat adalah interpretabilitas. Jika Anda hanya mencoba untuk mengklasifikasikan data, maka Anda mungkin tidak peduli tentang hubungan yang mendasari antara variabel penjelas dan respons. Namun, jika Anda tertarik pada interpretabilitas, regresi logistik multinomial jauh lebih mudah diinterpretasikan, metode parametrik secara umum, karena mereka membuat asumsi tentang distribusi yang mendasarinya, memberi tahu Anda hubungan yang lebih dapat ditafsirkan secara intuitif.
sumber
Untuk menggunakan Pohon Keputusan, Anda harus mengubah variabel kontinu menjadi kategorikal.
Satu hal lagi, Regresi Logistik biasanya digunakan untuk memprediksi hasil sesuai dengan probabilitas.
sumber