saya punya satu set data yang benar-benar biner. setiap set nilai variabel berada di domain: true, false.
properti "khusus" dari kumpulan data ini adalah bahwa mayoritas dari nilai-nilai itu "salah".
Saya telah menggunakan algoritma pembelajaran jaringan bayesian untuk mempelajari jaringan dari data. Namun, untuk salah satu node target saya (yang paling penting, menjadi mati), hasil AUC tidak terlalu baik; ini sedikit lebih baik daripada kebetulan. bahkan nilai prediktif positif (PPV), yang telah disarankan kepada saya di CV, tidak bersaing dengan apa yang dilaporkan dalam literatur dengan pendekatan lain. perhatikan bahwa AUC (analisis ROC) adalah patokan khas yang dilaporkan dalam bidang penelitian klinis ini, tetapi saya juga terbuka untuk saran tentang bagaimana cara lebih tepat membandingkan model klasifikasi jika ada ide lain.
jadi, saya bertanya-tanya apa model klasifikasi lain yang bisa saya coba untuk jenis kumpulan data dengan properti ini (kebanyakan nilai-nilai palsu).
- akan mendukung bantuan mesin vektor? Sejauh yang saya tahu, SVM hanya berurusan dengan variabel kontinu sebagai prediktor (meskipun telah disesuaikan dengan multi-kelas). tapi variabel saya semuanya biner.
- akankah hutan secara acak membantu?
- apakah regresi logistik berlaku di sini? Sejauh yang saya tahu, prediktor dalam regresi logistik juga berkelanjutan. apakah ada versi umum untuk variabel biner sebagai prediktor?
Selain dari kinerja klasifikasi, saya menduga SVM dan hutan acak mungkin sangat baik mengungguli jaringan bayesian, tetapi masalahnya bergeser ke bagaimana menjelaskan hubungan dalam model ini (terutama untuk dokter).
Jawaban:
Variabel biner bukan masalah untuk SVM. Bahkan ada kernel khusus untuk data seperti itu (Hamming kernel, Tanimoto / Jaccard kernel), meskipun saya tidak merekomendasikan menggunakan mereka jika Anda tidak akrab dengan metode kernel.
Regresi logistik bekerja dengan prediktor biner. Ini mungkin pilihan terbaik Anda.
Jika Anda menggunakan SVM linear, cukup mudah untuk menjelaskan apa yang terjadi. Regresi logistik adalah pilihan yang lebih baik, meskipun, karena kebanyakan clinicials benar-benar tahu model ini (dan dengan tahu maksud saya telah mendengar ).
sumber
Saya ingin membagikan eksperimen saya tentang mengklasifikasikan sekitar 0,3 juta data biner dengan mayoritas nilai palsu. Saya telah menggunakan Linear SVM, pohon Kompleks, LDA, QDA, regresi logistik dll. Semua metode ini memiliki efisiensi sekitar 54%, yang tidak baik. Menurut profesor saya, metode klasifikasi yang dapat membantu saya dalam masalah ini adalah Neural Networks, Quadratic SVM tetapi saya belum mengujinya. Saya harap ini bisa membantu.
sumber