membangun model klasifikasi untuk data biner ketat

8

saya punya satu set data yang benar-benar biner. setiap set nilai variabel berada di domain: true, false.

properti "khusus" dari kumpulan data ini adalah bahwa mayoritas dari nilai-nilai itu "salah".

Saya telah menggunakan algoritma pembelajaran jaringan bayesian untuk mempelajari jaringan dari data. Namun, untuk salah satu node target saya (yang paling penting, menjadi mati), hasil AUC tidak terlalu baik; ini sedikit lebih baik daripada kebetulan. bahkan nilai prediktif positif (PPV), yang telah disarankan kepada saya di CV, tidak bersaing dengan apa yang dilaporkan dalam literatur dengan pendekatan lain. perhatikan bahwa AUC (analisis ROC) adalah patokan khas yang dilaporkan dalam bidang penelitian klinis ini, tetapi saya juga terbuka untuk saran tentang bagaimana cara lebih tepat membandingkan model klasifikasi jika ada ide lain.

jadi, saya bertanya-tanya apa model klasifikasi lain yang bisa saya coba untuk jenis kumpulan data dengan properti ini (kebanyakan nilai-nilai palsu).

  • akan mendukung bantuan mesin vektor? Sejauh yang saya tahu, SVM hanya berurusan dengan variabel kontinu sebagai prediktor (meskipun telah disesuaikan dengan multi-kelas). tapi variabel saya semuanya biner.
  • akankah hutan secara acak membantu?
  • apakah regresi logistik berlaku di sini? Sejauh yang saya tahu, prediktor dalam regresi logistik juga berkelanjutan. apakah ada versi umum untuk variabel biner sebagai prediktor?

Selain dari kinerja klasifikasi, saya menduga SVM dan hutan acak mungkin sangat baik mengungguli jaringan bayesian, tetapi masalahnya bergeser ke bagaimana menjelaskan hubungan dalam model ini (terutama untuk dokter).

Jane Wayne
sumber
Ini telah ditanyakan berkali-kali, saya telah menjawab pertanyaan serupa di sini: stats.stackexchange.com/questions/78469/… dan di sini: stats.stackexchange.com/questions/67755/… dan mengenai bagaimana menginterpretasikan output, Anda harus memeriksa bagaimana menafsirkan efek marginal dari variabel penjelas Anda pada variabel target Anda. Lihatlah misalnya: hosho.ees.hokudai.ac.jp/~kubo/Rdoc/library/randomForest/html/…
JEquihua
Jika data Anda sangat jarang dan umumnya sangat buruk, Anda mungkin ingin mencari classifier tetangga terdekat. Padahal pastikan untuk menimbang fitur Anda dengan benar.
Akavall
@Akavall, bisakah Anda memberikan beberapa petunjuk tentang menimbang fitur dengan benar? mereka semua biner (prediktor dan variabel kelas). saya ingin tetap menggunakan PPV sebagai bobot utama, tetapi saya juga bisa menggunakan informasi timbal balik juga. atau saya kira saya dapat menggunakan sejumlah analisis asosiasi tabel kontingensi.
Jane Wayne
@JaneWayne, tetangga terdekat tidak melakukan apa pun dalam hal pemilihan fitur / pembobotan fitur; jika fitur-fiturnya buruk atau terbobot secara tidak tepat, algoritma akan melakukan hal yang sangat buruk, di sisi lain jika fitur-fitur tersebut tertimbang dengan benar, algoritma sederhana ini dapat melakukannya dengan sangat baik. Namun, berbobot dengan benar tidak mudah. Dan solusi Anda saat ini mungkin sudah baik. Jika Anda tahu sesuatu tentang kumpulan data, Anda bisa menetapkan bobot lebih besar secara manual untuk beberapa fitur. Atau jika Anda dapat mengevaluasi kinerja model pada waktu yang berbeda, Anda dapat mengadaptasi beberapa jenis algoritma heuristik pembelajaran untuk memilih
Akavall
fitur berdasarkan kinerja. Namun, di sini Anda harus mengasumsikan bahwa fungsi objektif yang Anda coba maksimalkan relatif lancar, dan ada biaya akibat eksplorasi dan eksploitasi trade off.
Akavall

Jawaban:

4

akan mendukung bantuan mesin vektor? Sejauh yang saya tahu, SVM hanya berurusan dengan variabel kontinu sebagai prediktor ...

Variabel biner bukan masalah untuk SVM. Bahkan ada kernel khusus untuk data seperti itu (Hamming kernel, Tanimoto / Jaccard kernel), meskipun saya tidak merekomendasikan menggunakan mereka jika Anda tidak akrab dengan metode kernel.

apakah regresi logistik berlaku di sini? Sejauh yang saya tahu, prediktor dalam regresi logistik juga berkelanjutan

Regresi logistik bekerja dengan prediktor biner. Ini mungkin pilihan terbaik Anda.

bagaimana menjelaskan hubungan dalam model ini (terutama kepada dokter).

Jika Anda menggunakan SVM linear, cukup mudah untuk menjelaskan apa yang terjadi. Regresi logistik adalah pilihan yang lebih baik, meskipun, karena kebanyakan clinicials benar-benar tahu model ini (dan dengan tahu maksud saya telah mendengar ).

Marc Claesen
sumber
1

Saya ingin membagikan eksperimen saya tentang mengklasifikasikan sekitar 0,3 juta data biner dengan mayoritas nilai palsu. Saya telah menggunakan Linear SVM, pohon Kompleks, LDA, QDA, regresi logistik dll. Semua metode ini memiliki efisiensi sekitar 54%, yang tidak baik. Menurut profesor saya, metode klasifikasi yang dapat membantu saya dalam masalah ini adalah Neural Networks, Quadratic SVM tetapi saya belum mengujinya. Saya harap ini bisa membantu.

Animate_Ant
sumber