Klasifikasi mana yang lebih akurat untuk klasifikasi SVM?

10

Saya belajar klasifikasi SVM dan menemui masalah. Saya tidak yakin apakah dilema ini memiliki terminologi untuk itu.

Asumsikan kami ingin mengklasifikasikan pasien berdasarkan SVM dengan memberikan sampel orang sehat (baik jenis kelamin) dan orang dengan kanker hati (baik jenis kelamin). Jika kita memberi label sampel orang sehat sebagai kelas 1 dan penderita kanker sebagai kelas 2, kita bisa melatih SVM biner dan mendapatkan classifier 1 untuk memprediksi pasien baru. Sekarang, gambar skenario lain. Asumsikan bahwa kita membagi semua sampel berdasarkan jenis kelamin sebelum klasifikasi SVM. Untuk setiap jenis kelamin, kami masih memberi label pasien sehat vs pasien kanker menjadi 2 kelas dan melatih SVM biner untuk mendapatkan classifier 2 dan classifier 3 untuk sampel wanita dan pria masing-masing. Pertanyaannya adalah apakah ada pasien wanita baru, yang mana classifier, 1 atau 2, harus digunakan untuk mendapatkan prediksi yang lebih akurat? Inilah dilema untuk argumen yang saya miliki

(1) Ketika jumlah sampel besar, prediksi harus lebih akurat. Berdasarkan argumen ini, classifier 1 tampaknya merupakan pilihan yang baik.

(2) Namun, jika kita membagi sampel menjadi kelompok perempuan dan laki-laki terlebih dahulu, penggolong 2 tampaknya merupakan pilihan yang lebih baik karena pasien baru (sampel uji yang tidak diketahui) adalah perempuan.

Apakah dilema semacam ini memiliki terminologi atau ada yang tahu informasi lebih lanjut atau bagaimana menyelesaikan masalah seperti ini? Saya bahkan tidak yakin apakah ini pertanyaan yang sah dan maaf atas pertanyaan naif sebelumnya. Terima kasih

Cassie
sumber
4
Ini tidak dapat dijawab secara umum. Mungkin jika kita tahu berapa banyak jenis kelamin mempengaruhi kanker dan berapa banyak sampel yang Anda miliki, fungsi kerugian yang Anda gunakan dll. Mungkin lebih mudah untuk bereksperimen menggunakan validasi silang.
adrianN
Terima kasih. Masuk akal. Saya kira seharusnya tidak ada aturan umum.
Cassie
ini terdengar seperti pertanyaan ML umum tentang "bagaimana saya harus menggunakan ML untuk menyelesaikan masalah ini". tidak ada jawaban standar. ini penting / diterima / standar untuk mencoba pendekatan yang berbeda dan melihat strategi mana yang mengarah pada hasil prediksi paling akurat. heading umum adalah sesuatu seperti "representasi dari masalah dunia nyata dalam kerangka kerja ML abstrak" atau kira-kira "pemodelan" & tercakup dalam referensi std yang baik .... lihat juga stats.se
vzn

Jawaban:

2

Anda harus melihat pada pemilihan Fitur dan algoritma yang mengotomatiskan proses ini. Tidak apa-apa jika Anda baru mengenal ML dan tidak memahami seluruh proses pemilihan fitur, cukup dapatkan intuisi yang tepat dan kemudian Anda dapat menggunakan perpustakaan untuk mengotomatiskan proses.

Ide kunci dari memiliki algoritma Learning adalah agar ia dapat menemukan pola ... yang paling dapat Anda lakukan, adalah bantuan dia keluar dengan menyediakan banyak data (non-redundant) dan memiliki baik preprocessing langkah, yang biasanya melibatkan hal-hal seperti pemilihan fitur, dan normalisasi .

Pada catatan yang ramah, ketika menerapkan algoritma pembelajaran, Anda tidak boleh mencoba untuk mengubah dataset Anda hanya dengan 'melihatnya', kecuali jika Anda memiliki metrik konkret yang bersaksi perlu modifikasi, banyak kali, itu telah menjadi kasus, bahwa pembelajaran Algoritma menempatkan bias tinggi terhadap fitur-fitur yang tampaknya tidak 'terkait' dari proses klasifikasi. Selalu mencoba melakukan langkah pemilihan fitur sebelum mencoba modifikasi pada data Anda.

Subhayan
sumber
1

satu heading umum untuk jenis langkah proses pembelajaran mesin ini adalah preprocessing data yang dikatakan wikipedia mencakup "pembersihan, normalisasi, transformasi, ekstraksi fitur dan seleksi, dll".

aspek lain dari pembelajaran mesin adalah "menciptakan model". ini melibatkan keputusan misalnya tentang berapa banyak kelas yang akan terdeteksi, apa "ukuran" atau "dimensi" dari struktur ML akan (mis. "berapa kernel yang akan dimasukkan oleh SVM" dll, kira-kira analog dengan pilihan jumlah neuron dalam NN). model). sayangnya beberapa referensi cenderung mengabaikan atau "mengabaikan" langkah ini. tetapi perhatikan kesamaannya dengan statistik dan beberapa buku statistik akan memiliki deskripsi yang baik.

dalam pendekatan tipe ML adalah konvensional bahwa ada proses iteratif / umpan balik / evolusi yang kuat untuk menentukan preprocessing dan pemodelan yang efektif. Eksperimen mencoba berbagai praproses dan memodelkan ide dan bergerak ke arah yang lebih sukses. aturan umum adalah "semakin baik prediksi, semakin banyak yang benar [dan mungkin juga realistis ] preprocessing dan pemodelan", tetapi juga mengingat bahwa overfitting secara hati-hati dikesampingkan.

vzn
sumber