Saya mencoba untuk mengklasifikasikan pesan ke dalam kategori yang berbeda menggunakan SVM. Saya telah menyusun daftar kata / simbol yang diinginkan dari set pelatihan.
Untuk setiap vektor, yang mewakili pesan, saya mengatur baris yang sesuai 1
jika kata tersebut ada:
"corpus" adalah: [mary, little, lamb, star, twinkle]
pesan pertama: "mary had a little lamb" -> [1 1 1 0 0]
pesan kedua: "twinkle little star" -> [0 1 0 1 1]
Saya pikir ini adalah pengaturan yang cukup umum dengan SVM, tetapi pertanyaan saya adalah, dengan ribuan kata di set, bagaimana jika hanya ada 1-2 kata per pesan yang benar-benar muncul? Apakah ketergantungan linier dari himpunan vektor pelatihan saya akan memengaruhi kemampuan algoritma untuk menyatu?
classification
svm
sparse
jonsca
sumber
sumber
flexmix
- meskipun, saya sudah "Belajar R" di kalender saya selama beberapa tahun sekarang!Jawaban:
Sparsitas dan ketergantungan linear adalah dua hal yang berbeda. Ketergantungan linear menyiratkan bahwa beberapa vektor fitur merupakan kelipatan sederhana dari vektor fitur lainnya (atau sama dengan yang diterapkan pada contoh). Dalam pengaturan yang telah Anda jelaskan saya pikir ketergantungan linear tidak mungkin (ini menyiratkan dua istilah memiliki frekuensi yang sama (atau kelipatannya) di semua dokumen). Cukup memiliki fitur yang jarang tidak menimbulkan masalah untuk SVM. Salah satu cara untuk melihat ini adalah Anda dapat melakukan rotasi acak dari sumbu koordinat, yang akan membuat masalah tidak berubah dan memberikan solusi yang sama, tetapi akan membuat data benar-benar non-jarang (ini sebagian cara proyeksi acak bekerja ).
Juga tampak bahwa Anda berbicara tentang SVM dalam primal . Perhatikan bahwa jika Anda menggunakan kernel SVM, hanya karena Anda memiliki dataset jarang tidak berarti bahwa matriks kernel akan jarang. Namun, mungkin peringkatnya rendah. Dalam hal ini Anda sebenarnya dapat memanfaatkan fakta ini untuk pelatihan yang lebih efisien (lihat misalnya pelatihan svm yang efisien menggunakan representasi kernel peringkat rendah ).
sumber