Output dari Scikit SVM dalam klasifikasi multiclass selalu memberikan label yang sama

10

Saat ini saya menggunakan Scikit belajar dengan kode berikut:

clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, 
              class_weight='auto')

dan kemudian cocok dan memprediksi untuk satu set data dengan 7 label berbeda. Saya mendapat hasil yang aneh. Tidak peduli teknik validasi silang mana yang saya gunakan label prediksi pada set validasi akan selalu menjadi label 7.

Saya mencoba beberapa parameter lain, termasuk yang default penuh ( svm.SVC()) tetapi selama metode kernel yang saya gunakan rbfbukan polyatau linearitu tidak akan berfungsi, sementara itu berfungsi dengan sangat baik untuk polydan linear.

Selain itu saya sudah mencoba prediksi pada data kereta bukan data validasi dan sangat cocok.

Adakah yang melihat masalah seperti ini sebelumnya dan tahu apa yang terjadi di sini?

Saya tidak pernah melihat distribusi kelas saya secara detail tetapi saya tahu seharusnya sekitar 30% dari mereka adalah 7, 14% adalah 4.

Saya bahkan mencoba implementasi 1-vs-rest manual dan itu masih tidak membantu.

Tamaki Sakura
sumber
Berapa proporsi data Anda yang termasuk dalam masing-masing kelas?
gung - Reinstate Monica
Memang ada lebih banyak "7" dalam data saya tetapi tidak sebanyak itu. Sekitar 30% dari mereka adalah 7. @ gung
Tamaki Sakura

Jawaban:

10

Cγ

scikit-learn memiliki fasilitas pencarian hyperparameter terbatas, tetapi Anda dapat menggunakannya bersama-sama dengan perpustakaan tuning seperti Optunity . Contoh tentang menyetel scikit-belajar SVC dengan Optunity tersedia di sini .

Penafian: Saya adalah pengembang utama Optunity.

Marc Claesen
sumber
Saya telah benar-benar mencoba setiap kombinasi C dan gamma yang merupakan kekuatan 10 dari 0 hingga 4 tetapi semuanya memberi saya penuh 7. Saya bahkan mulai ragu apakah saya menyusun scikit belajar dengan cara yang benar.
Tamaki Sakura
8

Masalahnya ternyata pengujian parameter. Saya tidak mencoba kapan gammaberada di antara 0,0 (yaitu 1 / n_feature) dan 1. Pada data saya gammaharus beralih ke sesuatu di sekitar1e-8

Tamaki Sakura
sumber
4
γ