Haruskah pencarian kisi SVM menunjukkan wilayah dengan akurasi tinggi dengan akurasi rendah?

12

Saya memiliki 12 perangkat pelatihan positif (sel kanker yang diobati dengan obat dengan masing-masing dari 12 mekanisme aksi yang berbeda). Untuk setiap rangkaian pelatihan positif ini, saya ingin melatih mesin vektor-dukungan untuk membedakannya dari set negatif dengan ukuran yang sama yang disampling dari percobaan. Setiap set memiliki antara 1000 dan 6000 sel, dan ada 476 fitur (fitur gambar) dari masing-masing sel, masing-masing diskalakan secara linear hingga [0, 1].

Saya menggunakan LIBSVM dan kernel Gaussian RGB. Menggunakan validasi silang lima kali lipat, saya telah melakukan pencarian grid untuk log₂ C ∈ [-5, 15] dan log₂ ɣ ∈ [-15, 3]. Hasilnya adalah sebagai berikut:

Hasil pencarian kisi

Saya kecewa karena tidak ada satu set parameter yang memberikan akurasi tinggi untuk semua 12 masalah klasifikasi. Saya juga terkejut bahwa grid umumnya tidak menunjukkan wilayah dengan akurasi tinggi dikelilingi oleh akurasi yang lebih rendah. Apakah ini hanya berarti bahwa saya perlu memperluas ruang parameter pencarian, atau apakah pencarian kotak indikasi bahwa ada sesuatu yang salah?

Vebjorn Ljosa
sumber
2
Re kekecewaan: Anda tidak akan mengharapkan setiap masalah untuk memiliki parameter yang sama, jadi mengapa akan Anda harapkan masalah untuk nilai saham yang baik untuk hyperparameters (log gamma dan C)?
conjugateprior
@Conjugate Prior: Set pelatihan adalah himpunan bagian dari percobaan yang sama, dan set pelatihan negatif diambil dari populasi yang sama, jadi saya berharap bahwa lebar kernel RBF yang sama ɣ akan efektif. Karena set positif sedang didiskriminasi dari latar belakang (negatif) populasi yang sama, saya berharap bahwa hukuman ideal C akan sama juga. Jika ini tidak terjadi, itu membuat SVM sangat sulit untuk diterapkan. Boosting yang lembut, misalnya, tampaknya lebih mudah untuk disetel.
Vebjorn Ljosa
Aha. Tetapi menurut saya, meskipun ini adalah eksperimen yang sama dalam arti fisik, Anda tetap menyerang masalah yang berbeda dan berbeda dalam arti statistik. Terutama jika kasus negatif diresampled untuk setiap perawatan.
conjugateprior
1
BTW, pencarian grid agak tidak efisien, algoritma optimisasi simpleks Nelder-Mead sangat efektif, seperti metode optimasi gradient descent. Pencarian kotak sederhana, tetapi sedikit "brute force".
Dikran Marsupial
@ Vebjorn Ljosa (setahun kemudian), berapa banyak nilai 5 tersebar, katakan di final (C, gamma)? Apakah 12 plot semuanya sama, misalkan 50% .. prediksi 100% benar? Terima kasih
denis

Jawaban:

9

Nilai optimal untuk parameter-hiper akan berbeda untuk pengambilan pembelajaran yang berbeda, Anda harus menyetelnya secara terpisah untuk setiap masalah.

Alasan Anda tidak mendapatkan satu pun optimal adalah karena parameter kernel dan parameter regularisasi mengontrol kompleksitas model. Jika C kecil, Anda mendapatkan model yang mulus, demikian juga jika kernel dengan luas, Anda akan mendapatkan model yang mulus (karena fungsi dasarnya tidak terlalu lokal). Ini berarti bahwa kombinasi C yang berbeda dan lebar kernel mengarah ke model yang sama rumitnya, dengan kinerja yang sama (itulah sebabnya Anda mendapatkan fitur diagonal di banyak plot yang Anda miliki).

Yang optimal juga tergantung pada sampling tertentu dari set pelatihan. Dimungkinkan untuk melakukan over-fit error cross-validation, jadi memilih parameter-hiper dengan cross-validation benar-benar dapat membuat kinerja lebih buruk jika Anda kurang beruntung. Lihat Cawley dan Talbot untuk beberapa diskusi tentang ini.

Fakta bahwa ada dataran tinggi nilai untuk parameter-hiper di mana Anda mendapatkan nilai yang sama baiknya sebenarnya adalah fitur yang baik dari mesin vektor dukungan karena menunjukkan bahwa mereka tidak terlalu rentan untuk terlalu pas dalam pemilihan model. Jika Anda memiliki puncak yang tajam pada nilai-nilai optimal, itu akan menjadi hal yang buruk karena puncak akan sulit ditemukan menggunakan dataset terbatas yang akan memberikan indikasi tidak dapat diandalkan di mana puncak itu sebenarnya berada.

Dikran Marsupial
sumber
BTW Saya sedang melakukan studi tentang pemilihan model yang terlalu pas menggunakan pencarian jaringan, yang ternyata jauh lebih menarik dari yang saya pikirkan. Bahkan dengan beberapa parameter-hiper, Anda masih dapat menyesuaikan kriteria pemilihan model jika Anda mengoptimalkan di atas kisi yang terlalu bagus!
Dikran Marsupial
Saya mendekati akhir pekerjaan simulasi sekarang, mudah-mudahan saya akan dapat menyerahkan makalah dalam satu atau dua bulan ...
Dikran Marsupial
Saya akan tertarik untuk membaca makalah itu jika sudah selesai? Saya telah menemukan beberapa paku aneh dll dalam optimisasi pencarian grid yang tampaknya mirip dengan apa yang Anda diskusikan di sini.
BGreene
Semua pekerjaan simulasi sekarang selesai, saya hanya menempatkan kertas bersama saat ini (kebanyakan hanya memastikan bahwa semuanya sepenuhnya direproduksi). Saya telah menyimpan semua grid sehingga beberapa analisis ulang harus dimungkinkan untuk melihat pertanyaan lain yang saya tidak pikirkan saat itu.
Dikran Marsupial