SVM rbf kernel - metode heuristik untuk memperkirakan gamma

8

Saya membaca tentang pertukaran ini metode heuristik untuk memperkirakan gamma untuk kernel rbf di SVM. Saya bertanya-tanya apakah seseorang mungkin bisa menjelaskannya kepada saya dengan sedikit lebih detail? Saya percaya Anda memilih 1000 (atau sejumlah besar) pasang titik data dari dataset kemudian menghitung norma untuk perbedaan masing-masing pasangan. Rupanya, kebalikan dari .1, .9 kuantil dan median adalah kandidat yang baik untuk gamma yang cocok untuk kernel rbf.

Terima kasih

tomas
sumber
Lihat juga jawaban ini untuk pertanyaan rangkap
denis

Jawaban:

8

Pertama-tama, tidak ada alasan-kecuali biaya komputasi-untuk tidak menggunakan seluruh dataset Anda. Selama Anda tidak menggunakan informasi label, tidak ada alasan untuk tidak menggunakan semua informasi yang dapat Anda peroleh dari data Anda.

Mengapa kuantil jarak adalah heuristik yang baik? Solusi dari masalah SVM adalah kombinasi linear dari kernel RBF yang berada di vektor dukungan . Selama fase pembelajaran, optimisasi mengadaptasi untuk memaksimalkan margin sambil mempertahankan klasifikasi yang benar.iyiαiexp(γ||xxi||2)αi

Sekarang, ada dua kasus ekstrem untuk pilihan :γ

  1. Bayangkan sangat kecil, yang berarti bahwa kernel RBF sangat luas. Mari kita asumsikan bahwa itu sangat luas sehingga kernel RBF masih cukup positif untuk setiap titik data dari dataset. Ini mungkin akan memberikan pengoptimal kerja keras karena mengubah nilai tunggal akan mengubah fungsi keputusan pada semua titik data karena kernel terlalu lebar.γαi
  2. Situasi ekstrem lainnya adalah ketika besar, yang berarti bahwa kernel RBF sangat sempit. Ketika mengubah untuk datapoint itu, fungsi keputusan SVM pada dasarnya akan berubah hanya untuk datapoint itu saja. Ini berarti bahwa mungkin semua vektor pelatihan akan berakhir sebagai vektor dukungan. Ini jelas tidak diinginkan.γαi

Untuk melihat bahwa heuristik adalah pilihan yang baik, kita harus menyadari bahwa nilai tertentu dari menentukan batas untuk kernel RBF di mana kernel akan lebih besar dari nilai tertentu (seperti parameter-a- kuantil untuk Normal). distribusi). Dengan memilih sesuai dengan kuantil pada jarak berpasangan Anda memastikan bahwa persentase tertentu dari titik data terletak di dalam batas itu. Oleh karena itu, jika Anda mengubah untuk datapoint, Anda sebenarnya hanya akan memengaruhi fungsi keputusan untuk persentase tertentu dari datapoint yang Anda inginkan. Bagaimana persentase itu harus dipilih tergantung pada masalah belajar, tetapi Anda menghindari mengubah fungsi keputusan untuk semua atauγσγαihanya satu titik data.

Fabee
sumber
Terima kasih Fabee, itu masuk akal. Saya ingin tahu karena biaya perhitungan melakukan validasi silang + pencarian grid dengan set data saya. Saya juga berurusan dengan deret waktu, jadi melakukan validasi lintas jenis jendela bergulir daripada k-fold. Jika Anda memiliki saran mempercepat pasti terbuka untuk mereka. Atau saran tentang berurusan dengan data deret waktu (tergantung otomatis). Terima kasih.
tomas
Maaf, saya tidak punya saran yang baik dari atas kepala saya. Masalahnya adalah bahwa data tidak iid lagi. Salah satu cara sederhana menyingkirkan autokorelasi untuk melatih model autoregresif dan mengurangi prediksi dari titik data. Ini pada dasarnya memutihkan.
Fabee
1

Ya! Anda menggambarkan apa yang disebut "trik median".

Saya sangat suka intuisi di balik jawaban di atas. Saya juga berpikir lebih mudah untuk memahami masalah memilih dengan menganggapnya sebagai kebalikan dari varian RBF, à la sehingga RBF menjadi γ

γ=12σ2
ϕ(x)=exxi22σ2

Sekarang sudah jelas bahwa masalah mencari yang baik pada dasarnya sama dengan mencari varian yang bagus untuk fungsi Gaussian (minus faktor penskalaan).γ

Untuk melakukan ini, kita beralih ke penaksir varians, tetapi alih-alih menghitung varians melalui jarak kuadrat rata-rata dari beberapa seperti , kita menghitung kuantil pada jarak kuadrat itu.xiE[(xxi)2]

Seperti yang dikatakan oleh poster di atas, menggunakan kuantil memberi kita kendali atas berapa banyak titik data yang berada dalam satu (atau dua, atau tiga ..) standar deviasi fungsi Gaussian kita.

dswah
sumber