Dalam -SVR, parameter digunakan untuk menentukan proporsi jumlah vektor dukungan yang ingin Anda simpan dalam solusi Anda sehubungan dengan jumlah total sampel dalam dataset. Dalam -SVR parameter dimasukkan ke dalam formulasi masalah optimisasi dan diperkirakan secara otomatis (optimal) untuk Anda.ν ν ϵνννϵ
Namun, dalam -SVR Anda tidak memiliki kontrol pada berapa banyak vektor data dari dataset menjadi vektor pendukung, bisa beberapa, bisa banyak. Meskipun demikian, Anda akan memiliki kontrol total dari berapa banyak kesalahan yang Anda akan memungkinkan untuk memiliki model Anda, dan segala sesuatu di luar ditentukan akan dikenakan sanksi sebanding dengan , yang merupakan parameter regularisasi.ϵ CϵϵC
Tergantung dari apa yang saya inginkan, saya memilih di antara keduanya. Jika saya benar-benar putus asa untuk solusi kecil (vektor dukungan lebih sedikit) saya memilih -SVR dan berharap untuk mendapatkan model yang layak. Tetapi jika saya benar-benar ingin mengendalikan jumlah kesalahan dalam model saya dan mencari kinerja terbaik, saya memilih -SVR dan berharap bahwa modelnya tidak terlalu rumit (banyak vektor dukungan).ϵνϵ
Saya suka jawaban Pablo dan Marc. Satu poin tambahan:
Dalam makalah yang dikutip oleh Marc ada tertulis (bagian 4)
"Motivasi -SVR adalah bahwa mungkin tidak mudah untuk menentukan parameter . Oleh karena itu, di sini kami tertarik pada kisaran yang mungkin dari . Seperti yang diharapkan, hasil menunjukkan bahwa terkait dengan nilai target .ν ϵ ϵ ϵ y
[...]
Karena rentang efektif dari dipengaruhi oleh nilai target , cara untuk mengatasi kesulitan ini untuk -SVM adalah dengan menskalakan nilai target sebelum melatih data. Misalnya, jika semua nilai target diskalakan ke , maka rentang efektif dari adalah , sama dengan . Maka mungkin lebih mudah untuk memilih . "ϵ y ϵ [−1,+1] ϵ [0,1] ν ϵ
Itu membuat saya berpikir bahwa seharusnya lebih mudah untuk mengukur variabel target Anda dan menggunakan -SVR, daripada mencoba memutuskan apakah akan menggunakan atau SVR.ϵ ϵ− ν−
Bagaimana menurut anda?
sumber