Paket libsvm yang luar biasa menyediakan antarmuka python dan file "easy.py" yang secara otomatis mencari parameter pembelajaran (biaya & gamma) yang memaksimalkan akurasi classifier. Dalam satu set parameter pembelajaran kandidat tertentu, keakuratan dioperasionalkan dengan validasi silang, tetapi saya merasa seperti ini merusak tujuan validasi silang. Yaitu, sejauh parameter pembelajaran itu sendiri dapat dipilih dengan cara yang dapat menyebabkan data tidak sesuai, saya merasa pendekatan yang lebih tepat adalah dengan menerapkan validasi silang pada tingkat pencarian itu sendiri: melakukan pencarian pada set data pelatihan dan kemudian mengevaluasi akurasi tertinggi SVM yang dihasilkan dari parameter pembelajaran yang akhirnya dipilih oleh evaluasi dalam set data pengujian terpisah. Atau saya kehilangan sesuatu di sini?
sumber
Saya tidak berpikir validasi silang disalahgunakan dalam kasus LIBSVM karena dilakukan pada tingkat data pengujian. Yang dilakukannya hanyalah validasi silang k-fold dan cari parameter terbaik untuk kernel RBF. Biarkan saya tahu Anda tidak setuju.
sumber