Saya menggunakan caret
paket R
untuk pelatihan pengklasifikasi biner SVM. Untuk pengurangan fitur, saya melakukan preprocessing dengan PCA menggunakan fitur preProc=c("pca")
bawaan saat menelepon train()
. Ini pertanyaan saya:
- Bagaimana caret memilih komponen utama?
- Apakah ada sejumlah komponen utama yang dipilih?
- Apakah komponen utama dipilih oleh sejumlah varian yang dijelaskan (mis. 80%)?
- Bagaimana saya bisa mengatur jumlah komponen utama yang digunakan untuk klasifikasi?
- (Saya mengerti bahwa PCA harus menjadi bagian dari validasi silang luar untuk memungkinkan perkiraan prediksi yang dapat diandalkan.) Haruskah PCA juga diimplementasikan dalam siklus validasi silang dalam (estimasi parameter)?
- Bagaimana caret mengimplementasikan PCA dalam cross-validation?
Jawaban:
Secara default, caret menjaga komponen yang menjelaskan 95% dari varians.
Tetapi Anda dapat mengubahnya dengan menggunakan
thresh
parameter.Anda juga dapat mengatur sejumlah komponen tertentu dengan mengatur
pcaComp
parameter.Jika Anda menggunakan kedua parameter,
pcaComp
lebih diutamakanthresh
.Silakan lihat: https://www.rdocumentation.org/packages/caret/versions/6.0-77/topics/preProcess
sumber