Manakah dari set pilihan langkah di bawah ini yang benar ketika membuat model prediksi?
Pilihan 1:
Pertama, hilangkan prediktor yang paling buruk, dan siapkan yang tersisa jika perlu, kemudian latih berbagai model dengan validasi silang, pilih beberapa yang terbaik, identifikasi prediktor teratas yang digunakan masing-masing, kemudian latih kembali model-model tersebut dengan hanya prediktor tersebut dan evaluasi keakuratannya. lagi dengan cross-validation, lalu pilih yang terbaik dan latihlah pada set pelatihan lengkap menggunakan prediktor utamanya dan kemudian gunakan untuk memprediksi set tes.
Pilihan 2:
Pertama menghilangkan prediktor yang paling buruk, kemudian memproses sisanya jika diperlukan, kemudian menggunakan teknik pemilihan fitur seperti pemilihan fitur rekursif (mis. RFE dengan rf) dengan validasi silang misalnya untuk mengidentifikasi jumlah ideal dari prediktor kunci dan apa yang diprediksi oleh para prediktor ini. adalah, kemudian latih tipe model yang berbeda dengan validasi silang dan lihat mana yang memberikan akurasi terbaik dengan prediktor top yang diidentifikasi sebelumnya. Kemudian latih salah satu model terbaik lagi dengan prediktor tersebut pada set pelatihan penuh dan kemudian gunakan untuk memprediksi set tes.
Jawaban:
Saya menemukan kedua opsi Anda sedikit salah. Jadi, ini umumnya (sangat luas) bagaimana alur kerja pemodelan prediktif terlihat seperti:
sumber
Di mana pemilihan fitur menemukan tempat di saluran pipa Anda tergantung pada masalahnya. Jika Anda tahu data Anda dengan baik, Anda dapat memilih fitur berdasarkan pengetahuan ini secara manual. Jika tidak - percobaan dengan model menggunakan validasi silang mungkin yang terbaik. Mengurangi sejumlah fitur priorat dengan beberapa teknik tambahan seperti chi2 atau PCA sebenarnya dapat mengurangi akurasi model.
Dalam pengalaman saya dengan klasifikasi teks dengan SGD classifier misalnya meninggalkan semua seratus ribu kata dikodekan sebagai fitur biner membawa hasil yang lebih baik dibandingkan dengan mengurangi menjadi beberapa ribu atau ratusan. Waktu pelatihan sebenarnya lebih cepat dengan semua fitur karena pemilihan fitur agak lambat dengan toolset saya (sklearn) karena tidak stokastik seperti SGD.
Multikolinearitas adalah sesuatu yang harus diwaspadai, tetapi penafsiran fitur mungkin sama pentingnya.
Kemudian orang-orang melaporkan mendapatkan hasil terbaik dengan ansambel model. Setiap model menangkap bagian tertentu dari ruang informasi yang lebih baik daripada yang lain. Itu juga akan menghalangi Anda untuk memilih fitur sebelum mencocokkan semua model yang akan Anda masukkan ke dalam ansambel Anda.
sumber