Saya bingung tentang bagaimana cara mempartisi data untuk validasi lintas k-fold pembelajaran ensemble.
Dengan asumsi saya memiliki kerangka kerja ensemble untuk klasifikasi. Lapisan pertama saya berisi model klasifikasi, misalnya svm, pohon keputusan.
Lapisan kedua saya berisi model pemungutan suara, yang menggabungkan prediksi dari lapisan pertama dan memberikan prediksi akhir.
Jika kita menggunakan validasi 5 lipatan silang, saya berpikir untuk menggunakan 5 lipatan sebagai berikut:
- 3 lipatan untuk melatih lapisan pertama
- 1 kali lipat untuk melatih lapisan kedua
- 1 kali lipat untuk pengujian
Apakah ini cara yang benar? Haruskah data pelatihan untuk lapisan pertama dan kedua bersifat independen? Saya pikir mereka harus independen sehingga kerangka kerja ansambel akan kuat.
Teman saya menyarankan data pelatihan untuk lapisan pertama dan kedua harus sama, yaitu
- 4 lipatan untuk pelatihan lapisan pertama dan kedua
- 1 kali lipat untuk pengujian
Dengan cara ini, kita akan memiliki kesalahan yang lebih akurat dari kerangka kerja pembelajaran ensemble, dan penyempurnaan kerangka secara iteratif akan lebih akurat, karena didasarkan pada data pelatihan tunggal. Selain itu, lapisan kedua mungkin bias terhadap data pelatihan independen
Setiap saran sangat dihargai
sumber