Kami memiliki satu set sampel biologis yang cukup mahal untuk diperoleh. Kami menempatkan sampel ini melalui serangkaian tes untuk menghasilkan data yang digunakan untuk membangun model prediksi. Untuk tujuan ini kami telah membagi sampel ke set pelatihan (70%) dan pengujian (30%). Kami telah berhasil membuat model dan menerapkannya pada set pengujian untuk menemukan bahwa kinerjanya "kurang optimal". Para peneliti sekarang ingin meningkatkan tes biologis untuk menciptakan model yang lebih baik. Asalkan kami tidak dapat memperoleh sampel baru, apakah Anda menyarankan kami untuk mengacak-acak sampel untuk membuat set pelatihan dan validasi baru atau tetap dengan divisi asli. (Kami tidak memiliki indikasi bahwa divisi itu bermasalah).
9
Jawaban:
Karena Anda sudah menggunakan sampel penahan, saya akan mengatakan Anda harus menyimpannya dan membangun model baru Anda pada sampel pelatihan yang sama sehingga semua model akan mempertimbangkan hubungan yang sama antara fitur. Selain itu, jika Anda melakukan pemilihan fitur, sampel harus ditinggalkan sebelum tahapan penyaringan ini; yaitu, pemilihan fitur harus dimasukkan dalam loop validasi silang.
Sebagai catatan, ada metode yang lebih kuat daripada pemecahan 0,67 / 0,33 untuk pemilihan model, yaitu k-fold cross-validation atau leave-one-out. Lihat misalnya Elemen Pembelajaran Statistik (§7.10, hlm. 241-248), www.modelselection.org atau Survei prosedur validasi silang untuk pemilihan model oleh Arlot dan Celisse (diperlukan latar belakang matematika lebih lanjut).
sumber