Haruskah saya mengacak ulang data saya?

9

Kami memiliki satu set sampel biologis yang cukup mahal untuk diperoleh. Kami menempatkan sampel ini melalui serangkaian tes untuk menghasilkan data yang digunakan untuk membangun model prediksi. Untuk tujuan ini kami telah membagi sampel ke set pelatihan (70%) dan pengujian (30%). Kami telah berhasil membuat model dan menerapkannya pada set pengujian untuk menemukan bahwa kinerjanya "kurang optimal". Para peneliti sekarang ingin meningkatkan tes biologis untuk menciptakan model yang lebih baik. Asalkan kami tidak dapat memperoleh sampel baru, apakah Anda menyarankan kami untuk mengacak-acak sampel untuk membuat set pelatihan dan validasi baru atau tetap dengan divisi asli. (Kami tidak memiliki indikasi bahwa divisi itu bermasalah).

DavidDong
sumber
1
Bagaimana Anda membagi data? Secara acak, dengan tangan, atau metode lain? Padahal, sebenarnya, bagian tentang "model berhasil dibuat" adalah bagian yang jauh lebih besar dari masalah. Sebelum melakukan hal-hal mahal, Anda harus melihat apakah Anda menggunakan jenis model yang sesuai, apakah Anda telah menyesuaikan data pelatihan Anda, dan apakah Anda memiliki data yang sesuai untuk apa yang Anda coba prediksi.
Wayne
BTW, saya lupa menyalakan mode sinisme sebelum "berhasil membuat model"
DavidDong

Jawaban:

12

Karena Anda sudah menggunakan sampel penahan, saya akan mengatakan Anda harus menyimpannya dan membangun model baru Anda pada sampel pelatihan yang sama sehingga semua model akan mempertimbangkan hubungan yang sama antara fitur. Selain itu, jika Anda melakukan pemilihan fitur, sampel harus ditinggalkan sebelum tahapan penyaringan ini; yaitu, pemilihan fitur harus dimasukkan dalam loop validasi silang.

Sebagai catatan, ada metode yang lebih kuat daripada pemecahan 0,67 / 0,33 untuk pemilihan model, yaitu k-fold cross-validation atau leave-one-out. Lihat misalnya Elemen Pembelajaran Statistik (§7.10, hlm. 241-248), www.modelselection.org atau Survei prosedur validasi silang untuk pemilihan model oleh Arlot dan Celisse (diperlukan latar belakang matematika lebih lanjut).

chl
sumber