Saya mengembangkan sistem perdagangan otomatis untuk pasar saham. Tantangan besar adalah overfitting. Dapatkah Anda merekomendasikan beberapa sumber yang menggambarkan metode untuk mengukur dan menghindari overfitting?
Saya mulai dengan set pelatihan / validasi, tetapi set validasi selalu ternoda.
Juga, data deret waktu selalu berubah karena pasar selalu berubah. Bagaimana Anda mengukur ini dan menentukan kemungkinan hasil yang konsisten pada data yang tidak terlihat?
Terima kasih.
Jawaban:
Untuk pemasangan yang terlalu pas dalam pemilihan model, maka makalah yang layak dibaca adalah
C. Ambroise dan GJ McLachlan, "Bias seleksi dalam ekstraksi gen berdasarkan data ekspresi gen microarray", PNAS, vol. 99 no. 10 6562-6566, Mei 2002. http://dx.doi.org/10.1073/pnas.102102699
Untuk diskusi tentang jenis masalah yang sama yang muncul dalam pemilihan model, lihat
GC Cawley, NLC Talbot, "Pada Over-fitting dalam Seleksi Model dan Seleksi Selanjutnya Bias dalam Evaluasi Kinerja", Journal of Machine Learning Research, 11 (Jul): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
Cara untuk memecahkan masalah set validasi yang dinodai adalah dengan menggunakan validasi silang bersarang, sehingga metode yang digunakan untuk membuat pilihan tentang model dilakukan secara independen di setiap lipatan validasi silang yang digunakan untuk estimasi kinerja. Pada dasarnya estimasi kinerja harus memperkirakan kinerja seluruh prosedur pemasangan model (pemasangan model, pemilihan fitur, pemilihan model, semuanya).
Pendekatan lainnya adalah menjadi orang Bayesian. Risiko over-fitting diperkenalkan setiap kali Anda mengoptimalkan kriteria berdasarkan sampel data yang terbatas, jadi jika Anda memarginalkan (mengintegrasikan keluar) daripada mengoptimalkan maka klasik over-fitting tidak mungkin. Namun Anda memiliki masalah dalam menentukan prior.
sumber