Apakah ada konsep data “cukup” untuk pelatihan model statistik?

10

Saya mengerjakan banyak pemodelan statistik, seperti Hidden Markov Models dan Gaussian Mixture Models. Saya melihat bahwa melatih model-model yang baik dalam setiap kasus ini membutuhkan sejumlah besar (> 20.000 kalimat untuk HMM) data yang diambil dari lingkungan yang sama dengan penggunaan akhir. Pertanyaanku adalah:

  1. Apakah ada konsep data pelatihan "cukup" dalam literatur? Berapa banyak data pelatihan yang "cukup baik"?
  2. Bagaimana saya bisa menghitung berapa banyak kalimat yang diperlukan untuk model "baik" (yang memberikan akurasi pengakuan yang baik (> 80%)) untuk dilatih?
  3. Bagaimana saya tahu jika model telah dilatih dengan benar? Akankah koefisien dalam model mulai menunjukkan fluktuasi acak? Jika demikian, bagaimana cara membedakan fluktuasi acak dan perubahan nyata karena pembaruan model?

Silakan retag pertanyaan ini seandainya dibutuhkan lebih banyak tag.

Sriram
sumber

Jawaban:

10

Anda dapat mengiris dataset Anda menjadi himpunan bagian berturut-turut dengan 10%, 20%, 30%, ..., 100% dari data Anda dan untuk setiap subset, perkirakan varians akurasi penaksir Anda menggunakan validasi k-fold cross atau bootstrapping. Jika Anda memiliki data "cukup", memplot varian akan menampilkan garis monotonik yang menurun yang harus mencapai dataran tinggi sebelum 100%: menambahkan lebih banyak data tidak mengurangi varians keakuratan estimator dengan cara apa pun yang signifikan.

ogrisel
sumber
Saya harus mencobanya. Kedengarannya menarik. Terima kasih!
Sriram