Saya seorang pemula yang mencoba menyusun proyek pertama saya. Saya memiliki proyek klasifikasi lagu dalam pikiran, tetapi karena saya akan memberi label secara manual, saya hanya bisa mengumpulkan sekitar 1000 lagu, atau 60 jam musik.
Saya akan mengklasifikasikan dengan beberapa kelas, jadi mungkin saja satu kelas memiliki sedikitnya 50-100 lagu dalam set pelatihan - ini sepertinya terlalu sedikit! Apakah ada aturan umum tentang seberapa banyak data yang dibutuhkan untuk melatih jaringan saraf untuk mencobanya?
Sunting: Saya sedang berpikir untuk menggunakan vanilla LSTM. Fitur input akan memiliki dimensi 39, dimensi keluaran 6, upaya pertama saya untuk dimensi lapisan tersembunyi adalah 100.
neural-networks
arrey
sumber
sumber
Jawaban:
Ini sangat tergantung pada dataset Anda, dan arsitektur jaringan. Salah satu aturan praktis yang saya baca (2) adalah beberapa ribu sampel per kelas untuk jaringan saraf untuk mulai berkinerja sangat baik.
Dalam praktiknya, orang mencoba dan melihat. Tidak jarang menemukan studi yang menunjukkan hasil yang layak dengan pelatihan yang ditetapkan lebih kecil dari 1000 sampel.
Cara yang baik untuk secara kasar menilai sejauh mana menguntungkan untuk memiliki lebih banyak sampel pelatihan adalah dengan memplot kinerja jaringan saraf berdasarkan ukuran set pelatihan, misalnya dari (1):
(2) Cireşan, Dan C., Ueli Meier, dan Jürgen Schmidhuber. "Transfer pembelajaran untuk karakter Latin dan Cina dengan jaringan saraf yang dalam." Dalam Konferensi Bersama Internasional 2012 tentang Jaringan Saraf Tiruan (IJCNN), hlm. 1-6. IEEE, 2012. https://scholar.google.com/scholar?cluster=7452424507909578812&hl=id&as_sdt=0,22 ; http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf :
sumber