Berapa sedikit contoh pelatihan yang terlalu sedikit ketika melatih jaringan saraf?

14

Saya seorang pemula yang mencoba menyusun proyek pertama saya. Saya memiliki proyek klasifikasi lagu dalam pikiran, tetapi karena saya akan memberi label secara manual, saya hanya bisa mengumpulkan sekitar 1000 lagu, atau 60 jam musik.

Saya akan mengklasifikasikan dengan beberapa kelas, jadi mungkin saja satu kelas memiliki sedikitnya 50-100 lagu dalam set pelatihan - ini sepertinya terlalu sedikit! Apakah ada aturan umum tentang seberapa banyak data yang dibutuhkan untuk melatih jaringan saraf untuk mencobanya?

Sunting: Saya sedang berpikir untuk menggunakan vanilla LSTM. Fitur input akan memiliki dimensi 39, dimensi keluaran 6, upaya pertama saya untuk dimensi lapisan tersembunyi adalah 100.

arrey
sumber
2
Ini tidak benar-benar dapat dijawab karena tidak semua tugas itu mudah, dan arsitektur jaringan serta pemilihan hyperparameter yang berbeda akan meningkatkan / melukai model yang berbeda dengan cara yang berbeda.
Sycorax berkata Reinstate Monica
Minimal, Anda perlu menentukan struktur jaringan Anda & berapa banyak tautan yang akan dilatih.
gung - Reinstate Monica

Jawaban:

16

Ini sangat tergantung pada dataset Anda, dan arsitektur jaringan. Salah satu aturan praktis yang saya baca (2) adalah beberapa ribu sampel per kelas untuk jaringan saraf untuk mulai berkinerja sangat baik.

Dalam praktiknya, orang mencoba dan melihat. Tidak jarang menemukan studi yang menunjukkan hasil yang layak dengan pelatihan yang ditetapkan lebih kecil dari 1000 sampel.


Cara yang baik untuk secara kasar menilai sejauh mana menguntungkan untuk memiliki lebih banyak sampel pelatihan adalah dengan memplot kinerja jaringan saraf berdasarkan ukuran set pelatihan, misalnya dari (1):

masukkan deskripsi gambar di sini


Franck Dernoncourt
sumber