Saya memulai proyek di mana tugasnya adalah mengidentifikasi jenis sepatu dari gambar. Saat ini saya membaca implementasi TensorFlow dan Torch . Pertanyaan saya adalah: berapa banyak gambar per kelas yang diperlukan untuk mencapai kinerja klasifikasi yang masuk akal?
12
Jawaban:
Dari Seberapa sedikit contoh pelatihan yang terlalu sedikit saat melatih jaringan saraf? di CV:
Ini sangat tergantung pada dataset Anda, dan arsitektur jaringan. Salah satu aturan praktis yang saya baca (2) adalah beberapa ribu sampel per kelas untuk jaringan saraf untuk mulai berkinerja sangat baik. Dalam praktiknya, orang mencoba dan melihat.
Cara yang baik untuk secara kasar menilai sejauh mana bisa bermanfaat untuk memiliki lebih banyak sampel pelatihan adalah untuk memplot kinerja jaringan saraf berdasarkan ukuran set pelatihan, misalnya dari (1):
(2) Cireşan, Dan C., Ueli Meier, dan Jürgen Schmidhuber. "Transfer pembelajaran untuk karakter Latin dan Cina dengan jaringan saraf yang dalam." Dalam Konferensi Bersama Internasional 2012 tentang Jaringan Saraf Tiruan (IJCNN), hlm. 1-6. IEEE, 2012. https://scholar.google.com/scholar?cluster=7452424507909578812&hl=id&as_sdt=0,22 ; http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf :
sumber
Pendekatan terbaik adalah mengumpulkan data sebanyak yang Anda bisa dengan nyaman. Kemudian mulailah dengan proyek dan buat model data.
Sekarang Anda dapat mengevaluasi model Anda untuk melihat apakah ia memiliki Bias Tinggi atau Varians Tinggi.
Varians Tinggi : Dalam situasi ini Anda akan melihat bahwa kesalahan Validasi Silang lebih tinggi dari kesalahan Pelatihan setelah konvergensi. Ada kesenjangan yang signifikan jika Anda merencanakan hal yang sama terhadap ukuran data pelatihan.
Bias Tinggi : Dalam situasi ini kesalahan Cross-Validasi sedikit lebih tinggi dari kesalahan pelatihan yang itu sendiri tinggi ketika diplot terhadap ukuran data pelatihan. Dengan memplot terhadap ukuran data pelatihan yang saya maksud, Anda dapat memasukkan himpunan bagian dari data pelatihan yang Anda miliki dan terus menambah ukuran subset dan kesalahan plot.
Jika Anda melihat model Anda memiliki varian tinggi (pakaian berlebih), menambahkan lebih banyak data biasanya akan membantu berbeda dengan model dengan bias tinggi (pakaian kurang bagus) di mana menambahkan data pelatihan baru tidak membantu.
Juga per kelas Anda harus mencoba untuk mendapatkan jumlah gambar yang sama jika tidak set data dapat miring (lebih dari satu jenis).
Saya juga menyarankan jika Anda menggunakan TensorFlow , baca lebih lanjut tentang Pengelompokan Gambar INCEPTION oleh GOOGLE . Ini adalah classifier yang sudah terlatih pada database gambar google dan Anda dapat menggunakannya untuk gambar Anda, sehingga persyaratan untuk jumlah gambar turun secara drastis.
sumber