Apakah mungkin untuk mencapai hasil terbaik dengan menggunakan back-propagation saja (tanpa pra-pelatihan )?
Atau apakah semua pendekatan pemecahan rekor menggunakan beberapa bentuk pra-pelatihan?
Apakah back-propagation saja cukup baik?
Apakah mungkin untuk mencapai hasil terbaik dengan menggunakan back-propagation saja (tanpa pra-pelatihan )?
Atau apakah semua pendekatan pemecahan rekor menggunakan beberapa bentuk pra-pelatihan?
Apakah back-propagation saja cukup baik?
Pra-pelatihan tidak lagi diperlukan . Tujuannya adalah untuk menemukan inisialisasi yang baik untuk bobot jaringan untuk memfasilitasi konvergensi ketika sejumlah besar lapisan dipekerjakan. Saat ini, kami memiliki ReLU , normalisasi dropout dan batch , yang semuanya berkontribusi untuk memecahkan masalah pelatihan jaringan saraf dalam. Mengutip dari pos reddit terkait di atas (oleh pemenang tantangan Galaxy Zoo Kaggle):
Saya akan mengatakan bahwa "era pra-pelatihan", yang dimulai sekitar 2006, berakhir pada awal 10-an ketika orang mulai menggunakan unit linear yang diperbaiki (ReLUs), dan kemudian dropout, dan menemukan bahwa pra-pelatihan tidak lagi bermanfaat untuk ini jenis jaringan.
Dari makalah ReLU (ditautkan di atas):
jaringan penyearah yang dalam dapat mencapai kinerja terbaiknya tanpa memerlukan pra-pelatihan tanpa pengawasan
Dengan itu, tidak lagi diperlukan , tetapi masih dapat meningkatkan kinerja dalam beberapa kasus di mana ada terlalu banyak sampel yang tidak diawasi (tidak berlabel), seperti yang terlihat dalam makalah ini .