Apakah Greedy Layer-Wise Training dari Deep Networks diperlukan untuk keberhasilan pelatihan atau apakah keturunan gradien stokastik cukup?

Pra-pelatihan tidak lagi diperlukan . Tujuannya adalah untuk menemukan inisialisasi yang baik untuk bobot jaringan untuk memfasilitasi konvergensi ketika sejumlah besar lapisan dipekerjakan. Saat ini, kami memiliki ReLU , normalisasi dropout dan batch , yang semuanya berkontribusi untuk memecahkan masalah pelatihan jaringan saraf dalam. Mengutip dari pos reddit terkait di atas (oleh pemenang tantangan Galaxy Zoo Kaggle):

Saya akan mengatakan bahwa "era pra-pelatihan", yang dimulai sekitar 2006, berakhir pada awal 10-an ketika orang mulai menggunakan unit linear yang diperbaiki (ReLUs), dan kemudian dropout, dan menemukan bahwa pra-pelatihan tidak lagi bermanfaat untuk ini jenis jaringan.

Dari makalah ReLU (ditautkan di atas):

jaringan penyearah yang dalam dapat mencapai kinerja terbaiknya tanpa memerlukan pra-pelatihan tanpa pengawasan

Dengan itu, tidak lagi diperlukan , tetapi masih dapat meningkatkan kinerja dalam beberapa kasus di mana ada terlalu banyak sampel yang tidak diawasi (tidak berlabel), seperti yang terlihat dalam makalah ini .

rcpinto
sumber

Ini adalah jawaban yang bagus tapi saya pikir akan lebih baik jika Anda bisa menemukan referensi akademis, daripada utas Reddit.

Sycorax berkata Reinstate Monica

Bukankah 3 di atas cukup? Itu bahkan ditulis dalam abstrak yang pertama.

rcpinto

Revisi persis seperti dukungan untuk klaim bahwa "pra-pelatihan tidak lagi diperlukan" yang saya harapkan. Terima kasih telah berkontribusi ke situs web kami.

Sycorax berkata Reinstate Monica

Berikut adalah pertanyaan terkait: apakah pra-pelatihan melakukan hal yang sama dengan putus sekolah (dalam beberapa hal)?

Jawaban ini sangat salah , atau paling tidak menyesatkan; BN, Dropout, dll melayani sebagian besar peran orthogonal untuk pretraining, di mana yang terakhir memungkinkan pembelajaran fitur yang dapat ditransfer . Contoh: denoising, pengurangan dimensionalitas, data yang hilang, rekrining timeseries autoencoder, encoder ditempatkan pada input sebelum suatu jaringan syaraf pengklasifikasi; classifier mempelajari fitur-fitur diskriminatif , sangat berbeda dari autoencoder.

OverLordGoldDragon

Apakah Greedy Layer-Wise Training dari Deep Networks diperlukan untuk keberhasilan pelatihan atau apakah keturunan gradien stokastik cukup?

Jawaban: