Ini mungkin terdengar konyol bagi seseorang yang memiliki banyak pengalaman dengan jaringan saraf tetapi itu mengganggu saya ...
Maksud saya, pengacakan bobot awal mungkin memberi Anda hasil yang lebih baik yang akan sedikit lebih mirip dengan jaringan yang seharusnya, tetapi mungkin juga kebalikan dari apa yang seharusnya, sementara 0,5 atau rata-rata lainnya untuk kisaran bobot yang masuk akal nilai akan terdengar seperti pengaturan default yang baik ...
Mengapa bobot awal untuk neuron lebih diacak daripada 0,5 untuk semuanya?
neural-networks
training
Matas Vaitkevicius
sumber
sumber
Jawaban:
Bobot awal dalam jaringan saraf diinisialisasi secara acak karena metode berbasis gradien yang biasa digunakan untuk melatih jaringan saraf tidak bekerja dengan baik ketika semua bobot diinisialisasi dengan nilai yang sama. Meskipun tidak semua metode untuk melatih jaringan saraf berbasis gradien, sebagian besar dari mereka, dan telah ditunjukkan dalam beberapa kasus bahwa menginisialisasi jaringan saraf dengan nilai yang sama membuat jaringan membutuhkan waktu lebih lama untuk bertemu pada solusi optimal. Juga, jika Anda ingin melatih ulang jaringan saraf Anda karena macet di minima lokal, itu akan terjebak di minima lokal yang sama. Untuk alasan di atas, kami tidak mengatur bobot awal ke nilai konstan.
Referensi: Mengapa backpropagation tidak berfungsi saat Anda menginisialisasi bobot dengan nilai yang sama?
sumber
Anda tidak boleh menetapkan semua ke 0,5 karena Anda akan memiliki masalah "hentikan simetri".
sumber
Itu pertanyaan yang sangat mendalam. Ada serangkaian makalah baru-baru ini dengan bukti konvergensi gradient descent untuk jaringan dalam overparameterized (misalnya, Gradient Descent Menemukan Minima Global dari Jaringan Neural Dalam , Teori Konvergensi untuk Pembelajaran Jauh melalui Parameterisasi Berlebihan atau Stadien Gradien Descent Mengoptimalkan Over-parameterized Deep Jaringan ReLU ). Semuanya mengkondisikan bukti pada distribusi bobot Gauss acak. Penting untuk bukti tergantung pada dua faktor:
Bobot acak membuat ReLU secara statistik memampatkan pemetaan (hingga transformasi linear)
Bobot acak menjaga pemisahan input untuk setiap distribusi input - yaitu jika sampel input dapat dibedakan propagasi jaringan tidak akan membuatnya tidak bisa dibedakan
Sifat-sifat tersebut sangat sulit untuk direproduksi dengan matriks deterministik, dan bahkan jika mereka dapat direproduksi dengan matriks deterministik, ruang-NULL (domain dari contoh permusuhan) kemungkinan akan membuat metode tidak praktis, dan pelestarian yang lebih penting dari sifat-sifat tersebut selama penurunan gradien kemungkinan akan membuat metode tidak praktis. Tetapi secara keseluruhan itu sangat sulit tetapi bukan tidak mungkin, dan mungkin memerlukan beberapa penelitian ke arah itu. Dalam situasi analog, ada beberapa hasil untuk properti isometrik terbatas untuk matriks deterministik dalam penginderaan terkompresi .
sumber