Mengapa jaringan saraf tampaknya berkinerja lebih baik dengan pembatasan ditempatkan pada topologi mereka?

29

Jaringan backprop yang sepenuhnya terhubung (setidaknya lapisan ke lapisan dengan lebih dari 2 lapisan tersembunyi) adalah pembelajar universal. Sayangnya, mereka sering lambat dipelajari dan cenderung terlalu pas atau memiliki generalisasi yang canggung.

Dari bermain-main dengan jaringan ini, saya telah mengamati bahwa pemangkasan beberapa tepi (sehingga beratnya nol dan tidak mungkin berubah) cenderung membuat jaringan belajar lebih cepat dan menggeneralisasi lebih baik. Apakah ada alasan untuk ini? Apakah hanya karena penurunan dimensi ruang pencarian bobot, atau adakah alasan yang lebih halus?

Juga, apakah generalisasi yang lebih baik merupakan artefak dari masalah 'alami' yang saya lihat?

machine-learning network-topology neural-networks Artem Kaznatcheev
sumber

9

Lebih sedikit node / edge (atau edge dengan bobot tetap) berarti bahwa ada lebih sedikit parameter yang nilainya perlu ditemukan, dan ini biasanya mengurangi waktu untuk belajar. Juga, ketika ada lebih sedikit parameter, ruang yang dapat diekspresikan oleh jaringan saraf memiliki dimensi lebih sedikit, sehingga jaringan saraf hanya dapat mengekspresikan model yang lebih umum. Dengan demikian kurang mampu melakukan over-fitting data, dan karenanya model akan tampak lebih umum.

Dave Clarke
sumber

5

Dengan memangkas tepi Anda telah mengurangi ruang pencarian untuk algoritma pelatihan, yang akan memiliki hasil langsung dalam kinerja waktu. Anda juga telah memperkenalkan kendala pada fungsi yang dapat dimodelkan jaringan. Kendala mungkin memaksa model Anda untuk menemukan solusi yang lebih umum karena yang lebih akurat tidak dapat dijangkau. Teknik umum untuk melatih jaringan saraf menggunakan teknik gradient descent. Konsekuensi lain dari pemangkasan adalah bahwa Anda telah menghilangkan beberapa minimum lokal dalam lanskap parameter yang lagi memungkinkan algoritma pelatihan untuk menemukan solusi yang lebih baik.

Saya tidak akan terkejut jika generalisasi Anda yang lebih baik terkait dengan masalah yang Anda lihat. Saya telah menikmati sukses dengan jaringan saraf di mana model yang mendasarinya memiliki struktur yang berkelanjutan, sementara kasus-kasus di mana ada diskontinuitas, hal-hal tidak bekerja dengan baik. Perlu diingat juga bahwa kinerja jaringan saraf sering terkait erat dengan bagaimana Anda menyusun input dan output.

John Percival Hackworth
sumber

Mengapa jaringan saraf tampaknya berkinerja lebih baik dengan pembatasan ditempatkan pada topologi mereka?

Jawaban: