Pentingnya simpul bias dalam jaringan saraf

19

Saya ingin tahu seberapa penting bias node bagi efektivitas jaringan saraf modern. Saya dapat dengan mudah memahami bahwa ini penting dalam jaringan yang dangkal dengan hanya beberapa variabel input. Namun, jaring saraf modern seperti dalam pembelajaran yang mendalam sering memiliki sejumlah besar variabel input untuk memutuskan apakah neuron tertentu dipicu. Apakah dengan hanya menghapusnya dari, misalnya, LeNet5 atau ImageNet memiliki dampak nyata sama sekali?

pir
sumber
@ung - Saya telah melihat Anda telah mengedit judul untuk menggunakan frase "bias node". Saya ingin tahu mengapa Anda lebih suka gelar itu? Saya belum pernah mendengar penggunaan itu sebelumnya. Selain itu, tampaknya membingungkan untuk menggunakan kata "simpul" ketika bias bukan merupakan simpul yang terpisah dalam suatu jaringan.
pir
2
Jika Anda tidak menyukainya, Anda dapat membatalkan suntingan dengan permintaan maaf saya. Saya selalu berpikir nama itu cukup standar, meskipun saya belum bermain w / ANN dalam beberapa tahun & beberapa menyebutnya sebagai "bias neuron" sebagai gantinya. FWIW, "bias" agak ambigu dalam statistik / ML; ini paling umum merujuk pada penduga yang distribusi sampelnya tidak berpusat pada nilai sebenarnya dari parameter, atau fungsi prediksi / nilai prediksi yang berbeda dari fungsi sebenarnya / rata-rata, dll., sedangkan bias node adalah bagian spesifik dari suatu parameter. JST.
gung - Reinstate Monica
2
Ini adalah simpul aktual - setidaknya dalam arti ada di antara mereka - dalam jaringan. Misalnya, lihat simpul hitam pada gambar ini .
gung - Reinstate Monica
Oke, itu masuk akal - memang benar bahwa "bias" cukup ambigu. Terima kasih untuk penjelasannya.
pir
1
Untuk neuron unit bias tampaknya menembak secara spontan, ini terjadi di alam.
user3927612

Jawaban:

15

Menghapus bias pasti akan mempengaruhi kinerja dan inilah sebabnya ...

Setiap neuron seperti regresi logistik sederhana dan Anda memiliki . Nilai input dikalikan dengan bobot dan bias mempengaruhi level awal dari squashing dalam fungsi sigmoid (tanh dll), yang menghasilkan non-linearitas yang diinginkan.y=σ(Wx+b)

Sebagai contoh, asumsikan bahwa Anda ingin neuron untuk api ketika semua piksel input hitam x 0 . Jika tidak ada bias berapa pun bobot W yang Anda miliki, dengan persamaan y = σ ( W x ) neuron akan selalu menyala y 0,5 .y1x0Wy=σ(Wx)y0,5

Oleh karena itu, dengan menghapus syarat bias Anda akan secara substansial menurunkan kinerja jaringan saraf Anda.

Yannis Assael
sumber
2
Terima kasih, itu masuk akal. Saya kira meskipun sebagian besar jaring modern menggunakan ReLU sebagai fungsi aktivasi (lihat misal papers.nips.cc/paper/4824-imagenet ), ini masih bisa relevan jika jaring perlu menyala ketika semua piksel input berwarna hitam. ReLU didefinisikan sebagai f (x) = maks (0, x).
pir
persis! ini kasus yang sama ...
Yannis Assael
4
y1x0x0y0,5
2
Meskipun saya setuju dengan teori ini, perlu ditunjukkan bahwa dengan jaring besar modern peluang untuk mendapatkan input yang sepenuhnya nol dapat diabaikan. Ini juga bergantung pada asumsi bahwa sebuah jaring ingin menembakkan jaring sedalam 1 kemungkinan besar tidak akan peduli dengan keluaran neuron tunggal - ini adalah sebagian alasan mengapa putus sekolah begitu populer untuk mengatur jaring.
Max Gordon
2
@ Maxgordon benar. Jawaban ini tidak berlaku untuk pertanyaan ini. Coba hapus bias dari jaringan besar dan Anda akan melihat bahwa itu membuat perbedaan yang sangat kecil.
Neil G
10

Saya tidak setuju dengan jawaban lain dalam konteks khusus pertanyaan Anda. Ya, simpul bias penting dalam jaringan kecil. Namun, dalam model besar, menghapus input bias membuat perbedaan sangat kecil karena setiap node dapat membuat node bias dari aktivasi rata-rata semua inputnya, yang menurut hukum angka besar akan kira-kira normal. Pada lapisan pertama, kemampuan ini terjadi tergantung pada distribusi input Anda. Misalnya untuk MNIST, aktivasi rata-rata input kira-kira konstan.

Pada jaringan kecil, tentu saja Anda memerlukan input bias, tetapi pada jaringan besar, menghapusnya hampir tidak ada bedanya. (Tapi, mengapa kamu menghapusnya?)

Neil G
sumber
3

Saya akan mengomentari jawaban @ NeilG jika saya memiliki cukup reputasi, tetapi sayangnya ...

Saya tidak setuju dengan Anda, Neil, tentang ini. Kamu bilang:

... aktivasi rata-rata dari semua inputnya, yang menurut hukum sejumlah besar akan menjadi normal secara normal.

Saya membantah hal itu, dan mengatakan bahwa hukum sejumlah besar mengharuskan semua pengamatan independen satu sama lain. Ini sangat tidak terjadi dalam sesuatu seperti jaring saraf. Bahkan jika setiap aktivasi terdistribusi secara normal, jika Anda mengamati satu nilai input sangat tinggi, ia mengubah probabilitas semua input lainnya. Dengan demikian, "pengamatan", dalam hal ini, input, tidak independen, dan hukum jumlah besar tidak berlaku.

Kecuali saya tidak mengerti jawaban Anda.

ArturJ
sumber