Sejauh yang saya tahu, pembenaran untuk inisialisasi softmax bias agak bergelombang. Ingat regresi softmax adalah estimasi kemungkinan maksimum (log) untuk , dengan modelnya sebagai berikut:
Dengan inisialisasi bias, niat kami adalah untuk menemukan nilai yang baik dengan mana mulai tinggi. Dengan asumsi bahwa kita menginisialisasi dengan nilai mendekati-0 kecil dan ituW,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wy adalah label dalam , jadi:
Menambahkan kemungkinan log untuk semua contoh yang diasumsikan independen , a inisialisasi yang baik untuk akan meminimalkan kemungkinan total perkiraan log data:
dari wrt di atas adalah , dengan vektor jumlah setiap kelas. Fungsi di atas juga cekung,
[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NKlihat pertanyaan di sini tentang smooth max sebagai bukti.
Dua fakta di atas menunjukkan maksimum tersedia setiap kali . Ini, pada gilirannya, menunjukkan inisialisasi yang layak untuk istilah ke- dari bias memang , proporsi contoh label dalam set pelatihan (alias statistik marjinal). Anda mungkin melihat bahwa Anda dapat menambahkan konstanta apa pun ke dan mencapai bias memaksimalkan kemungkinan lainnya juga; Namun, skala besar akan mendapatkan cara belajar . Hubungan dengan bias logistik tidak kebetulan --- tutorial ini membahas kesamaannya.σ(b)=c/nibiblogpiibW