Bias regresi Softmax dan probabilitas sebelumnya untuk kelas yang tidak sama

8

Saya menggunakan regresi Softmax untuk masalah klasifikasi multi-kelas. Saya tidak memiliki probabilitas sebelumnya yang sama untuk masing-masing kelas.

Saya tahu dari Regresi Logistik (regresi softmax dengan 2 kelas) bahwa probabilitas kelas sebelumnya secara implisit ditambahkan ke bias ( ).log(p0/p1)

Biasanya yang saya lakukan adalah menghapus secara manual istilah ini dari bias.

Pertanyaan saya adalah, apa istilah yang sesuai dalam bias regresi softmax?

Terima kasih.

Ran
sumber

Jawaban:

2

Sejauh yang saya tahu, pembenaran untuk inisialisasi softmax bias agak bergelombang. Ingat regresi softmax adalah estimasi kemungkinan maksimum (log) untuk , dengan modelnya sebagai berikut: Dengan inisialisasi bias, niat kami adalah untuk menemukan nilai yang baik dengan mana mulai tinggi. Dengan asumsi bahwa kita menginisialisasi dengan nilai mendekati-0 kecil dan ituW,b

yCat(σ(Wx+b));σi(z)=expzijexpzj.
bp(x,y|W,b)p(y|W,b,x)Wy adalah label dalam , jadi: Menambahkan kemungkinan log untuk semua contoh yang diasumsikan independen , a inisialisasi yang baik untuk akan meminimalkan kemungkinan total perkiraan log data: dari wrt di atas adalah , dengan vektor jumlah setiap kelas. Fungsi di atas juga cekung,[K]Wx0
logp(y|W,b,x)=k=1K1y=klogσk(Wx+b)logσy(b)
{(xi,yi)}i=1nb
i=1nlogσyi(b)=i=1nbyinlogk=1Kexpbk
bcnσ(b)cNKlihat pertanyaan di sini tentang smooth max sebagai bukti.

Dua fakta di atas menunjukkan maksimum tersedia setiap kali . Ini, pada gilirannya, menunjukkan inisialisasi yang layak untuk istilah ke- dari bias memang , proporsi contoh label dalam set pelatihan (alias statistik marjinal). Anda mungkin melihat bahwa Anda dapat menambahkan konstanta apa pun ke dan mencapai bias memaksimalkan kemungkinan lainnya juga; Namun, skala besar akan mendapatkan cara belajar . Hubungan dengan bias logistik tidak kebetulan --- tutorial ini membahas kesamaannya.σ(b)=c/nibiblogpiibW

VF1
sumber