Bagaimana unit softmax diturunkan dan apa implikasinya?

8

Saya mencoba memahami mengapa fungsi softmax didefinisikan seperti itu:

ezjΣk=1Kezk=σ(z)

Saya mengerti bagaimana ini menormalkan data dan memetakan dengan benar untuk beberapa rentang (0, 1) tetapi perbedaan antara probabilitas berat bervariasi secara eksponensial daripada linear. Apakah ada alasan mengapa kita menginginkan perilaku ini?

Juga persamaan ini tampaknya agak arbitrer dan saya merasa bahwa keluarga besar persamaan dapat memenuhi persyaratan kami. Saya belum melihat derivasi online jadi saya berasumsi itu hanyalah sebuah definisi. Mengapa tidak memilih definisi lain yang memenuhi persyaratan yang sama?

Dr.Knowitall
sumber
2
Anda mungkin ingin regresi logistik Google dan regresi multinomial
seanv507
Juga, cari situs ini!
kjetil b halvorsen

Jawaban:

5

Distribusi kategoris adalah distribusi asumsi minimum atas dukungan "serangkaian hasil eksklusif yang saling" diberikan statistik yang cukup "hasil yang terjadi". Dengan kata lain, menggunakan distribusi lain akan menjadi asumsi tambahan. Tanpa pengetahuan sebelumnya, Anda harus mengasumsikan distribusi kategoris untuk dukungan ini dan statistik yang memadai. Itu adalah keluarga eksponensial. (Semua distribusi asumsi minimum untuk dukungan yang diberikan dan statistik yang memadai adalah keluarga eksponensial.)

Cara yang benar untuk menggabungkan dua kepercayaan berdasarkan informasi independen adalah produk titik kepadatan, pastikan untuk tidak menggandakan informasi sebelumnya yang ada di kedua keyakinan. Untuk keluarga eksponensial, kombinasi ini adalah penambahan parameter alami.

Parameter ekspektasi adalah nilai yang diharapkan dari xk dimana xk adalah berapa kali Anda mengamati hasil k. Ini adalah parametrization yang tepat untuk mengonversi seperangkat pengamatan ke distribusi kemungkinan maksimum. Anda cukup rata-rata di ruang ini. Inilah yang Anda inginkan saat memodelkan pengamatan.

Fungsi logistik multinomial adalah konversi dari parameter alami ke parameter ekspektasi dari distribusi kategorikal. Anda dapat memperoleh konversi ini sebagai gradien log-normalizer sehubungan dengan parameter alami.

Singkatnya, fungsi logistik multinomial jatuh dari tiga asumsi: dukungan, statistik yang cukup, dan model yang kepercayaannya merupakan kombinasi dari informasi independen.

Neil G
sumber
2

Saya tahu ini adalah posting yang terlambat, tapi saya merasa masih ada nilai dalam memberikan pembenaran bagi mereka yang kebetulan mendarat di sini.

Anda tidak sepenuhnya salah. Ini sewenang-wenang sampai batas tertentu, tetapi mungkin sewenang-wenang adalah kata yang salah. Ini lebih seperti pilihan desain. Biarkan saya jelaskan.

Ternyata Softmax sebenarnya adalah generalisasi dari fungsi Sigmoid, yang merupakan unit keluaran Bernoulli (output 0 atau 1):

[1+exp(-z)]-1

Tapi dari mana fungsi Sigmoid berasal, Anda mungkin bertanya.

Nah, ternyata banyak distribusi probabilitas yang berbeda termasuk Bernoulli, distribusi Poisson, Gaussian, dll mengikuti sesuatu yang disebut Generalized Linear Model (GLM). Artinya, mereka dapat diekspresikan dalam hal:

P(y;η)=b(y)exp[ηTT(y)-Sebuah(η)]

Saya tidak akan membahas semua parameter ini, tetapi Anda tentu bisa meneliti ini.

Perhatikan contoh berikut tentang bagaimana distribusi Bernoulli dalam keluarga GLM:

P(y=1)=ϕP(y=0)=1-ϕP(y)=ϕy(1-ϕ)1-y=exp(ycatatan(ϕ)+(1-y)catatan(1-ϕ))=exp(ycatatan(ϕ)+catatan(1-ϕ)-ycatatan(1-ϕ))=exp(ycatatan(ϕ1-ϕ)+catatan(1-ϕ))

Anda dapat melihat bahwa dalam hal ini,

b(y)=1T(y)=yη=catatan(ϕ1-ϕ)Sebuah(η)=-catatan(1-ϕ)

Perhatikan apa yang terjadi ketika kita menyelesaikannya ϕ dengan kondisi η:

η=catatan(ϕ1-ϕ)eη=ϕ1-ϕe-η=1-ϕϕ=1ϕ-1e-η+1=1ϕϕ=[exp(-η)+1]-1

Jadi untuk mendapatkan ϕ=P(y=1), kami mengambil sigmoid dari η. Pilihan desain datang untuk bermain ketika kita menganggap ituη=wTxdimana w adalah bobot dan x adalah data Anda, yang keduanya kami anggap sebagai Rn. Dengan membuat asumsi ini, kita bisa cocokw untuk perkiraan ϕ.

Jika Anda harus melalui proses yang sama untuk distribusi Multinoulli, Anda akan mendapatkan fungsi softmax.

samuel schreiber
sumber