Memotivasi unit output sigmoid dalam jaringan saraf dimulai dengan probabilitas log yang tidak normal linear dalam

12

Latar Belakang: Saya sedang mempelajari Bab 6 Pembelajaran Jauh oleh Ian Goodfellow dan Yoshua Bengio dan Aaron Courville. Pada bagian 6.2.2.2 (halaman 182 dari 183 yang dapat dilihat di sini ) penggunaan sigmoid untuk output termotivasi.P(y=1|x)

Untuk meringkas beberapa materi yang mereka biarkan menjadi neuron output sebelum aktivasi diterapkan di mana adalah output dari lapisan tersembunyi sebelumnya, adalah vektor bobot dan adalah bias skalar. Vektor input dinotasikan (yang adalah fungsi dari) dan nilai output dinotasikan mana adalah fungsi sigmoid. Buku ini ingin mendefinisikan distribusi probabilitas di atas menggunakan nilai . Dari paragraf kedua halaman 183:h w b x h y = ϕ ( z ) ϕ y z

z=wTh+b
hwbxhy=ϕ(z)ϕyz

Kami menghilangkan ketergantungan pada untuk saat ini untuk membahas bagaimana mendefinisikan distribusi probabilitas di atas menggunakan nilai . Sigmoid dapat dimotivasi dengan membangun distribusi probabilitas yang tidak dinormalkan , yang tidak berjumlah 1. Kita kemudian dapat membaginya dengan konstanta yang sesuai untuk mendapatkan distribusi probabilitas yang valid. Jika kita mulai dengan asumsi bahwa probabilitas log yang tidak dinormalisasi adalah linear dalam dan , kita dapat secara eksponensial untuk mendapatkan probabilitas yang tidak dinormalisasi. Kami kemudian menormalkan untuk melihat bahwa ini menghasilkan distribusi Bernoulli yang dikendalikan oleh transformasi sigmoidal z: y z ˜ P ( y ) y z log ˜ P ( y )xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Pertanyaan: Saya bingung tentang dua hal, terutama yang pertama:

  1. Dari mana asumsi awal berasal? Mengapa probabilitas log yang tidak normal linear dalam dan ? Dapatkah seseorang memberi saya sedikit informasi tentang bagaimana penulis memulai dengan ?z log ˜ P ( y ) = y zyzlogP~(y)=yz
  2. Bagaimana mengikuti baris terakhir?
HBeel
sumber

Jawaban:

8

Ada dua kemungkinan hasil untuk . Ini sangat penting, karena properti ini mengubah arti perkalian. Ada dua kemungkinan kasus:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Selain itu penting untuk memperhatikan bahwa probabilitas logaritmik tidak normal untuk adalah konstan. Properti ini berasal dari asumsi utama. Menerapkan fungsi deterministik apa pun ke nilai konstan akan menghasilkan output konstan. Properti ini akan menyederhanakan formula akhir ketika kita akan melakukan normalisasi atas semua kemungkinan probabilitas, karena kita hanya perlu tahu hanya probabilitas yang tidak dinormalisasi untuk y = 1 dan untuk y = 0 selalu konstan. Dan karena output dari jaringan dalam probabilitas logaritmik yang tidak dinormalkan, kita hanya akan memerlukan satu output, karena yang lain diasumsikan konstan.y=0y=1y=0

Selanjutnya, kami menerapkan eksponensial ke probabilitas logaritma yang tidak dinormalisasi untuk mendapatkan probabilitas yang tidak dinormalisasi.

P~(y=1)=ezP~(y=0)=e0=1

Selanjutnya kita hanya menormalisasi probabilitas yang membagi setiap probabilitas yang tidak dinormalisasi dengan jumlah semua kemungkinan probabilitas yang tidak dinormalisasi.

P(y=1)=ez1+ezP(y=0)=11+ez

P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

σP(y)

itdxer
sumber
y=0y=1
y=1
y×zyzay+bz+clogyz
Begitu ya, itu sebenarnya pertanyaan yang menarik. Saya tidak memperhatikan pernyataan ini ketika saya membaca pertanyaan untuk pertama kalinya. Sekarang juga terlihat aneh bagi saya. Satu masalah adalah variabel y biner dan saya tidak yakin bagaimana memeriksa properti dari fungsi linear dalam keadaan ini. Saya kira itu akan masuk akal jika Anda mengajukan pertanyaan terpisah, mungkin seseorang dapat menjelaskan kepada Anda mengapa itu ditulis dengan cara ini.
itdxer
2

Saya juga mendapati bagian dari buku ini sulit untuk diikuti, dan jawaban di atas oleh itdxer layak untuk cukup lama dipahami juga bagi seseorang yang tidak fasih dalam soal probabilitas dan matematika. Namun saya membuatnya dengan membaca jawabannya di belakang, jadi mulailah dengan sigmoid dari z

P(y=1)=ez1+ez=11+ez

dan coba ikuti kembali.

logP~(y)=yz

Maka masuk akal mengapa mereka memulai penjelasan dengan yz - itu dengan desain, sama seperti final

σ((2y1)z)

dengan konstruksi memungkinkan untuk mendapatkan -1 untuk y = 0 dan 1 untuk y = 1, yang merupakan satu-satunya nilai yang mungkin dari y di bawah Bernoulli.

Jakub Jurek
sumber
0

Berikut adalah ungkapan yang lebih formal yang akan menarik bagi mereka yang memiliki latar belakang teori-ukuran.

YPYy{0,1}PY(y)=P(Y=y)P~Y

Kami memiliki rantai implikasi berikut:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

{0,1}{1,1}

Gabriel Romon
sumber