Latar Belakang: Saya sedang mempelajari Bab 6 Pembelajaran Jauh oleh Ian Goodfellow dan Yoshua Bengio dan Aaron Courville. Pada bagian 6.2.2.2 (halaman 182 dari 183 yang dapat dilihat di sini ) penggunaan sigmoid untuk output termotivasi.
Untuk meringkas beberapa materi yang mereka biarkan menjadi neuron output sebelum aktivasi diterapkan di mana adalah output dari lapisan tersembunyi sebelumnya, adalah vektor bobot dan adalah bias skalar. Vektor input dinotasikan (yang adalah fungsi dari) dan nilai output dinotasikan mana adalah fungsi sigmoid. Buku ini ingin mendefinisikan distribusi probabilitas di atas menggunakan nilai . Dari paragraf kedua halaman 183:h w b x h y = ϕ ( z ) ϕ y z
Kami menghilangkan ketergantungan pada untuk saat ini untuk membahas bagaimana mendefinisikan distribusi probabilitas di atas menggunakan nilai . Sigmoid dapat dimotivasi dengan membangun distribusi probabilitas yang tidak dinormalkan , yang tidak berjumlah 1. Kita kemudian dapat membaginya dengan konstanta yang sesuai untuk mendapatkan distribusi probabilitas yang valid. Jika kita mulai dengan asumsi bahwa probabilitas log yang tidak dinormalisasi adalah linear dalam dan , kita dapat secara eksponensial untuk mendapatkan probabilitas yang tidak dinormalisasi. Kami kemudian menormalkan untuk melihat bahwa ini menghasilkan distribusi Bernoulli yang dikendalikan oleh transformasi sigmoidal z: y z ˜ P ( y ) y z log ˜ P ( y )
Pertanyaan: Saya bingung tentang dua hal, terutama yang pertama:
- Dari mana asumsi awal berasal? Mengapa probabilitas log yang tidak normal linear dalam dan ? Dapatkah seseorang memberi saya sedikit informasi tentang bagaimana penulis memulai dengan ?z log ˜ P ( y ) = y z
- Bagaimana mengikuti baris terakhir?
Saya juga mendapati bagian dari buku ini sulit untuk diikuti, dan jawaban di atas oleh itdxer layak untuk cukup lama dipahami juga bagi seseorang yang tidak fasih dalam soal probabilitas dan matematika. Namun saya membuatnya dengan membaca jawabannya di belakang, jadi mulailah dengan sigmoid dari z
dan coba ikuti kembali.
Maka masuk akal mengapa mereka memulai penjelasan dengan yz - itu dengan desain, sama seperti final
dengan konstruksi memungkinkan untuk mendapatkan -1 untuk y = 0 dan 1 untuk y = 1, yang merupakan satu-satunya nilai yang mungkin dari y di bawah Bernoulli.
sumber
Berikut adalah ungkapan yang lebih formal yang akan menarik bagi mereka yang memiliki latar belakang teori-ukuran.
Kami memiliki rantai implikasi berikut:
sumber