Di wiki, fungsi softmax didefinisikan sebagai gradient-log-normalizer dari distribusi probabilitas kategorikal . Penjelasan parsial untuk log-normalizer ditemukan di sini , tetapi apa yang dimaksud dengan gradient-log-normalizer ?
Di wiki, fungsi softmax didefinisikan sebagai gradient-log-normalizer dari distribusi probabilitas kategorikal . Penjelasan parsial untuk log-normalizer ditemukan di sini , tetapi apa yang dimaksud dengan gradient-log-normalizer ?
Menggunakan notasi dari halaman wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), keluarga eksponensial adalah keluarga distribusi probabilitas yang memiliki pmfs / pdf yang dapat ditulis sebagai (mencatat bahwa , dapat berupa nilai vektor): mana adalah parameter alami, adalah statistik yang cukup, dan adalah penormalkan log (kadang-kadang disebut fungsi partisi log). Alasan disebut log normalizer, karena dapat diverifikasi bahwa, dalam kasus berkelanjutan, untuk ini menjadi pdf yang valid, kita harus memiliki
Sekarang untuk melihat hubungan spesifik antara fungsi softmax dan distribusi dimensi , kita harus menggunakan parameterisasi spesifik dari distribusi. Yaitu, biarkan menjadi sedemikian rupa sehingga dan , dan tentukan (membiarkan ). PMF untuk distribusi ini adalah (membiarkan menjadi satu vektor panas, yaitu dan untuk ):
Sekarang mari kita menulis , sehingga kita dapat menulis . Kemudian log normalizer menjadi Mengambil turunan parsial sehubungan dengan , kami menemukan mengungkapkan bahwa gradien log normalizer memang fungsi softmax: