Menerapkan fungsi softmax pada vektor akan menghasilkan "probabilitas" dan nilai antara dan .
Tetapi kita juga dapat membagi setiap nilai dengan jumlah vektor dan itu akan menghasilkan probabilitas dan nilai antara dan .
Saya membaca jawabannya di sini tetapi mengatakan bahwa alasannya adalah karena itu dapat dibedakan, meskipun Kedua fungsi tersebut dapat dibedakan.
Jawaban:
Fungsi yang Anda usulkan memiliki singularitas setiap kali jumlah elemen adalah nol.
Misalkan vektor Anda adalah . Vektor ini memiliki jumlah 0, jadi pembagian tidak ditentukan. Fungsi ini tidak dapat dibedakan di sini.[−1,13,23]
Selain itu, jika satu atau lebih elemen vektor negatif tetapi jumlahnya nol, hasil Anda bukan probabilitas.
Misalkan vektor Anda adalah . Ini memiliki jumlah 1, jadi menerapkan hasil fungsi Anda dalam , yang bukan merupakan vektor probabilitas karena memiliki elemen negatif, dan elemen yang melebihi 1.[−1,0,2] [−1,0,2]
Mengambil pandangan yang lebih luas, kita dapat memotivasi bentuk spesifik dari fungsi softmax dari perspektif memperluas regresi logistik biner ke kasus tiga atau lebih hasil kategoris.
Melakukan hal-hal seperti mengambil nilai absolut atau kotak, seperti yang disarankan dalam komentar, berarti dan memiliki probabilitas prediksi yang sama; ini berarti model tidak teridentifikasi . Sebaliknya, adalah monotonik dan positif untuk semua nyata , sehingga hasil softmax adalah (1) vektor probabilitas dan (2) model logistik multinomial diidentifikasi.−x x exp(x) x
sumber
Softmax memiliki dua komponen:
Ubah komponen menjadi e ^ x. Ini memungkinkan jaringan saraf untuk bekerja dengan probabilitas logaritmik, bukan probabilitas biasa. Ini mengubah operasi umum mengalikan probabilitas menjadi penjumlahan, yang jauh lebih alami untuk struktur berbasis aljabar linear dari jaringan saraf.
Normalisasi jumlah mereka menjadi 1, karena itulah probabilitas total yang kita butuhkan.
Salah satu konsekuensi penting dari ini adalah bahwa teorema bayes sangat alami untuk jaringan seperti itu, karena itu hanya penggandaan probabilitas yang dinormalisasi oleh penyebut.
Kasus sepele dari jaringan lapisan tunggal dengan aktivasi softmax setara dengan regresi logistik.
Kasus khusus dari dua komponen softmax setara dengan aktivasi sigmoid, yang dengan demikian populer ketika hanya ada dua kelas. Dalam klasifikasi multi-kelas softmax digunakan jika kelas-kelas tersebut saling eksklusif dan komponen-bijaksana sigmoid digunakan jika mereka independen.
sumber