Penjelasan kerugian lintas-entropi

35

Misalkan saya membuat NN untuk klasifikasi. Lapisan terakhir adalah lapisan padat dengan aktivasi softmax. Saya memiliki lima kelas yang berbeda untuk diklasifikasi. Misalkan untuk contoh pelatihan tunggal, true labeladalah [1 0 0 0 0]saat prediksi [0.1 0.5 0.1 0.1 0.2]. Bagaimana saya menghitung kerugian lintas entropi untuk contoh ini?

machine-learning deep-learning Nain
sumber

50

The lintas entropi rumus mengambil dalam dua distribusi, $p(x)$ , distribusi yang benar, dan $q(x)$ , perkiraan distribusi, didefinisikan melalui variabel diskrit $x$ dan diberikan oleh

$H (p, q) = - \sum_{\forall x} p (x) \log (q (x))$ $H(p,q) = -\sum_{\forall x} p(x) \log(q(x))$

Untuk jaringan saraf, perhitungannya tidak tergantung pada hal berikut:

Jenis lapisan apa yang digunakan.
Jenis aktivasi apa yang digunakan - walaupun banyak aktivasi tidak akan kompatibel dengan perhitungan karena outputnya tidak dapat diartikan sebagai probabilitas (yaitu, outputnya negatif, lebih besar dari 1, atau tidak dijumlahkan ke 1). Softmax sering digunakan untuk klasifikasi multi-kelas karena menjamin fungsi distribusi probabilitas yang berperilaku baik.

Untuk jaringan saraf, Anda biasanya akan melihat persamaan ditulis dalam bentuk di mana $\mathbf{y}$ adalah vektor tanah kebenaran dan $\mathbf{\hat{y}}$ beberapa nilai lain yang diambil langsung dari output lapisan terakhir) adalah perkiraan. Untuk satu contoh, akan terlihat seperti ini:

$L = - y \cdot \log (\hat{y})$ $L = - \mathbf{y} \cdot \log(\mathbf{\hat{y}})$

di mana $\cdot$ adalah produk titik vektor.

Misalnya Anda ground truth $\mathbf{y}$ memberikan semua probabilitas untuk nilai pertama, dan nilai-nilai lain adalah nol, sehingga kita dapat mengabaikan mereka, dan hanya menggunakan istilah yang cocok dari perkiraan Anda $\mathbf{\hat{y}}$

$L = -(1\times log(0.1) + 0 \times \log(0.5) + ...)$

$L = - log(0.1) \approx 2.303$

Poin penting dari komentar

Itu berarti, kerugian akan sama tidak peduli jika prediksi yang $[0.1, 0.5, 0.1, 0.1, 0.2]$ atau $[0.1, 0.6, 0.1, 0.1, 0.1]$ ?

Ya, ini adalah fitur utama dari multiclass logloss, ini memberi hadiah / menghukum probabilitas kelas yang benar saja. Nilai tidak tergantung pada bagaimana probabilitas yang tersisa dibagi antara kelas yang salah.

Anda akan sering melihat persamaan ini dirata-rata untuk semua contoh sebagai fungsi biaya . Ini tidak selalu benar-benar dipatuhi dalam deskripsi, tetapi biasanya fungsi kerugian adalah level yang lebih rendah dan menggambarkan bagaimana satu instance atau komponen menentukan nilai kesalahan, sementara fungsi biaya adalah level yang lebih tinggi dan menggambarkan bagaimana sistem lengkap dievaluasi untuk optimasi. Fungsi biaya berdasarkan hilangnya multikelas log untuk kumpulan data ukuran $N$ mungkin terlihat seperti ini:

$J = - \frac{1}{N} (\sum_{i = 1}^{N} y_{i} \cdot \log ({\hat{y}}_{i}))$ $J = - \frac{1}{N}\left(\sum_{i=1}^{N} \mathbf{y_i} \cdot \log(\mathbf{\hat{y}_i})\right)$

Banyak implementasi yang membutuhkan nilai kebenaran dasar Anda untuk dikodekan satu kali (dengan satu kelas benar), karena itu memungkinkan beberapa optimasi tambahan. Namun, pada prinsipnya kerugian lintas entropi dapat dihitung - dan dioptimalkan - saat ini tidak terjadi.

Neil Slater
sumber

1

Baik. Itu berarti, kerugiannya akan sama tidak masalah jika prediksi adalah [0,1 0,5 0,1 0,2] atau [0,1 0,6 0,1 0,1]?

Nain

@ Nain: Itu benar untuk contoh Anda. Kehilangan lintas-entropi tidak bergantung pada nilai probabilitas kelas yang salah.

Neil Slater

8

Jawaban dari Neil benar. Namun saya pikir ini penting untuk menunjukkan bahwa sementara kerugian tidak tergantung pada distribusi antara kelas yang salah (hanya distribusi antara kelas yang benar dan yang lainnya), gradien fungsi kerugian ini memang mempengaruhi kelas yang salah secara berbeda tergantung pada bagaimana salah mereka. Jadi ketika Anda menggunakan cross-ent dalam pembelajaran mesin, Anda akan mengubah bobot secara berbeda untuk [0,1 0,5 0,1 0,2] dan [0,1 0,6 0,1 0,1]. Ini karena skor kelas yang benar dinormalisasi oleh skor semua kelas lain untuk mengubahnya menjadi probabilitas.

Lucas Adams
sumber

3

Bisakah Anda menguraikannya dengan contoh yang tepat?

Nain

@Lucas Adams, bisakah Anda memberi contoh?

koryakinp

Turunan dari EACH y_i (softmax output) wrt EACH logit z (atau parameter w itu sendiri) tergantung pada SETIAP y_i. medium.com/@aerinykim/…

Aaron

2

Mari kita lihat bagaimana gradien loss berperilaku ... Kita memiliki cross-entropy sebagai fungsi loss, yang diberikan oleh

H (p, q) = - \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i})) = - (p (x_{1}) \log (q (x_{1})) + \dots + p (x_{n}) \log (q (x_{n}))

$H(p,q) = -\sum_{i=1}^n p(x_i) \log(q(x_i)) = -(p(x_1)\log(q(x_1)) + \ldots + p(x_n)\log(q(x_n))$

$x_i$

\frac{\partial}{\partial x_{i}} H (p, q) = - \frac{\partial}{\partial x_{i}} p (x_{i}) \log (q (x_{i})) .

$\frac{\partial}{\partial x_i} H(p,q) = -\frac{\partial}{\partial x_i} p(x_i)\log(q(x_i)).$

\frac{\partial}{\partial x_{i}} H (p, q) = - p (x_{i}) \frac{1}{q (x_{i})} \frac{\partial q (x_{i})}{\partial x_{i}} .

$\frac{\partial}{\partial x_i} H(p,q) = -p(x_i)\frac{1}{q(x_i)}\frac{\partial q(x_i)}{\partial x_i}.$

$p(x_i)$

Saya bertanya-tanya bagaimana paket perangkat lunak menangani nilai prediksi 0, sedangkan nilai sebenarnya lebih besar dari nol ... Karena kita membaginya dengan nol dalam hal ini.

zwep
sumber

Saya pikir yang Anda inginkan adalah mengambil parameter turunan wrt, bukan wrt x_i.

Aaron

1

Mari kita mulai dengan memahami entropi dalam teori informasi: Misalkan Anda ingin mengomunikasikan serangkaian huruf "aaaaaaaa". Anda dapat dengan mudah melakukan itu sebagai 8 * "a". Sekarang ambil string lain "jteikfqa". Apakah ada cara terkompresi untuk mengkomunikasikan string ini? Tidak ada disana. Kita dapat mengatakan bahwa entropi string ke-2 lebih sebagai, untuk mengkomunikasikannya, kita memerlukan lebih banyak "bit" informasi.

$log_2(n)$ $-\log_{2}(1/8)$ yang merupakan 3. Lebih khusus,

- \sum_{saya = 1}^{8} \frac{1}{8} \log_{2} (\frac{1}{8}) = 3

$-\sum_{i=1}^{8}\frac{1}{8}\log_{2}(\frac{1}{8}) = 3$ Entropi ini memberi tahu kita tentang ketidakpastian yang terlibat dengan distribusi probabilitas tertentu; semakin banyak ketidakpastian / variasi dalam distribusi probabilitas, semakin besar entropinya (misalnya untuk 1024 buah, akan menjadi 10).

Dalam "cross" -entropy, seperti namanya, kami fokus pada jumlah bit yang diperlukan untuk menjelaskan perbedaan dalam dua distribusi probabilitas yang berbeda. Skenario kasus terbaik adalah bahwa kedua distribusi identik, dalam hal ini jumlah bit paling sedikit diperlukan yaitu entropi sederhana. Dalam istilah matematika,

H (y, \hat{y}) = - \sum_{saya} y_{saya} \log_{e} ({\hat{y}}_{saya})

$H(\bf{y},\bf{\hat{y}}) = -\sum_{i}\bf{y}_i\log_{e}(\bf{\hat{y}}_i)$

Dimana $\bf{\hat{y}}$ adalah vektor probabilitas yang diprediksi (output Softmax), dan $\bf{y}$ adalah vektor ground-truth (mis. satu-panas). Alasan kami menggunakan log natural adalah karena mudah untuk membedakan (ref. Gradien penghitungan) dan alasan kami tidak mengambil log dari ground ground vector adalah karena mengandung banyak 0 yang menyederhanakan penjumlahan.

Intinya: Dalam istilah awam, orang bisa menganggap cross-entropy sebagai jarak antara dua distribusi probabilitas dalam hal jumlah informasi (bit) yang diperlukan untuk menjelaskan jarak itu. Ini adalah cara yang rapi untuk mendefinisikan kerugian yang turun ketika vektor probabilitas semakin dekat satu sama lain.

Hassaan
sumber

0

Saya tidak setuju dengan Lucas. Nilai-nilai di atas sudah merupakan probabilitas. Perhatikan bahwa posting asli menunjukkan bahwa nilai memiliki aktivasi softmax.

Kesalahan hanya disebarkan kembali pada kelas "panas" dan probabilitas Q (i) tidak berubah jika probabilitas dalam kelas lain bergeser satu sama lain.

bluemonkey
sumber

2

Lucas benar. Dengan arsitektur yang dijelaskan oleh OP, maka gradien di semua log (sebagai lawan dari output) bukan nol, karena fungsi softmax menghubungkan semuanya. Jadi kesalahan [gradien dari] di kelas "panas" merambat ke semua neuron keluaran.

Neil Slater

+1 untuk Neil dan Lucas

Aaron

-1

Masalahnya adalah bahwa probabilitas datang dari fungsi 'rumit' yang menggabungkan output lain ke dalam nilai yang diberikan. Hasil-hasilnya saling terhubung, jadi dengan cara ini kami tidak memperoleh tentang hasil aktual, tetapi dengan semua input dari fungsi aktivasi terakhir (softmax), untuk setiap hasil.

Saya telah menemukan deskripsi yang sangat bagus di deepnotes.io/softmax-crossentropy di mana penulis menunjukkan bahwa turunan sebenarnya adalah $p_i - y_i$ .

Deskripsi rapi lainnya di gombru.github.io/2018/05/23/cross_entropy_loss .

Saya pikir menggunakan sigmoid sederhana sebagai lapisan aktivasi terakhir akan mengarah ke jawaban yang disetujui, tetapi menggunakan softmax menunjukkan jawaban yang berbeda.

guyko
sumber

1

Selamat datang di Stack Exchange. Namun apa yang Anda tulis sepertinya bukan jawaban dari pertanyaan OP tentang menghitung kehilangan lintas-entropi.

user12075

Penjelasan kerugian lintas-entropi

Jawaban:

H(p,q)=−∑∀xp(x)log(q(x))H(p,q)=−∑∀xp(x)log⁡(q(x))H(p,q) = -\sum_{\forall x} p(x) \log(q(x))

L=−y⋅log(y^)L=−y⋅log⁡(y^)L = - \mathbf{y} \cdot \log(\mathbf{\hat{y}})

J=−1N(∑i=1Nyi⋅log(y^i))J=−1N(∑i=1Nyi⋅log⁡(y^i))J = - \frac{1}{N}\left(\sum_{i=1}^{N} \mathbf{y_i} \cdot \log(\mathbf{\hat{y}_i})\right)

$H (p, q) = - \sum_{\forall x} p (x) \log (q (x))$ $H(p,q) = -\sum_{\forall x} p(x) \log(q(x))$

$L = - y \cdot \log (\hat{y})$ $L = - \mathbf{y} \cdot \log(\mathbf{\hat{y}})$

$J = - \frac{1}{N} (\sum_{i = 1}^{N} y_{i} \cdot \log ({\hat{y}}_{i}))$ $J = - \frac{1}{N}\left(\sum_{i=1}^{N} \mathbf{y_i} \cdot \log(\mathbf{\hat{y}_i})\right)$