Biarkan data menjadi . Tulis untuk distribusi empiris. Menurut definisi, untuk setiap fungsi ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Biarkan model memiliki kerapatan mana didefinisikan pada dukungan model. The cross-entropi dari dan didefinisikan sebagaiMef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Dengan asumsi adalah sampel acak sederhana, kemungkinan log negatifnya adalahx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
berdasarkan sifat-sifat logaritma (mereka mengkonversi produk menjadi jumlah). Ekspresi adalah ekspresi kali konstan . Karena fungsi kerugian digunakan dalam statistik hanya dengan membandingkannya, tidak ada bedanya bahwa satu adalah (positif) kali konstan yang lain. Dalam pengertian inilah kemungkinan log negatif "adalah" entropi silang dalam kutipan.(2)n(1)
Dibutuhkan sedikit lebih banyak imajinasi untuk membenarkan pernyataan kutipan kedua. Koneksi dengan kesalahan kuadrat jelas, karena untuk "model Gaussian" yang memprediksi nilai pada titik , nilai pada titik tersebut adalahp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
yang merupakan kesalahan kuadrat tetapi diubah oleh dan digeser oleh fungsi . Salah satu cara untuk membuat kutipan itu benar adalah dengan menganggapnya tidak menganggap bagian dari "model" - harus ditentukan entah bagaimana terlepas dari data. Dalam hal ini perbedaan antara kesalahan kuadrat rata-rata sebanding dengan perbedaan antara cross-entropies atau log-likelihoods, dengan demikian membuat ketiganya setara untuk tujuan pemasangan model.(x−p(x))2 1/(2σ2)σσσ
(Namun, biasanya, cocok sebagai bagian dari proses pemodelan, dalam hal ini kutipannya tidak akan benar.)σ=σ(x)
Untuk para pembaca buku Deep Learning, saya ingin menambahkan jawaban yang diterima dengan sangat baik bahwa penulis menjelaskan pernyataan mereka secara rinci di bagian 5.5.1 yaitu Contoh: Regresi Linier sebagai Kemungkinan Maksimum .
Di sana, mereka menuliskan batasan yang disebutkan dalam jawaban yang diterima:
Kemudian, mereka menunjukkan bahwa minimalisasi MSE sesuai dengan Estimasi Kemungkinan Maksimum dan dengan demikian minimalisasi lintas-entropi antara distribusi empiris dan .p(y|x)
sumber