Mengapa mean squared error merupakan cross-entropy antara distribusi empiris dan model Gaussian?

28

Dalam 5,5, Deep Learning (oleh Ian Goodfellow, Yoshua Bengio dan Aaron Courville), itu menyatakan itu

Setiap kerugian yang terdiri dari log-likelihood negatif adalah entropi silang antara distribusi empiris yang ditentukan oleh set pelatihan dan distribusi probabilitas yang ditentukan oleh model. Sebagai contoh, mean squared error adalah cross-entropy antara distribusi empiris dan model Gaussian.

Saya tidak bisa mengerti mengapa mereka setara dan penulis tidak memperluas pada intinya.

Mufei Li
sumber

Jawaban:

32

Biarkan data menjadi . Tulis untuk distribusi empiris. Menurut definisi, untuk setiap fungsi ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Biarkan model memiliki kerapatan mana didefinisikan pada dukungan model. The cross-entropi dari dan didefinisikan sebagaiMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Dengan asumsi adalah sampel acak sederhana, kemungkinan log negatifnya adalahx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

berdasarkan sifat-sifat logaritma (mereka mengkonversi produk menjadi jumlah). Ekspresi adalah ekspresi kali konstan . Karena fungsi kerugian digunakan dalam statistik hanya dengan membandingkannya, tidak ada bedanya bahwa satu adalah (positif) kali konstan yang lain. Dalam pengertian inilah kemungkinan log negatif "adalah" entropi silang dalam kutipan.(2)n(1)


Dibutuhkan sedikit lebih banyak imajinasi untuk membenarkan pernyataan kutipan kedua. Koneksi dengan kesalahan kuadrat jelas, karena untuk "model Gaussian" yang memprediksi nilai pada titik , nilai pada titik tersebut adalahp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

yang merupakan kesalahan kuadrat tetapi diubah oleh dan digeser oleh fungsi . Salah satu cara untuk membuat kutipan itu benar adalah dengan menganggapnya tidak menganggap bagian dari "model" - harus ditentukan entah bagaimana terlepas dari data. Dalam hal ini perbedaan antara kesalahan kuadrat rata-rata sebanding dengan perbedaan antara cross-entropies atau log-likelihoods, dengan demikian membuat ketiganya setara untuk tujuan pemasangan model.(xp(x))2 1/(2σ2)σσσ

(Namun, biasanya, cocok sebagai bagian dari proses pemodelan, dalam hal ini kutipannya tidak akan benar.)σ=σ(x)

whuber
sumber
1
+1 dengan dua saran - dapat menggunakan alih-alih untuk menghindari kebingungan dengan . Yang kedua adalah sebagian besar estimasi akan menjadi . Ketika Anda mencolokkan ini dan menambahkannya, Anda dapatkan . Mirip dengan AIC-type formula ...g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
probabilityislogic
@probabilityislogic saya memilih pasangan dan karena mereka tidak mewakili jumlah terkait erat. Ff
whuber
Hai, saya pikir ini hanya berlaku untuk distribusi linear. Dalam masalah distribusi nonlinier, saya pikir kita masih bisa menggunakan MSE sebagai fungsi biaya, kan?
Lion Lai
5

Untuk para pembaca buku Deep Learning, saya ingin menambahkan jawaban yang diterima dengan sangat baik bahwa penulis menjelaskan pernyataan mereka secara rinci di bagian 5.5.1 yaitu Contoh: Regresi Linier sebagai Kemungkinan Maksimum .

Di sana, mereka menuliskan batasan yang disebutkan dalam jawaban yang diterima:

p(y|x)=N(y;y^(x;w),σ2) . Fungsi memberikan prediksi rata-rata Gaussian. Dalam contoh ini, kami mengasumsikan bahwa varians diperbaiki ke beberapa konstanta dipilih oleh pengguna.y^(x;w)σ2

Kemudian, mereka menunjukkan bahwa minimalisasi MSE sesuai dengan Estimasi Kemungkinan Maksimum dan dengan demikian minimalisasi lintas-entropi antara distribusi empiris dan .p(y|x)

Kilian Batzner
sumber