Mengapa cross entropy menjadi fungsi standar kerugian klasifikasi dan bukan perbedaan Kullbeck Leibler?

15

Cross entropy identik dengan KL divergence plus entropy dari target distribusi. KL sama dengan nol ketika kedua distribusi itu sama, yang tampaknya lebih intuitif bagi saya daripada entropi target distribusi, yang merupakan lintas entropi pada pertandingan.

Saya tidak mengatakan ada lebih banyak informasi di salah satu dari yang lain kecuali bahwa pandangan manusia mungkin menemukan nol lebih intuitif daripada positif. Tentu saja, orang biasanya menggunakan metode evaluatif untuk benar-benar melihat seberapa baik klasifikasi terjadi. Tetapi apakah pilihan entropi silang atas KL bersejarah?

Josh Albert
sumber

Jawaban:

12

Ketika datang ke masalah klasifikasi dalam pembelajaran mesin, entropi silang dan divergensi KL adalah sama . Seperti yang telah dinyatakan dalam pertanyaan, rumus umum adalah ini:

H(p,q)=H(p)+DKL(p||q)

pqH(p,q)H(p)D

p

p=[0,...,1,...,0]

yang pada dasarnya adalah distribusi fungsi delta . Tetapi entropi dari fungsi delta adalah nol, maka divergensi KL sama dengan cross-entropy.

H(p)0

Pepatah
sumber
0

Cross-entropy adalah entropi, bukan perbedaan entropi.

Cara yang lebih alami dan mungkin intuitif untuk mengkonseptualisasikan kriteria kategorisasi adalah melalui hubungan daripada definisi.

H(P,Q)H(P)=DKL(PQ)=iP(i)logQ(i)P(i)

Ini mengikuti paralel, diidentifikasi oleh Claude Shannon dengan John von Neumann, antara termodinamika mekanika kuantum dan teori informasi. Entropi bukan kuantitas absolut. Ini adalah relatif, sehingga entropi atau entropi silang tidak dapat dihitung, tetapi perbedaannya dapat untuk kasus diskrit di atas atau saudara kontinyu di bawah ini.

H(P,Q)H(P)=DKL(PQ)=p(x)logq(x)p(x)dx

Although we may see H(...)=... in the literature, with no H'(...) on the right hand side of the equation, it is not technically accurate. In such cases there is always some implied entropy to which the entropy on the left hand side is relative.

FauChristian
sumber