Definisi dan asal "cross entropy"

15

Tanpa mengutip sumber, Wikipedia mendefinisikan lintas-entropi dari distribusi diskrit dan Q menjadiPQ

H×(P;Q)=-xhal(x)catatanq(x).

Siapa yang pertama kali mulai menggunakan jumlah ini? Dan siapa yang menemukan istilah ini? Saya melihat:

JE Shore dan RW Johnson, "Derivasi aksiomatik dari prinsip entropi maksimum dan prinsip cross-entropy minimum," Teori Informasi, Transaksi IEEE, vol. 26, tidak. 1, hlm. 26-37, Januari 1980.

Saya mengikuti pengantar mereka ke

A. Wehrl, "Sifat umum entropi," Ulasan Fisika Modern, vol. 50, tidak. 2, hlm. 221-260, April 1978.

yang tidak pernah menggunakan istilah ini.

Tidak juga

S. Kullback dan R. Leibler, "Tentang informasi dan kecukupan," The Annals of Mathematical Statistics, vol. 22, tidak. 1, hlm. 79-86, 1951.

Saya mencari

Sampul TM dan JA Thomas, Elemen Teori Informasi (Seri Wiley dalam Telekomunikasi dan Pemrosesan Sinyal). Wiley-Interscience, 2006.

dan

I. Baik, "Entropi Maksimum untuk Perumusan Hipotesis, Khususnya untuk Tabel Kontingensi Multidimensi," The Annals of Mathematical Statistics, vol. 34, tidak. 3, hlm. 911-934, 1963.

tetapi kedua makalah ini mendefinisikan cross-entropy untuk menjadi identik dengan KL-divergence.

Kertas asli

CE Shannon, "Teori Komunikasi Matematika," jurnal teknis sistem Bell, vol. 27, 1948.

Tidak menyebutkan cross entropy (dan memiliki definisi aneh tentang "entropi relatif": "Rasio entropi sumber dengan nilai maksimum yang bisa dimilikinya saat masih terbatas pada simbol yang sama").

Akhirnya, saya mencari di beberapa buku dan kertas tua karya Tribus.

Adakah yang tahu apa sebutan persamaan di atas, dan siapa yang menciptakannya atau memiliki presentasi yang bagus tentangnya?

Neil G
sumber

Jawaban:

7

Tampaknya terkait erat dengan konsep divergensi Kullback-Leibler (lihat Kullback dan Leibler, 1951 ). Dalam artikel mereka Kullback dan Leibler membahas informasi rata-rata untuk membedakan antara dua hipotesis (didefinisikan sebagai dalam persamaan. 2.2 - 2.4 ) dan mengutip hal. 18-19 dari The Mathematical Theory of Communication (1949 ) karya Shannon and Weaver. ) dan hal. 76 dari Sibernetika Wiener (1948). saya1:2(E)2.2-2.4

EDIT:

Alias ​​tambahan termasuk ukuran informasi Kullback-Leibler, ukuran informasi relatif, cross-entropy, I-divergence dan ketidakakuratan Kerridge .

Itamar
sumber
Terima kasih! Saya memeriksa referensi tersebut, tetapi saya masih kesulitan menemukan istilah "cross entropy" atau persamaan yang cocok. Tolong beri tahu saya jika Anda melihat satu di salah satu artikel atau buku.
Neil G
1
Anda juga dapat mencari artikel-artikel dengan alias Google yang berbeda yang diterbitkan hingga tahun tertentu (misalnya, lintas-entropi hingga 1980 ).
Itamar
1
Mengenai hasil edit terakhir Anda, saya tertarik pada sejarah formulir yang diberikan dalam pertanyaan saya. Saya sudah memperhatikan bahwa makalah awal menggunakan "cross entropy" yang berarti "KL divergence". (Perhatikan bahwa makalah Kullback ada dalam pertanyaan saya.)
Neil G
Maaf, saya melewatkan kertas Kullback dalam pertanyaan
Itamar
4

Berkat saran @ Itamar, saya menemukan sebutan di:

IJ Baik, "Beberapa Terminologi dan Notasi dalam Teori Informasi," Prosiding IEE - Bagian C: Monograf, vol. 103, tidak. 3, hlm. 200-204, Maret 1956.

Masih akan sangat berguna bagi saya untuk menemukan presentasi lintas-entropi yang bagus.

Neil G
sumber
2

Terima kasih untuk ini - ringkasan literatur latar belakang yang bagus. Artikel Shore dan Johnson 1980 di IEEE adalah awal yang baik, tetapi penunjuk @ itamar ke Good monograph dari tahun 1956 bahkan lebih baik. Konsepnya tampaknya berasal dari karya Shannon, dengan catatan 1955 AMS Kullback & Leibler menjadi asal dari penggunaan istilah saat ini. Sejauh asal usul istilah "entropi silang" berhubungan dengan jaringan saraf tiruan, ada istilah yang digunakan dalam makalah dalam Science, yang diajukan tahun 1994, diterbitkan tahun 1995, oleh GE Hinton, P. Dayan, BJ Frey & RM Neal, di yang ada penggunaan awal istilah "Mesin Hemholtz" - mungkin yang pertama. Url untuk salinan: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Dalam makalah itu, "Algoritma Wake-sleep untuk jaringan saraf yang tidak diawasi", catatan sebelum persamaan # 5 mengatakan: "Ketika ada banyak cara alternatif untuk menggambarkan vektor input, dimungkinkan untuk merancang skema pengkodean stokastik yang memanfaatkan entropi di seluruh deskripsi alternatif [1]. Maka biayanya adalah: "(lihat makalah untuk persamaan # 5)" Istilah kedua adalah entropi distribusi yang diberikan bobot pengakuan ke berbagai representasi alternatif. " Kemudian dalam makalah, eqn # 5 ditulis ulang sebagai eqn # 8, dengan istilah terakhir digambarkan sebagai perbedaan Kullback-Leibler antara distribusi probabilitas awal, dan distribusi probabilitas posterior. Makalah ini menyatakan: "Jadi untuk dua model generatif yang menetapkan probabilitas yang sama untuk d, ) Makalah ini masih menggambarkan proses minimalisasi untuk algoritma spesifik ini sebagai meminimalkan divergensi Kullback-Leibler, tetapi sepertinya bisa jadi di mana istilah "entropi di seluruh deskripsi alternatif" disingkat menjadi "cross entropy". Untuk contoh numerik cross entropy, menggunakan TensorFlow, lihat posting di sini, akan sangat membantu: ) Makalah ini masih menggambarkan proses minimalisasi untuk algoritma spesifik ini sebagai meminimalkan divergensi Kullback-Leibler, tetapi sepertinya bisa jadi di mana istilah "entropi di seluruh deskripsi alternatif" disingkat menjadi "cross entropy". Untuk contoh numerik cross entropy, menggunakan TensorFlow, lihat posting di sini, akan sangat membantu: /programming/41990250/what-is-cross-entropy Perhatikan bahwa solusi CE = 0.47965 diturunkan hanya dengan mengambil log natural dari probabilitas .619. Dalam contoh di atas, penggunaan pengkodean "satu panas" berarti bahwa dua probabilitas awal dan posterior lainnya diabaikan karena perkalian dengan probabilitas awal bernilai nol, dalam penjumlahan untuk entropi silang.

gemesyscanada
sumber
+1 Ini mungkin benar. Jadi, Anda mengatakan bahwa 1994 adalah asal usul definisi modern dari cross entropy?
Neil G