Tanpa mengutip sumber, Wikipedia mendefinisikan lintas-entropi dari distribusi diskrit dan Q menjadi
Siapa yang pertama kali mulai menggunakan jumlah ini? Dan siapa yang menemukan istilah ini? Saya melihat:
JE Shore dan RW Johnson, "Derivasi aksiomatik dari prinsip entropi maksimum dan prinsip cross-entropy minimum," Teori Informasi, Transaksi IEEE, vol. 26, tidak. 1, hlm. 26-37, Januari 1980.
Saya mengikuti pengantar mereka ke
A. Wehrl, "Sifat umum entropi," Ulasan Fisika Modern, vol. 50, tidak. 2, hlm. 221-260, April 1978.
yang tidak pernah menggunakan istilah ini.
Tidak juga
S. Kullback dan R. Leibler, "Tentang informasi dan kecukupan," The Annals of Mathematical Statistics, vol. 22, tidak. 1, hlm. 79-86, 1951.
Saya mencari
Sampul TM dan JA Thomas, Elemen Teori Informasi (Seri Wiley dalam Telekomunikasi dan Pemrosesan Sinyal). Wiley-Interscience, 2006.
dan
I. Baik, "Entropi Maksimum untuk Perumusan Hipotesis, Khususnya untuk Tabel Kontingensi Multidimensi," The Annals of Mathematical Statistics, vol. 34, tidak. 3, hlm. 911-934, 1963.
tetapi kedua makalah ini mendefinisikan cross-entropy untuk menjadi identik dengan KL-divergence.
Kertas asli
CE Shannon, "Teori Komunikasi Matematika," jurnal teknis sistem Bell, vol. 27, 1948.
Tidak menyebutkan cross entropy (dan memiliki definisi aneh tentang "entropi relatif": "Rasio entropi sumber dengan nilai maksimum yang bisa dimilikinya saat masih terbatas pada simbol yang sama").
Akhirnya, saya mencari di beberapa buku dan kertas tua karya Tribus.
Adakah yang tahu apa sebutan persamaan di atas, dan siapa yang menciptakannya atau memiliki presentasi yang bagus tentangnya?
sumber
Berkat saran @ Itamar, saya menemukan sebutan di:
IJ Baik, "Beberapa Terminologi dan Notasi dalam Teori Informasi," Prosiding IEE - Bagian C: Monograf, vol. 103, tidak. 3, hlm. 200-204, Maret 1956.
Masih akan sangat berguna bagi saya untuk menemukan presentasi lintas-entropi yang bagus.
sumber
Terima kasih untuk ini - ringkasan literatur latar belakang yang bagus. Artikel Shore dan Johnson 1980 di IEEE adalah awal yang baik, tetapi penunjuk @ itamar ke Good monograph dari tahun 1956 bahkan lebih baik. Konsepnya tampaknya berasal dari karya Shannon, dengan catatan 1955 AMS Kullback & Leibler menjadi asal dari penggunaan istilah saat ini. Sejauh asal usul istilah "entropi silang" berhubungan dengan jaringan saraf tiruan, ada istilah yang digunakan dalam makalah dalam Science, yang diajukan tahun 1994, diterbitkan tahun 1995, oleh GE Hinton, P. Dayan, BJ Frey & RM Neal, di yang ada penggunaan awal istilah "Mesin Hemholtz" - mungkin yang pertama. Url untuk salinan: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Dalam makalah itu, "Algoritma Wake-sleep untuk jaringan saraf yang tidak diawasi", catatan sebelum persamaan # 5 mengatakan: "Ketika ada banyak cara alternatif untuk menggambarkan vektor input, dimungkinkan untuk merancang skema pengkodean stokastik yang memanfaatkan entropi di seluruh deskripsi alternatif [1]. Maka biayanya adalah: "(lihat makalah untuk persamaan # 5)" Istilah kedua adalah entropi distribusi yang diberikan bobot pengakuan ke berbagai representasi alternatif. " Kemudian dalam makalah, eqn # 5 ditulis ulang sebagai eqn # 8, dengan istilah terakhir digambarkan sebagai perbedaan Kullback-Leibler antara distribusi probabilitas awal, dan distribusi probabilitas posterior. Makalah ini menyatakan: "Jadi untuk dua model generatif yang menetapkan probabilitas yang sama untuk d, ) Makalah ini masih menggambarkan proses minimalisasi untuk algoritma spesifik ini sebagai meminimalkan divergensi Kullback-Leibler, tetapi sepertinya bisa jadi di mana istilah "entropi di seluruh deskripsi alternatif" disingkat menjadi "cross entropy". Untuk contoh numerik cross entropy, menggunakan TensorFlow, lihat posting di sini, akan sangat membantu: ) Makalah ini masih menggambarkan proses minimalisasi untuk algoritma spesifik ini sebagai meminimalkan divergensi Kullback-Leibler, tetapi sepertinya bisa jadi di mana istilah "entropi di seluruh deskripsi alternatif" disingkat menjadi "cross entropy". Untuk contoh numerik cross entropy, menggunakan TensorFlow, lihat posting di sini, akan sangat membantu: /programming/41990250/what-is-cross-entropy Perhatikan bahwa solusi CE = 0.47965 diturunkan hanya dengan mengambil log natural dari probabilitas .619. Dalam contoh di atas, penggunaan pengkodean "satu panas" berarti bahwa dua probabilitas awal dan posterior lainnya diabaikan karena perkalian dengan probabilitas awal bernilai nol, dalam penjumlahan untuk entropi silang.
sumber