Di luar persamaan mentah untuk menghitung informasi timbal balik, apa artinya secara fisik? Sebagai contoh: Dari Teori Informasi, kita tahu bahwa entropi adalah skema kompresi loss-less terkecil yang dapat kita gunakan pada alfabet dengan distribusi probabilitas tertentu.
Apa artinya itu dalam hal Informasi Bersama?
Latar belakang: Saya mencoba untuk menghitung informasi timbal balik dari kata-kata uni-gram dan menentukan dari mana dua buku itu berasal.
penting
information-theory
CyberMen
sumber
sumber
Jawaban:
Informasi Mutual menurut definisi menghubungkan dua variabel acak (RV) dan mengukur ketergantungan antara dua RV dari perspektif konten informasi yaitu ukuran jumlah informasi yang terkandung oleh satu RV tentang RV lainnya. Dan informasi timbal balik adalah kuantitas simetris, yaitu,saya( X; Y) = I( Y; X) .
Dalam hal saluran komunikasi, kapasitas maksimum yang dapat dicapai untuk saluran tersebut adalah maksimum dari informasi timbal balik antara input saluran dan outputC=maksp ( x )saya( X; Y) .
Dalam kasus Anda, kedua RV dan akan sesuai dengan buku dan kata-kata. Informasi timbal balik akan mengukur jumlah informasi yang umum antara pasangan (buku, kata). Jelas Anda akan mengasosiasikan kata dengan buku yang Anda miliki informasi timbal balik maksimum. Ini adalah pendekatan informasi timbal balik maksimum.X Y
sumber
Dua tambahan intuitif mengambil informasi timbal balik:
Ketika dua variabel acak independen distribusi bersamap ( x , y) dan produk dari distribusi marginal p ( x ) dan p ( y) identik. Dengan demikian seseorang dapat menilai tingkat independen antara dua variabel acak dengan menghitung jarak probabilistik antarap ( x ) × p ( y) dan p ( x , y) - Jarak ini menjadi 0 ketika kedua variabel independen. Jarak probabilistik yang umum antara variabel adalah perbedaan Kullback-Leibler. Jika Anda mengambil perbedaan Kullback-Leibler antara distribusi bersama dan produk dari marginal dari dua variabel acak, Anda berakhir dengan ... informasi bersama.
Dari perspektif kompresi / pengkodean, bayangkan Anda diberi urutanN pasang pengamatan ( x , y) . Anda ingin mengompresnya menjadi file. Dua strategi: menyimpan semua (x) dalam satu file terkompresi kemudian secara mandiri semua (y) dalam file terkompresi lainnya; vs mengompresi pasangan. Menggunakan coder optimal, ukuran file dalam kasus pertama adalahN× H( X) + N× H( Y) , sedangkan dalam kasus kedua ukuran file adalah N×H(X, Y) . Pendekatan kedua lebih efisien jika ada hubungan antara dua variabel yang diamati! Berapa bit yang telah kami simpan per pengamatan?N×H(X) +N×H(Y) - N×H(X, Y)N= Saya(X, Y) ! Jadi informasi timbal balik memberi tahu kita berapa banyak bit per pengamatan yang kita simpan dengan mengkodekan dua aliran data secara bersama-sama daripada secara independen.
Saya tidak yakin tentang contoh Anda, meskipun ... Informasi timbal balik dihitung antara dua variabel acak (distribusi). Saya bisa melihat bagaimana "buku" dapat mewakili distribusi kata dalam sebuah buku; tapi saya tidak yakin apa artinya "kata" di sini. Informasi timbal balik juga membutuhkan pengamatan "berpasangan" untuk dihitung.
sumber