Apa arti dari Informasi Mutual di luar perhitungan numerik?

8

Di luar persamaan mentah untuk menghitung informasi timbal balik, apa artinya secara fisik? Sebagai contoh: Dari Teori Informasi, kita tahu bahwa entropi adalah skema kompresi loss-less terkecil yang dapat kita gunakan pada alfabet dengan distribusi probabilitas tertentu.

Apa artinya itu dalam hal Informasi Bersama?

Latar belakang: Saya mencoba untuk menghitung informasi timbal balik dari kata-kata uni-gram dan menentukan dari mana dua buku itu berasal.

penting

saya(bHaiHaik;wHaird)
CyberMen
sumber
Berikut adalah beberapa tautan yang saya temukan yang mungkin dapat membantu Anda juga: ( stats.stackexchange.com/search?q=mutual+information )
Spacey

Jawaban:

6

Informasi Mutual menurut definisi menghubungkan dua variabel acak (RV) dan mengukur ketergantungan antara dua RV dari perspektif konten informasi yaitu ukuran jumlah informasi yang terkandung oleh satu RV tentang RV lainnya. Dan informasi timbal balik adalah kuantitas simetris, yaitu,saya(X;Y)=saya(Y;X).

Dalam hal saluran komunikasi, kapasitas maksimum yang dapat dicapai untuk saluran tersebut adalah maksimum dari informasi timbal balik antara input saluran dan output C=makshal(x)saya(X;Y).

Dalam kasus Anda, kedua RV dan akan sesuai dengan buku dan kata-kata. Informasi timbal balik akan mengukur jumlah informasi yang umum antara pasangan (buku, kata). Jelas Anda akan mengasosiasikan kata dengan buku yang Anda miliki informasi timbal balik maksimum. Ini adalah pendekatan informasi timbal balik maksimum.XY

sauravrt
sumber
Bisa menggunakan lebih banyak paragraf, tata bahasa, dan lebih sedikit buku teks seperti nada tetapi, sebaliknya, sangat jelas.
CyberMen
6

Dua tambahan intuitif mengambil informasi timbal balik:

  • Ketika dua variabel acak independen distribusi bersama hal(x,y) dan produk dari distribusi marginal hal(x) dan hal(y)identik. Dengan demikian seseorang dapat menilai tingkat independen antara dua variabel acak dengan menghitung jarak probabilistik antarahal(x)×hal(y) dan hal(x,y)- Jarak ini menjadi 0 ketika kedua variabel independen. Jarak probabilistik yang umum antara variabel adalah perbedaan Kullback-Leibler. Jika Anda mengambil perbedaan Kullback-Leibler antara distribusi bersama dan produk dari marginal dari dua variabel acak, Anda berakhir dengan ... informasi bersama.

  • Dari perspektif kompresi / pengkodean, bayangkan Anda diberi urutan N pasang pengamatan (x,y). Anda ingin mengompresnya menjadi file. Dua strategi: menyimpan semua (x) dalam satu file terkompresi kemudian secara mandiri semua (y) dalam file terkompresi lainnya; vs mengompresi pasangan. Menggunakan coder optimal, ukuran file dalam kasus pertama adalahN×H(X)+N×H(Y), sedangkan dalam kasus kedua ukuran file adalah N×H(X,Y). Pendekatan kedua lebih efisien jika ada hubungan antara dua variabel yang diamati! Berapa bit yang telah kami simpan per pengamatan?N×H(X)+N×H(Y)-N×H(X,Y)N=saya(X,Y)! Jadi informasi timbal balik memberi tahu kita berapa banyak bit per pengamatan yang kita simpan dengan mengkodekan dua aliran data secara bersama-sama daripada secara independen.

Saya tidak yakin tentang contoh Anda, meskipun ... Informasi timbal balik dihitung antara dua variabel acak (distribusi). Saya bisa melihat bagaimana "buku" dapat mewakili distribusi kata dalam sebuah buku; tapi saya tidak yakin apa artinya "kata" di sini. Informasi timbal balik juga membutuhkan pengamatan "berpasangan" untuk dihitung.

pichenettes
sumber
Pikirkan memiliki banyak buku dari kategori tersebut. (pada dasarnya Anda dapat menghitung P (c) = #buku C / # totalbooks. Kata - kata histogram.)
CyberMen
Kategori apa yang Anda maksud? Apa pasangan pengamatan Anda?
pichenettes