Apa itu kebingungan?

42

Saya menemukan istilah kebingungan yang mengacu pada probabilitas invers log-rata pada data yang tidak terlihat. Artikel Wikipedia tentang kebingungan tidak memberikan makna intuitif untuk hal yang sama.

Ukuran kebingungan ini digunakan dalam kertas pLSA .

Adakah yang bisa menjelaskan kebutuhan dan makna intuitif dari ukuran kebingungan ?

Pelajar
sumber
Bagaimana cara menghitung kebingungan untuk pLSA. Saya memiliki datamatrix yang memiliki hitungan dan dengan algoritma TEM dan dihitung. p ( d ) p ( w | d )Xhal(d)hal(w|d)
Pelajar
3
Saya telah memeriksa indeks 5 buku penambangan / pembelajaran mesin / buku analisis prediktif oleh Nisbett, Larose, Witten, Torgo, dan Shemueli (plus rekan penulis) dan istilah ini tidak muncul di salah satu di antaranya. Saya bingung :)
zbicyclist
1
Kebingungan adalah nama lain untuk ketidakpastian. Ini dapat dianggap sebagai evaluasi intrinsik terhadap evaluasi ekstrinsik. Jan Jurafsky menjelaskannya secara elegan dengan contoh-contoh sesuai dengan pemodelan bahasa di sini di youtube.com/watch?v=BAN3NB_SNHY
bicepjai
2
@ zbicyclist, Jika Anda mencari contoh di alam bebas, ini sangat umum di NLP, dan khusus untuk evaluasi hal-hal seperti model bahasa.
Matt Krause
Dalam beberapa bidang (misalnya ekonomi) orang berbicara tentang angka yang setara sehingga misalnya mana adalah entropi berdasarkan logaritma natural adalah jumlah yang setara dari kategori umum yang sama. Jadi, masing-masing dua kategori dengan probabilitas 0,5 menghasilkan entropi pada dan eksponensial kembali 2 sebagai jumlah kategori yang sama-sama umum. Untuk probabilitas yang tidak setara, angka-angka yang setara pada umumnya bukan bilangan bulat. H ln 2exp(H)Hdalam2
Nick Cox

Jawaban:

21

Anda telah melihat artikel Wikipedia tentang kebingungan . Ini memberikan kebingungan distribusi diskrit sebagai

2-xhal(x)log2hal(x)

yang juga bisa ditulis sebagai

exp(xp(x)loge1p(x))

yaitu sebagai rata-rata geometri tertimbang dari invers probabilitas. Untuk distribusi kontinu, jumlah tersebut akan berubah menjadi integral.

Artikel ini juga memberikan cara memperkirakan kebingungan untuk model menggunakan buah data ujiN

2i=1N1Nlog2q(xi)

yang juga bisa ditulis

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

atau dalam berbagai cara lain, dan ini harus membuatnya lebih jelas dari mana "probabilitas invers log-rata" berasal.

Henry
sumber
Apakah ada perbedaan khusus antara kapan e digunakan sebagai eksponen daripada 2?
Henry E
2
@HenryE: tidak ada, dan logaritma umum mendasarkan akan bekerja juga - logaritma di basis yang berbeda sebanding dengan satu sama lain dan jelas sebuah log a x = b log b x10alogax=blogbx
Henry
Saya pikir banyak. Saya menemukan jawaban ini ketika saya mencoba untuk memahami mengapa sepotong kode menggunakan e untuk menghitung kebingungan ketika semua formulasi lain yang sebelumnya saya lihat telah menggunakan 2. Saya menyadari sekarang betapa pentingnya untuk mengetahui apa nilai suatu kerangka kerja menggunakan sebagai dasar untuk perhitungan kehilangan log
Henry E
27

Saya menemukan ini agak intuitif:

Kebingungan dari apa pun yang Anda evaluasi, pada data yang Anda evaluasi, semacam memberitahu Anda "hal ini benar tentang sesering x-side sided."

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

panda di mana saja
sumber
Itu artikel yang menarik; mungkin tidak begitu mendalam tapi pengantar yang bagus dibaca.
Monica Heddneck
1
Saya juga menemukan artikel ini bermanfaat, jamesmccaffrey.wordpress.com/2016/08/16/...
user2561747
11

Saya juga bertanya-tanya. Penjelasan pertama tidak buruk, tetapi di sini ada 2 nats saya untuk apa pun yang layak.


Pertama-tama, kebingungan tidak ada hubungannya dengan mengkarakterisasi seberapa sering Anda menebak sesuatu dengan benar. Ini lebih berkaitan dengan mengkarakterisasi kompleksitas urutan stokastik.

Kami sedang melihat kuantitas,

2xp(x)log2p(x)

Pertama-tama mari kita batalkan log dan eksponensial.

2xp(x)log2p(x)=1xp(x)p(x)

Saya pikir ada baiknya menunjukkan bahwa kebingungan adalah invarian dengan basis yang Anda gunakan untuk mendefinisikan entropi. Jadi dalam hal ini, kebingungan jauh lebih unik / kurang sewenang-wenang daripada entropi sebagai ukuran.

Hubungan dengan Dadu

Mari kita bermain dengan ini sedikit. Katakanlah Anda hanya melihat koin. Ketika koin itu adil, entropi maksimum, dan kebingungan maksimum

11212×1212=2

Sekarang apa yang terjadi ketika kita melihat dadu berpihak N ? Bingung adalah

1(1N1N)N=N

Jadi kebingungan mewakili jumlah sisi dadu yang adil yang ketika digulung, menghasilkan urutan dengan entropi yang sama dengan distribusi probabilitas yang Anda berikan.

Jumlah Negara

NN+1NϵNN+1ϵNxpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

ϵ0

1xNpxpx

Jadi, ketika Anda membuat membuat satu sisi dadu semakin tidak mungkin, kebingungan akhirnya tampak seolah-olah sisi itu tidak ada.

Alex Eftimiades
sumber
3
Tentunya itu hanya bernilai ~ 1,39 nats?
Matt Krause
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
5

XX

P(X=X)2H(X)=12H(X)=1perplexity

Untuk menjelaskan, kebingungan distribusi X seragam hanya | X |, jumlah elemen. Jika kita mencoba menebak nilai yang akan diambil sampel Iid dari distribusi seragam X dengan hanya membuat tebakan id dari X, kita akan benar 1 / | X | = 1 / kebingungan waktu. Karena distribusi seragam adalah nilai yang paling sulit ditebak, kita dapat menggunakan 1 / kebingungan sebagai perkiraan batas / heuristik yang lebih rendah untuk seberapa sering tebakan kita benar.

pengguna49404
sumber