Pertanyaan tentang perbedaan KL?

14

Saya membandingkan dua distribusi dengan KL divergence yang mengembalikan saya nomor non-standar yang, menurut apa yang saya baca tentang ukuran ini, adalah jumlah informasi yang diperlukan untuk mengubah satu hipotesis menjadi yang lain. Saya punya dua pertanyaan:

a) Apakah ada cara untuk mengukur divergensi KL sehingga memiliki interpretasi yang lebih bermakna, misalnya seperti ukuran efek atau R ^ 2? Apa saja bentuk standardisasi?

b) Dalam R, ketika menggunakan KLdiv (paket flexmix) orang dapat mengatur nilai 'esp' (standar esp = 1e-4) yang menetapkan semua titik lebih kecil dari esp ke beberapa standar untuk memberikan stabilitas numerik. Saya telah bermain dengan nilai esp yang berbeda dan, untuk set data saya, saya mendapatkan perbedaan KL yang semakin besar semakin kecil jumlah yang saya pilih. Apa yang sedang terjadi? Saya berharap bahwa semakin kecil esp, semakin dapat diandalkan hasilnya seharusnya karena mereka membiarkan lebih banyak 'nilai nyata' menjadi bagian dari statistik. Tidak? Saya harus mengubah esp karena jika tidak menghitung statistik tetapi hanya muncul sebagai NA pada tabel hasil ...

Ampleforth
sumber

Jawaban:

10

Misalkan Anda diberikan n sampel IID yang dihasilkan oleh p atau q. Anda ingin mengidentifikasi distribusi mana yang menghasilkannya. Ambil hipotesis nol bahwa itu dihasilkan oleh q. Biarkan probabilitas indikasi kesalahan Tipe I, menolak hipotesis nol, dan b menunjukkan probabilitas kesalahan Tipe II.

Maka untuk n besar, probabilitas kesalahan Tipe I setidaknya

exp(nKL(p,q))

Dengan kata lain, untuk prosedur pengambilan keputusan "optimal", probabilitas Tipe I paling banyak jatuh pada faktor exp (KL (p, q)) dengan setiap titik data. Galat tipe II paling banyak jatuh pada faktor .exp(KL(q,p))

Untuk n sembarang, a dan b terkait sebagai berikut

blogb1a+(1b)log1banKL(p,q)

dan

aloga1b+(1a)log1abnKL(q,p)

Jika kita menyatakan batas di atas sebagai batas bawah pada b dan KL dan menurunkan b ke 0, hasilnya tampaknya mendekati "exp (-n KL (q, p))" terikat bahkan untuk n kecil

Lebih detail di halaman 10 di sini , dan halaman 74-77 dari "Teori Informasi dan Statistik" Kullback (1978).

Sebagai catatan tambahan, interpretasi ini dapat digunakan untuk memotivasi metrik Informasi Fisher, karena untuk setiap distribusi p, q pada jarak Fisher k dari satu sama lain (k kecil) Anda memerlukan jumlah pengamatan yang sama untuk membedakan mereka

Yaroslav Bulatov
sumber
1
+1 Saya suka interpretasi ini! bisakah Anda menjelaskan "p di bawah e"? mengapa Anda mengambil e kecil? Anda mengatakan "probabilitas membuat kesalahan yang berlawanan adalah" itu adalah probabilitas batas atas atau tepatnya? Jika saya ingat, jenis pendekatan ini adalah karena Chernoff, apakah Anda memiliki referensi (saya menemukan referensi pertama Anda tidak menjelaskan maksudnya :))?
robin girard
1
Mengapa saya mengambil e kecil ... hmm ... itulah yang dilakukan oleh kertas Balasubramanian, tetapi sekarang, kembali ke Kullback, sepertinya ikatannya berlaku untuk setiap e, dan ia juga memberikan batasan untuk n terbatas, biarkan saya memperbarui jawabannya
Yaroslav Bulatov
ok, kita tidak perlu e kecil (sekarang disebut b, kesalahan Tipe II) menjadi kecil untuk terikat untuk memegang, tetapi b = 0 adalah nilai yang terikat disederhanakan (exp (-n KL (p, q)) cocok dengan batas yang lebih rumit di atas. Anehnya, batas bawah untuk kesalahan Tipe I diberikan 0 Kesalahan tipe II adalah <1, saya bertanya-tanya apakah <1 Tingkat kesalahan tipe II sebenarnya dapat dicapai
Yaroslav Bulatov
1
Sebenarnya referensi yang jauh lebih mudah untuk memahami ini adalah "Elemen Teori Informasi" Sampul, halaman 309, 12,8 "Stein's Lemma"
Yaroslav Bulatov
8

KL memiliki makna yang dalam ketika Anda memvisualisasikan serangkaian gigi palsu sebagai manifold dalam tensor metrik fisher, ini memberikan jarak geodesi antara dua distribusi "dekat". Secara formal:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Baris berikut di sini untuk menjelaskan dengan detail apa yang dimaksud dengan rumus matematika ini.

Definisi metrik Fisher.

D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

Anda bisa mengatakan ... OK abstraksi matematis tetapi di mana KL?

p=1F11

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

dan diketahui dua kali Kullback Leibler Divergence:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Jika Anda ingin mempelajari lebih lanjut tentang itu saya sarankan membaca makalah dari Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (saya pikir ada juga buku dari Amari tentang geometri riemannian dalam statistik tapi saya tidak ingat namanya)

robin girard
sumber
Silakan tambahkan $ di sekitar LaTeX Anda. Seharusnya sekarang diterjemahkan ok. Lihat meta.math.stackexchange.com/questions/2/…
Rob Hyndman
1
Karena saya bukan ahli matematika atau ahli statistik, saya ingin menyatakan kembali apa yang Anda katakan untuk memastikan saya tidak salah mengerti. Jadi, Anda mengatakan bahwa mengambil ds ^ 2 (dua kali KL) akan memiliki arti yang sama dengan R ^ 2 (dalam model regresi) untuk distribusi umum. Dan ini benar-benar dapat digunakan untuk mengukur jarak secara geometris? Apakah ds ^ 2 memiliki nama sehingga saya dapat melakukan lebih banyak membaca tentang ini. Apakah ada kertas yang secara langsung menggambarkan metrik ini dan menunjukkan aplikasi dan contoh?
Ampleforth
Saya pikir Anda jauh dari memahami intinya, dan saya tidak yakin Anda harus mencoba melangkah lebih jauh sekarang. Jika Anda termotivasi, Anda dapat membaca makalah dari Bradley Efron yang saya sebutkan atau makalah dari Amari projecteuclid.org/… .
robin girard
1
Ini tampaknya menjadi karakterisasi turunan terarah dari KL daripada KL itu sendiri, dan tampaknya tidak mungkin untuk mendapatkan divergensi KL darinya karena tidak seperti turunannya, divergensi-KL tidak bergantung pada geometri manifold
Yaroslav Bulatov
7

Divergensi KL (p, q) antara distribusi p (.) Dan q (.) Memiliki interpretasi teoretik informasi intuitif yang mungkin berguna bagi Anda.

Misalkan kita mengamati data x yang dihasilkan oleh beberapa distribusi probabilitas p (.). Batas bawah pada panjang kode rata-rata dalam bit yang dibutuhkan untuk menyatakan data yang dihasilkan oleh p (.) Diberikan oleh entropi p (.).

Sekarang, karena kita tidak tahu p (.) Kita memilih distribusi lain, katakanlah, q (.) Untuk menyandikan (atau menggambarkan, menyatakan) data. Panjang kode rata-rata data yang dihasilkan oleh p (.) Dan disandikan menggunakan q (.) Tentu akan lebih lama daripada jika p (.) Distribusi yang sebenarnya digunakan untuk pengkodean. Divergensi KL memberi tahu kita tentang ketidakefisienan kode alternatif ini. Dengan kata lain, perbedaan KL antara p (.) Dan q (.) Adalah jumlah rata-rata bit tambahan yang diperlukan untuk menyandikan data yang dihasilkan oleh p (.) Menggunakan distribusi kode q (.). Divergensi KL adalah non-negatif dan sama dengan nol jika distribusi data aktual digunakan untuk menyandikan data.

emakalic
sumber
2

Untuk bagian (b) dari pertanyaan Anda, Anda mungkin mengalami masalah bahwa salah satu distribusi Anda memiliki kepadatan di wilayah di mana yang lain tidak.

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

Dave
sumber