Saya membandingkan dua distribusi dengan KL divergence yang mengembalikan saya nomor non-standar yang, menurut apa yang saya baca tentang ukuran ini, adalah jumlah informasi yang diperlukan untuk mengubah satu hipotesis menjadi yang lain. Saya punya dua pertanyaan:
a) Apakah ada cara untuk mengukur divergensi KL sehingga memiliki interpretasi yang lebih bermakna, misalnya seperti ukuran efek atau R ^ 2? Apa saja bentuk standardisasi?
b) Dalam R, ketika menggunakan KLdiv (paket flexmix) orang dapat mengatur nilai 'esp' (standar esp = 1e-4) yang menetapkan semua titik lebih kecil dari esp ke beberapa standar untuk memberikan stabilitas numerik. Saya telah bermain dengan nilai esp yang berbeda dan, untuk set data saya, saya mendapatkan perbedaan KL yang semakin besar semakin kecil jumlah yang saya pilih. Apa yang sedang terjadi? Saya berharap bahwa semakin kecil esp, semakin dapat diandalkan hasilnya seharusnya karena mereka membiarkan lebih banyak 'nilai nyata' menjadi bagian dari statistik. Tidak? Saya harus mengubah esp karena jika tidak menghitung statistik tetapi hanya muncul sebagai NA pada tabel hasil ...
sumber
KL memiliki makna yang dalam ketika Anda memvisualisasikan serangkaian gigi palsu sebagai manifold dalam tensor metrik fisher, ini memberikan jarak geodesi antara dua distribusi "dekat". Secara formal:
Baris berikut di sini untuk menjelaskan dengan detail apa yang dimaksud dengan rumus matematika ini.
Definisi metrik Fisher.
Anda bisa mengatakan ... OK abstraksi matematis tetapi di mana KL?
dan diketahui dua kali Kullback Leibler Divergence:
Jika Anda ingin mempelajari lebih lanjut tentang itu saya sarankan membaca makalah dari Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (saya pikir ada juga buku dari Amari tentang geometri riemannian dalam statistik tapi saya tidak ingat namanya)
sumber
Divergensi KL (p, q) antara distribusi p (.) Dan q (.) Memiliki interpretasi teoretik informasi intuitif yang mungkin berguna bagi Anda.
Misalkan kita mengamati data x yang dihasilkan oleh beberapa distribusi probabilitas p (.). Batas bawah pada panjang kode rata-rata dalam bit yang dibutuhkan untuk menyatakan data yang dihasilkan oleh p (.) Diberikan oleh entropi p (.).
Sekarang, karena kita tidak tahu p (.) Kita memilih distribusi lain, katakanlah, q (.) Untuk menyandikan (atau menggambarkan, menyatakan) data. Panjang kode rata-rata data yang dihasilkan oleh p (.) Dan disandikan menggunakan q (.) Tentu akan lebih lama daripada jika p (.) Distribusi yang sebenarnya digunakan untuk pengkodean. Divergensi KL memberi tahu kita tentang ketidakefisienan kode alternatif ini. Dengan kata lain, perbedaan KL antara p (.) Dan q (.) Adalah jumlah rata-rata bit tambahan yang diperlukan untuk menyandikan data yang dihasilkan oleh p (.) Menggunakan distribusi kode q (.). Divergensi KL adalah non-negatif dan sama dengan nol jika distribusi data aktual digunakan untuk menyandikan data.
sumber
Untuk bagian (b) dari pertanyaan Anda, Anda mungkin mengalami masalah bahwa salah satu distribusi Anda memiliki kepadatan di wilayah di mana yang lain tidak.
sumber