Apa itu Hellinger Distance dan kapan menggunakannya?

19

Saya tertarik mengetahui apa yang sebenarnya terjadi di Hellinger Distance (dalam istilah sederhana). Selain itu, saya juga tertarik mengetahui jenis masalah apa yang bisa kita gunakan Hellinger Distance? Apa manfaat menggunakan Hellinger Distance?

Smith Volka
sumber
9
Jarak Hellinger adalah analog probabilistik dari jarak Euclidean. Properti yang menonjol adalah simetri, sebagai metrik. Sifat matematika seperti itu berguna jika Anda menulis makalah dan Anda memerlukan fungsi jarak yang memiliki sifat tertentu untuk memungkinkan pembuktian Anda. Dalam aplikasi, seseorang mungkin menemukan bahwa satu metrik menghasilkan hasil yang lebih baik atau lebih baik daripada yang lain untuk tugas tertentu; misal, jarak Wasserstein adalah hal yang paling disukai dalam jaringan permusuhan generatif
Emre
Terima kasih atas komentarnya. Saya menemukan pertanyaan ini, yang sangat mirip dengan pertanyaan yang saya miliki sekarang. datasetcience.stackexchange.com/questions/22324/... Tolong beri tahu saya, mengapa jawabannya mengatakan Hellinger Distance cocok?
Smith Volka
2
Mungkin untuk memvisualisasikan topik dalam ruang metrik. Properti bagus lainnya adalah jarak Hellinger terbatas untuk distribusi dengan dukungan berbeda. Adalah baik bahwa Anda mengajukan pertanyaan-pertanyaan ini. Saya sarankan mencoba metrik yang berbeda untuk Anda sendiri dan mengamati hasilnya.
Emre
Terima kasih. itu tautan yang bagus. banyak membantu. Tetapi apakah jarak Hellinger hanya terbatas pada topik yang berasal dari Latent Dirichlet Allocation (LDA) seperti yang disebutkan dalam tautan?
Smith Volka
1
Tidak, itu tidak memiliki koneksi yang melekat ke LDA.
Emre

Jawaban:

7

Jarak Hellinger adalah metrik untuk mengukur perbedaan antara dua distribusi probabilitas. Ini adalah analog probabilistik jarak Euclidean .

Diberikan dua distribusi probabilitas, dan , jarak Hellinger didefinisikan sebagai:QPQ

h(P,Q)=12PQ2

Ini berguna ketika mengukur perbedaan antara dua distribusi probabilitas. Misalnya, jika Anda memperkirakan distribusi untuk pengguna dan bukan pengguna layanan. Jika jarak Hellinger kecil antara kelompok-kelompok itu untuk beberapa fitur, maka fitur-fitur itu tidak berguna secara statistik untuk segmentasi.

Brian Spiering
sumber