Saya dapat melihat bahwa ada banyak perbedaan formal antara ukuran jarak Kullback-Leibler vs Kolmogorov-Smirnov. Namun, keduanya digunakan untuk mengukur jarak antar distribusi.
- Apakah ada situasi khusus di mana satu harus digunakan dan bukan yang lain?
- Apa alasan untuk melakukannya?
Jawaban:
Divergensi KL biasanya digunakan dalam pengaturan teoretis informasi, atau bahkan pengaturan Bayesian, untuk mengukur perubahan informasi antara distribusi sebelum dan sesudah menerapkan beberapa inferensi, misalnya. Ini bukan jarak dalam arti (metrik) yang khas, karena kurangnya kesimetrian dan segitiga, dan karena itu digunakan di tempat-tempat di mana arah itu bermakna.
Jarak KS biasanya digunakan dalam konteks tes non-parametrik. Bahkan, saya jarang melihatnya digunakan sebagai "jarak antara distribusi" generik, di mana jarak , jarak Jensen-Shannon, dan jarak lainnya lebih umum.ℓ1
sumber
Cara lain untuk menyatakan hal yang sama dengan jawaban sebelumnya dalam istilah yang lebih awam:
KL Divergence - Sebenarnya memberikan ukuran seberapa besar perbedaan adalah dua distribusi dari satu sama lain. Seperti disebutkan oleh jawaban sebelumnya, ukuran ini bukan metrik jarak yang tepat karena tidak simetris. Yaitu jarak antara distribusi A dan B adalah nilai yang berbeda dari jarak antara distribusi B dan A.
Tes Kolmogorov-Smirnov - Ini adalah metrik evaluasi yang melihat pemisahan terbesar antara distribusi kumulatif dari distribusi tes relatif terhadap distribusi referensi. Selain itu, Anda dapat menggunakan metrik ini seperti z-score terhadap distribusi Kolmogorov untuk melakukan tes hipotesis, apakah distribusi tes adalah distribusi yang sama dengan referensi. Metrik ini dapat digunakan sebagai fungsi jarak karena simetris. Yaitu pemisahan terbesar antara CDF A vs CDF B adalah sama dengan pemisahan terbesar antara CDF B vs CDF A.
sumber