Saya mencari beberapa terminologi yang bagus untuk menggambarkan apa yang saya coba lakukan, untuk membuatnya lebih mudah untuk mencari sumber daya.
Jadi, katakan saya memiliki dua kelompok titik A dan B, masing-masing terkait dengan dua nilai, X dan Y, dan saya ingin mengukur "jarak" antara A dan B - yaitu seberapa besar kemungkinan mereka diambil sampelnya dari distribusi yang sama (Saya dapat berasumsi bahwa distribusinya normal). Misalnya, jika X dan Y berkorelasi dalam A tetapi tidak dalam B, distribusinya berbeda.
Secara intuitif, saya akan mendapatkan matriks kovarians dari A, dan kemudian melihat seberapa besar kemungkinan setiap titik dalam B cocok di sana, dan sebaliknya (mungkin menggunakan jarak seperti Mahalanobis).
Tapi itu agak "ad-hoc", dan mungkin ada cara yang lebih ketat untuk menggambarkan ini (tentu saja, dalam praktiknya saya memiliki lebih dari dua dataset dengan lebih dari dua variabel - Saya mencoba mengidentifikasi yang mana dari dataset saya adalah outlier).
Terima kasih!
Jawaban:
Ada juga divergensi Kullback-Leibler , yang terkait dengan Hellinger Distance yang Anda sebutkan di atas.
sumber
Hmm, jarak Bhattacharyya tampaknya seperti yang saya cari, meskipun jarak Hellinger juga berfungsi.
sumber
Heuristis
Statistik uji nonparametrik
Divergensi informasi-teori
Langkah-langkah jarak darat
sumber
Survei paling lengkap disediakan dalam Inferensi Statistik Berdasarkan Tindakan Divergensi oleh Leandro Pardo, Complutense University, Chapman Hall 2006.
sumber
Lebih sedikit ukuran "Perbedaan Statistik"
sumber