Mengukur “jarak” antara dua distribusi multivarian

28

Saya mencari beberapa terminologi yang bagus untuk menggambarkan apa yang saya coba lakukan, untuk membuatnya lebih mudah untuk mencari sumber daya.

Jadi, katakan saya memiliki dua kelompok titik A dan B, masing-masing terkait dengan dua nilai, X dan Y, dan saya ingin mengukur "jarak" antara A dan B - yaitu seberapa besar kemungkinan mereka diambil sampelnya dari distribusi yang sama (Saya dapat berasumsi bahwa distribusinya normal). Misalnya, jika X dan Y berkorelasi dalam A tetapi tidak dalam B, distribusinya berbeda.

Secara intuitif, saya akan mendapatkan matriks kovarians dari A, dan kemudian melihat seberapa besar kemungkinan setiap titik dalam B cocok di sana, dan sebaliknya (mungkin menggunakan jarak seperti Mahalanobis).

Tapi itu agak "ad-hoc", dan mungkin ada cara yang lebih ketat untuk menggambarkan ini (tentu saja, dalam praktiknya saya memiliki lebih dari dua dataset dengan lebih dari dua variabel - Saya mencoba mengidentifikasi yang mana dari dataset saya adalah outlier).

Terima kasih!

Emile
sumber
Entah mengapa, tetapi tes Mantel muncul di depan mata saya ketika saya membaca posting Anda.
Roman Luštrik

Jawaban:

15

Ada juga divergensi Kullback-Leibler , yang terkait dengan Hellinger Distance yang Anda sebutkan di atas.

Pasang kembali Monica - G. Simpson
sumber
2
dapatkah seseorang menghitung perbedaan titik Kullback-Leibler tanpa membuat asumsi dari probabilitas probabilitas yang mendasari titik-titik itu berasal?
Andre Holzner 6-10
16

Hmm, jarak Bhattacharyya tampaknya seperti yang saya cari, meskipun jarak Hellinger juga berfungsi.

Emile
sumber
Anda menyebutkan Bhattacharyya dan Helling lalu menerima jawaban yang berbicara tentang KL ... Pada akhirnya apa pilihan Anda dan mengapa?
Simon C.
1
Saya percaya itu adalah divergensi KL, tapi ... itu pada tahun 2010 dan ingatan saya jauh dari sempurna.
Emile
ahah ya saya menebaknya, tapi terima kasih!
Simon C.
9

Heuristis

  • Bentuk Minkowski
  • Weighted-Mean-Variance (WMV)

Statistik uji nonparametrik

  • 2 (Chi Square)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergensi informasi-teori

  • Kullback-Liebler (KL)
  • Divergensi Jensen – Shannon (metrik)
  • Jeffrey-divergence (stabil secara numerik dan simetris)

Langkah-langkah jarak darat

  • Persimpangan histogram
  • Bentuk kuadrat (QF)
  • Jarak Earth Movers (EMD)
skyde
sumber
0

Lebih sedikit ukuran "Perbedaan Statistik"

  • Tes permutasi (oleh Fisher)
  • Teorema Limit Pusat & Teorema Slutsky
  • Tes Mann-Whitney-Wilcoxin
  • Tes Anderson – Darling
  • Tes Shapiro-Wilk
  • Tes Hosmer – Lemeshow
  • Tes Kuiper
  • perbedaan Stein kernel
  • Kesamaan Jaccard
  • Juga, pengelompokan hierarkis berkaitan dengan langkah-langkah kesamaan antar kelompok. Ukuran paling populer dari kesamaan kelompok mungkin adalah hubungan tunggal, hubungan lengkap, dan hubungan rata-rata.
Danylo Zherebetskyy
sumber