Berapa jarak Mahalanobis, & bagaimana ia digunakan dalam pengenalan pola?

11

Bisakah seseorang menjelaskan kepada saya konsep jarak Mahalanobis? Misalnya, berapa jarak Mahalanobis antara dua titik x dan y, dan terutama, bagaimana hal itu ditafsirkan untuk pengenalan pola?

ayariga
sumber
3
Apa yang Anda mengerti tentang itu sekarang? Sudahkah Anda mencoba Wikipedia?
gung - Reinstate Monica
2
Sangat terkait erat: stats.stackexchange.com/questions/62092/… .
whuber
Anda dapat menggunakan tautan ini. itu mendeklarasikan dengan
Zohreh

Jawaban:

13

Jarak Mahalanobis menyediakan cara untuk mengukur seberapa mirip beberapa rangkaian kondisi dengan seperangkat kondisi yang diketahui. Ini menjelaskan kovarians antar variabel.

Ini dihitung sebagai: mana: D 2

D2=(xm)TC1(xm)
D2=Mahalanobis distancex=Vector of datam=Vector of mean values of independent variablesC1=Inverse Covariance matrix of independent variablesT=Indicates vector should be transposed

Halaman ini memberikan penjelasan rinci (dengan contoh-contoh dari analisis lanskap).

nadya
sumber
1
terima kasih, sumbernya memberi saya penjelasan yang bagus untuk memulai
ayariga
5

Jarak Mahalanobis digunakan untuk menemukan outlier dalam satu set data. Saya tidak tahu di bidang apa Anda berada, tetapi dalam psikologi itu digunakan untuk mengidentifikasi kasus-kasus yang tidak "sesuai" dengan apa yang diharapkan mengingat norma-norma untuk kumpulan data. Misalnya, jika sampel Anda terdiri dari individu dengan tingkat depresi rendah dan Anda memiliki satu atau dua orang dengan tingkat depresi sangat tinggi, maka mereka akan memiliki jarak Mahalanobis yang lebih besar dari nilai kritis yang diharapkan. Anda mungkin ingin menghapus kasus-kasus ini jika sangat ekstrim DAN jika Anda merasa tidak cocok dengan kumpulan data Anda. (Menggunakan contoh yang diberikan, sampel Anda terdiri dari individu dengan tingkat depresi rendah, oleh karena itu satu atau dua orang dengan tingkat depresi tinggi tidak cocok dengan yang lain). Mengidentifikasi pencilan sangat penting karena banyak analisis statistik memiliki "asumsi normalitas" yaitu harapan bahwa data Anda terdistribusi secara normal. Pencilan juga dapat berkontribusi pada data yang miring, dan untuk alasan ini mereka juga harus dihapus. (Kecuali Anda mengubah seluruh variabel dan ini mengoreksi condong). Banyak program statistik seperti SPSS memungkinkan Anda untuk menghitung jarak M dan probabilitas yang terkait dengan setiap skor untuk mengidentifikasi pencilan. Saya dapat memberi Anda petunjuk SPSS, tetapi saya tidak tahu apakah Anda menggunakan SPSS. (Kecuali Anda mengubah seluruh variabel dan ini mengoreksi condong). Banyak program statistik seperti SPSS memungkinkan Anda untuk menghitung jarak M dan probabilitas yang terkait dengan setiap skor untuk mengidentifikasi pencilan. Saya dapat memberi Anda petunjuk SPSS, tetapi saya tidak tahu apakah Anda menggunakan SPSS. (Kecuali Anda mengubah seluruh variabel dan ini mengoreksi condong). Banyak program statistik seperti SPSS memungkinkan Anda untuk menghitung jarak M dan probabilitas yang terkait dengan setiap skor untuk mengidentifikasi pencilan. Saya dapat memberi Anda petunjuk SPSS, tetapi saya tidak tahu apakah Anda menggunakan SPSS.

Madeline
sumber