Jarak mahalanobis pada data tidak normal

8

Jarak mahalanobis, ketika digunakan untuk tujuan klasifikasi, biasanya mengasumsikan distribusi normal multivariat, dan jarak dari centroid kemudian harus mengikuti (dengan derajat kebebasan sama dengan jumlah dimensi / fitur). Kita dapat menghitung probabilitas bahwa titik data baru milik set menggunakan jarak Mahalanobis-nya.χ2d

Saya memiliki kumpulan data yang tidak mengikuti distribusi normal multivarian ( ). Secara teori, setiap fitur harus mengikuti distribusi Poisson, dan secara empiris ini tampaknya menjadi kasus untuk banyak ( ) fitur, dan yang tidak ada dalam kebisingan dan dapat dihapus dari analisis. Bagaimana saya bisa mengklasifikasikan poin baru pada data ini?d1000200

Saya kira ada dua komponen:

  1. Apa formula "jarak Mahalanobis" yang tepat pada data ini (mis. Distribusi multivariat Poisson)? Apakah ada generalisasi jarak ke distribusi lain?
  2. Apakah saya menggunakan jarak Mahalanobis normal atau formulasi lain, bagaimana seharusnya distribusi jarak ini ? Apakah ada cara berbeda untuk melakukan uji hipotesis?

Kalau tidak...

Jumlah titik data yang diketahui di setiap kelas sangat bervariasi, dari (terlalu sedikit; Saya akan menentukan minimum secara empiris) hingga sekitar . Skala jarak Mahalanobis dengan , sehingga jarak dari satu model / kelas ke yang berikutnya tidak dapat dibandingkan secara langsung. Ketika data didistribusikan secara normal, uji chi-kuadrat menyediakan cara untuk membandingkan jarak dari model yang berbeda (selain memberikan nilai kritis atau probabilitas). Jika ada cara lain untuk secara langsung membandingkan jarak "seperti Mahalanobis", bahkan jika itu tidak memberikan probabilitas, saya bisa bekerja dengan itu.nn=1n=6000n

Jmilloy
sumber

Jawaban:

6

Anda mungkin ingin memeriksa Karlis dan Meligkotsidou, "Regresi poisson multivarian dengan struktur kovarian". 2005. Makalah ini adalah tentang upaya penulis untuk memodelkan variabel Poisson multivariat, yang mereka akui sebagai tugas yang sulit.

Penggunaan jarak Mahalanobis menyiratkan bahwa inferensi dapat dilakukan melalui matriks rata-rata dan kovarian - dan itu adalah properti dari distribusi normal saja. Jika Anda menggunakan MD pada data Anda, pada dasarnya Anda berpura-pura itu Normal.

Placidia
sumber
Saya pikir saya juga akan menyebutkan Tiku, et al, "jarak Mahalanobis di bawah non-normal", 2010 (yang saya tunggu) dan Ekstrom, "Mahalanobis Distance Beyond Normal Distribution", 2011 (yang tidak membantu saya tetapi dapat membantu orang lain bantu saya).
jmilloy