Jarak mahalanobis, ketika digunakan untuk tujuan klasifikasi, biasanya mengasumsikan distribusi normal multivariat, dan jarak dari centroid kemudian harus mengikuti (dengan derajat kebebasan sama dengan jumlah dimensi / fitur). Kita dapat menghitung probabilitas bahwa titik data baru milik set menggunakan jarak Mahalanobis-nya.
Saya memiliki kumpulan data yang tidak mengikuti distribusi normal multivarian ( ). Secara teori, setiap fitur harus mengikuti distribusi Poisson, dan secara empiris ini tampaknya menjadi kasus untuk banyak ( ) fitur, dan yang tidak ada dalam kebisingan dan dapat dihapus dari analisis. Bagaimana saya bisa mengklasifikasikan poin baru pada data ini?
Saya kira ada dua komponen:
- Apa formula "jarak Mahalanobis" yang tepat pada data ini (mis. Distribusi multivariat Poisson)? Apakah ada generalisasi jarak ke distribusi lain?
- Apakah saya menggunakan jarak Mahalanobis normal atau formulasi lain, bagaimana seharusnya distribusi jarak ini ? Apakah ada cara berbeda untuk melakukan uji hipotesis?
Kalau tidak...
Jumlah titik data yang diketahui di setiap kelas sangat bervariasi, dari (terlalu sedikit; Saya akan menentukan minimum secara empiris) hingga sekitar . Skala jarak Mahalanobis dengan , sehingga jarak dari satu model / kelas ke yang berikutnya tidak dapat dibandingkan secara langsung. Ketika data didistribusikan secara normal, uji chi-kuadrat menyediakan cara untuk membandingkan jarak dari model yang berbeda (selain memberikan nilai kritis atau probabilitas). Jika ada cara lain untuk secara langsung membandingkan jarak "seperti Mahalanobis", bahkan jika itu tidak memberikan probabilitas, saya bisa bekerja dengan itu.
sumber