Saya mencoba mencari argumen yang bagus tentang mengapa seseorang akan menggunakan jarak Manhattan di atas jarak Euclidean dalam Pembelajaran Mesin.
Hal terdekat yang saya temukan untuk argumen yang baik sejauh ini adalah pada kuliah MIT ini .
Pada 36:15 Anda dapat melihat pada slide pernyataan berikut:
"Biasanya menggunakan metrik Euclidean; Manhattan mungkin cocok jika dimensi yang berbeda tidak sebanding. "
Tak lama setelah profesor mengatakan bahwa, karena jumlah kaki reptil bervariasi dari 0 hingga 4 (sedangkan fitur lainnya adalah biner, hanya bervariasi dari 0 hingga 1), fitur "jumlah kaki" akan berakhir memiliki yang jauh lebih tinggi berat jika jarak Euclidean digunakan. Benar saja, itu memang benar. Tetapi orang juga akan memiliki masalah itu jika menggunakan jarak Manhattan (hanya saja masalahnya akan sedikit dikurangi karena kita tidak menguadratkan perbedaan seperti yang kita lakukan pada jarak Euclidean).
Cara yang lebih baik untuk menyelesaikan masalah di atas adalah dengan menormalkan fitur "jumlah kaki" sehingga nilainya selalu antara 0 dan 1.
Oleh karena itu, karena ada cara yang lebih baik untuk menyelesaikan masalah, rasanya seperti argumen menggunakan jarak Manhattan dalam kasus ini tidak memiliki titik yang lebih kuat, setidaknya menurut pendapat saya.
Adakah yang benar-benar tahu mengapa dan kapan seseorang akan menggunakan jarak Manhattan di atas Euclidean? Adakah yang bisa memberi saya contoh di mana menggunakan jarak Manhattan akan menghasilkan hasil yang lebih baik?
Saya dapat menyarankan beberapa ide, dari wikipedia .
sumber
Saya menemukan sesuatu yang mungkin intuisi tentang masalah ini dalam Praktek Mesin Langsung dengan Scikit-Learn dan TensorFlow
sumber
Penggunaan jarak Manhattan sangat tergantung pada jenis sistem koordinat yang digunakan dataset Anda. Sementara jarak Euclidean memberikan jarak terpendek atau minimum antara dua titik, Manhattan memiliki implementasi spesifik.
Sebagai contoh, jika kita menggunakan dataset Catur, penggunaan jarak Manhattan lebih tepat daripada jarak Euclidean. Kegunaan lain adalah ketika tertarik mengetahui jarak antara rumah-rumah yang berjarak beberapa blok.
Juga, Anda mungkin ingin mempertimbangkan jarak Manhattan jika variabel inputnya tidak memiliki tipe yang sama (seperti usia, jenis kelamin, tinggi badan, dll.). Karena kutukan dimensi, kita tahu bahwa jarak Euclidean menjadi pilihan yang buruk karena jumlah dimensi meningkat.
Singkatnya: jarak Manhattan umumnya hanya bekerja jika titik-titik tersebut diatur dalam bentuk kisi dan masalah yang sedang kami kerjakan memberikan prioritas lebih pada jarak antara titik-titik hanya dengan kisi-kisi, tetapi bukan jarak geometris.
sumber