Pertimbangkan eksperimen berikut: sekelompok orang diberikan daftar kota, dan diminta untuk menandai lokasi yang sesuai pada peta dunia (jika tidak berlabel). Untuk setiap kota, Anda akan mendapatkan sebaran poin yang secara kasar berpusat di kota masing-masing. Beberapa kota, katakanlah Istanbul, akan menunjukkan penyebaran kurang dari yang lain, kata Moskow.
Mari kita asumsikan bahwa untuk kota tertentu, kita mendapatkan satu set sampel 2D , mewakili posisi kota (misalnya dalam sistem koordinat lokal) pada peta yang ditugaskan oleh tes subjek . Saya ingin menyatakan jumlah "dispersi" dari titik-titik dalam set ini sebagai angka tunggal dalam satuan yang sesuai (km).( x , y ) i
Untuk masalah 1D, saya akan memilih standar deviasi, tetapi apakah ada analog 2D yang dapat dipilih untuk situasi seperti dijelaskan di atas?
sumber
Jawaban:
Satu hal yang dapat Anda gunakan adalah ukuran jarak dari titik pusat, , seperti rata-rata sampel dari titik-titik ( ¯ x , ¯ y ) , atau mungkin centroid dari titik yang diamati. Maka ukuran dispersi akan menjadi jarak rata-rata dari titik pusat:c =( c1, c2) ( x¯¯¯, y¯¯¯)
dimana . Ada banyak pilihan potensial untuk pengukuran jarak tetapi norma L 2 (misalnya jarak euclidean) mungkin merupakan pilihan yang masuk akal:zi={xi,yi} L.2
Ada banyak pilihan potensial lainnya. Lihat http://en.wikipedia.org/wiki/Norm_%28mathematics%29
sumber
Referensi yang baik tentang metrik untuk distribusi spasial pola titik adalah manual CrimeStat (khususnya untuk pertanyaan ini, Bab 4 akan menarik). Mirip dengan metrik Makro yang disarankan, Standar Jarak Deviasi mirip dengan standar deviasi 2D (satu-satunya perbedaan adalah bahwa Anda akan membaginya dengan "n-2" bukan "n" dalam rumus pertama yang diberikan Makro).
Eksperimen contoh Anda sebenarnya mengingatkan saya sedikit tentang bagaimana studi mengevaluasi Geografis Pelanggar Profiling , dan karenanya metrik yang digunakan dalam karya-karya itu mungkin menarik. Khususnya istilah ketelitian dan akurasi digunakan sedikit dan akan relevan dengan penelitian. Tebakan bisa memiliki standar deviasi kecil (yaitu tepat) tetapi masih memiliki akurasi yang sangat rendah.
sumber
Saya pikir Anda harus menggunakan 'Jarak Mahalanobis' daripada norma jarak Euclidean, karena memperhitungkan korelasi set data dan 'skala-invarian'. Ini tautannya:
http://en.wikipedia.org/wiki/Mahalanobis_distance
Anda juga bisa menggunakan 'Kedalaman Setengah Ruang'. Ini sedikit lebih rumit tetapi memiliki banyak properti menarik. Setengah ruang Kedalaman (juga dikenal sebagai Kedalaman lokasi) dari titik tertentu relatif terhadap kumpulan data P adalah jumlah minimum titik P yang terletak pada setengah bidang tertutup yang ditentukan oleh garis melalui a. Inilah tautannya:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
sumber
Saya benar-benar mengalami masalah yang sama baru-baru ini. Sepertinya Anda menginginkan cara untuk mengukur seberapa baik titik-titik tersebut tersebar berdasarkan area. Tentu saja, untuk pengukuran tertentu, Anda harus menyadari bahwa jika semua titik berada dalam garis lurus, jawabannya adalah nol, karena tidak ada variasi 2 dimensi.
Dari perhitungan yang saya lakukan, inilah yang saya dapatkan:
Dalam hal ini, Sxx dan Syy adalah varian masing-masing x dan y, sedangkan Sxy agak seperti varian campuran x dan y.
Untuk menguraikan, anggap ada n elemen, danxμ mewakili nilai rata-rata x dan yμ mewakili rata-rata y:
Semoga ini bisa bekerja untuk Anda.
Juga, jika Anda ingin tahu bagaimana melakukannya dalam dimensi yang lebih tinggi, seperti mengukur penyebaran volume atau surteron bulk dalam 4 dimensi, Anda harus membentuk matriks seperti:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
... ... ... ...
Dan lanjutkan untuk banyak dimensi yang Anda butuhkan. Anda harus dapat mengetahui nilai S yang diberikan definisi yang diberikan di atas, tetapi untuk variabel yang berbeda.
Setelah matriks terbentuk, ambil determinan, temukan akar kuadratnya, dan Anda selesai.
sumber
Untuk contoh khusus ini - di mana ada jawaban "benar" yang telah ditentukan sebelumnya - saya akan mengerjakan kembali koordinat x / y untuk menjadi koordinat kutub di sekitar kota yang diminta untuk ditandai pada peta. Keakuratan kemudian diukur terhadap komponen radial (rata-rata, sd, dll.). "Sudut rata-rata" juga dapat digunakan untuk mengukur bias.
Bagi saya sendiri, saya masih mencari solusi yang bagus ketika tidak ada titik pusat yang ditentukan sebelumnya, dan tidak suka gagasan pra-lewati data untuk membuat centroid.
sumber