Analog 2D deviasi standar?

19

Pertimbangkan eksperimen berikut: sekelompok orang diberikan daftar kota, dan diminta untuk menandai lokasi yang sesuai pada peta dunia (jika tidak berlabel). Untuk setiap kota, Anda akan mendapatkan sebaran poin yang secara kasar berpusat di kota masing-masing. Beberapa kota, katakanlah Istanbul, akan menunjukkan penyebaran kurang dari yang lain, kata Moskow.

Mari kita asumsikan bahwa untuk kota tertentu, kita mendapatkan satu set sampel 2D , mewakili posisi kota (misalnya dalam sistem koordinat lokal) pada peta yang ditugaskan oleh tes subjek . Saya ingin menyatakan jumlah "dispersi" dari titik-titik dalam set ini sebagai angka tunggal dalam satuan yang sesuai (km).( x , y ) i{(xi,yi)}(x,y)i

Untuk masalah 1D, saya akan memilih standar deviasi, tetapi apakah ada analog 2D yang dapat dipilih untuk situasi seperti dijelaskan di atas?

koletenbert
sumber
melakukan penaklukan?
RockScience
Saya menambahkan tag spasial yang diberikan contohnya adalah spasial eksplisit. Jika Anda (atau orang lain) merasa tidak dibutuhkan, silakan memutar kembali penambahan itu.
Andy W

Jawaban:

12

Satu hal yang dapat Anda gunakan adalah ukuran jarak dari titik pusat, , seperti rata-rata sampel dari titik-titik ( ¯ x , ¯ y ) , atau mungkin centroid dari titik yang diamati. Maka ukuran dispersi akan menjadi jarak rata-rata dari titik pusat:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

dimana . Ada banyak pilihan potensial untuk pengukuran jarak tetapi norma L 2 (misalnya jarak euclidean) mungkin merupakan pilihan yang masuk akal:zi={xi,yi}L.2

||zic||=(xic1)2+(yic2)2

Ada banyak pilihan potensial lainnya. Lihat http://en.wikipedia.org/wiki/Norm_%28mathematics%29

Makro
sumber
Walaupun jarak akan nol, ini memang pilihan yang aneh karena tidak setuju dalam kasus degenerasi dengan standar deviasi biasa dalam satu dimensi. Jadi pertimbangkan sebagai gantinya. zic2
Alex R.
6

Referensi yang baik tentang metrik untuk distribusi spasial pola titik adalah manual CrimeStat (khususnya untuk pertanyaan ini, Bab 4 akan menarik). Mirip dengan metrik Makro yang disarankan, Standar Jarak Deviasi mirip dengan standar deviasi 2D (satu-satunya perbedaan adalah bahwa Anda akan membaginya dengan "n-2" bukan "n" dalam rumus pertama yang diberikan Makro).

Eksperimen contoh Anda sebenarnya mengingatkan saya sedikit tentang bagaimana studi mengevaluasi Geografis Pelanggar Profiling , dan karenanya metrik yang digunakan dalam karya-karya itu mungkin menarik. Khususnya istilah ketelitian dan akurasi digunakan sedikit dan akan relevan dengan penelitian. Tebakan bisa memiliki standar deviasi kecil (yaitu tepat) tetapi masih memiliki akurasi yang sangat rendah.

Andy W
sumber
1

Saya pikir Anda harus menggunakan 'Jarak Mahalanobis' daripada norma jarak Euclidean, karena memperhitungkan korelasi set data dan 'skala-invarian'. Ini tautannya:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Anda juga bisa menggunakan 'Kedalaman Setengah Ruang'. Ini sedikit lebih rumit tetapi memiliki banyak properti menarik. Setengah ruang Kedalaman (juga dikenal sebagai Kedalaman lokasi) dari titik tertentu relatif terhadap kumpulan data P adalah jumlah minimum titik P yang terletak pada setengah bidang tertutup yang ditentukan oleh garis melalui a. Inilah tautannya:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf

VitalStatistix
sumber
1
Saya mengerti menggunakan jarak Mahalanobis ketika Anda mencoba untuk mengetahui apakah titik-titik tertentu "milik" set, tetapi bukankah jarak Euclidean rata-rata dari centroid lebih erat terkait dengan konsep biasa varian / standar deviasi yang digunakan dalam suatu pengaturan univariat?
Makro
2
Apakah Anda keberatan merinci pernyataan "memperhitungkan korelasi data" dan "apakah skala invarian"? Apa hubungan kedua hal ini dengan pertanyaan yang ada?
Andy W
Perpanjangan standar deviasi biasa ke dimensi yang lebih tinggi tentu saja merupakan cara untuk menghitung jarak titik tertentu dari pusat data - tetapi di sini kita menormalkan setiap titik, yang membuatnya mudah untuk melakukan analisis kluster atau deteksi outlier. Juga, jarak Mahalanobis lebih adaptif untuk kasus-kasus di mana distribusi titik adalah non-bola. Untuk kasus-kasus simetris bola, itu sama dengan deviasi standar panjang biasa - di mana matriks kovarians dari titik data direduksi menjadi matriks identitas.
VitalStatistix
1

Saya benar-benar mengalami masalah yang sama baru-baru ini. Sepertinya Anda menginginkan cara untuk mengukur seberapa baik titik-titik tersebut tersebar berdasarkan area. Tentu saja, untuk pengukuran tertentu, Anda harus menyadari bahwa jika semua titik berada dalam garis lurus, jawabannya adalah nol, karena tidak ada variasi 2 dimensi.

Dari perhitungan yang saya lakukan, inilah yang saya dapatkan:

SxxSyy-Sxy²

Dalam hal ini, Sxx dan Syy adalah varian masing-masing x dan y, sedangkan Sxy agak seperti varian campuran x dan y.

Untuk menguraikan, anggap ada n elemen, dan xμ mewakili nilai rata-rata x dan yμ mewakili rata-rata y:

Sxx=1nsaya=1n(x-xμ)²
Syy=1nsaya=1n(y-yμ)²
Sxy=1nsaya=1n(x-xμ)(y-yμ)

Semoga ini bisa bekerja untuk Anda.

Juga, jika Anda ingin tahu bagaimana melakukannya dalam dimensi yang lebih tinggi, seperti mengukur penyebaran volume atau surteron bulk dalam 4 dimensi, Anda harus membentuk matriks seperti:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

Dan lanjutkan untuk banyak dimensi yang Anda butuhkan. Anda harus dapat mengetahui nilai S yang diberikan definisi yang diberikan di atas, tetapi untuk variabel yang berbeda.

Setelah matriks terbentuk, ambil determinan, temukan akar kuadratnya, dan Anda selesai.

Mesin Matematika
sumber
0

Untuk contoh khusus ini - di mana ada jawaban "benar" yang telah ditentukan sebelumnya - saya akan mengerjakan kembali koordinat x / y untuk menjadi koordinat kutub di sekitar kota yang diminta untuk ditandai pada peta. Keakuratan kemudian diukur terhadap komponen radial (rata-rata, sd, dll.). "Sudut rata-rata" juga dapat digunakan untuk mengukur bias.

Bagi saya sendiri, saya masih mencari solusi yang bagus ketika tidak ada titik pusat yang ditentukan sebelumnya, dan tidak suka gagasan pra-lewati data untuk membuat centroid.

dsz
sumber