Membandingkan dua pola titik spasial?

41

Jika saya memiliki dua distribusi pola titik dalam wilayah geografis yang sama, bagaimana saya akan melakukan perbandingan secara visual dan kuantitatif?

Juga asumsikan saya memiliki banyak titik di wilayah yang lebih kecil, jadi hanya menampilkan pin map tidak informatif.

Andy W
sumber

Jawaban:

32

Seperti biasa, itu tergantung pada tujuan Anda dan sifat data. Untuk data yang sepenuhnya dipetakan , alat yang ampuh adalah fungsi L Ripley, kerabat dekat fungsi K Ripley . Banyak perangkat lunak dapat menghitung ini. ArcGIS mungkin melakukannya sekarang; Saya belum memeriksa. CrimeStat melakukannya. Begitu GeoDa dan R . Contoh penggunaannya, dengan peta terkait, muncul di

Sinton, DS dan W. Huber. Memetakan polka dan warisan etnisnya di Amerika Serikat. Jurnal Geografi Vol. 106: 41-47. 2007

Berikut adalah tangkapan layar CrimeStat versi "fungsi L" dari Ripley's K:

Cuplikan layar fungsi K Ripley

Kurva biru mendokumentasikan distribusi titik yang sangat tidak acak, karena tidak terletak di antara pita merah dan hijau di sekitar nol, yang merupakan tempat jejak biru untuk fungsi-L dari distribusi acak berada.

Untuk data sampel, banyak tergantung pada sifat pengambilan sampel. Sumber yang bagus untuk ini, dapat diakses oleh mereka yang memiliki latar belakang matematika dan statistik yang terbatas (tetapi tidak sepenuhnya absen), adalah buku teks Steven Thompson tentang Sampling .

Pada umumnya, sebagian besar perbandingan statistik dapat diilustrasikan secara grafis dan semua perbandingan grafis sesuai dengan atau menyarankan mitra statistik. Karenanya setiap ide yang Anda dapatkan dari literatur statistik kemungkinan akan menyarankan cara yang berguna untuk memetakan atau membandingkan secara grafis kedua set data.

whuber
sumber
Terima kasih untuk makalah Dixon, ini sepertinya merupakan sumber yang bagus. Saya belum pernah menemukan perbedaan antara interaksi spasial dan pelabelan acak untuk pola multi-variate. Saya perlu membaca.
Andy W
+1 Sumber daya yang baik. Jadi kebenaran nelayan kuno bahwa "90% ikan ada di 10% danau" benar-benar tergantung pada metode pengambilan sampel?
Kirk Kuykendall
@Kirk Bagi kebanyakan dari kita, 0% dari ikan berada di 10% dari danau yang sebenarnya bisa kita jangkau!
Whuber
14

Catatan: berikut ini diedit mengikuti komentar whuber

Anda mungkin ingin mengadopsi pendekatan Monte Carlo. Ini contoh sederhana. Asumsikan Anda ingin menentukan apakah distribusi peristiwa kriminal A secara statistik mirip dengan B, Anda dapat membandingkan statistik antara peristiwa A dan B dengan distribusi empiris dari ukuran tersebut untuk 'penanda' yang dipindahkan secara acak.

Misalnya, diberi distribusi A (putih) dan B (biru),

masukkan deskripsi gambar di sini

Anda secara acak menetapkan ulang label A dan B untuk SEMUA poin dalam dataset gabungan. Ini adalah contoh simulasi tunggal:

masukkan deskripsi gambar di sini

Anda mengulangi ini berkali-kali (katakan 999 kali), dan untuk setiap simulasi, Anda menghitung statistik (rata-rata statistik tetangga terdekat dalam contoh ini) menggunakan titik berlabel acak. Cuplikan kode yang mengikuti berada di R (membutuhkan penggunaan perpustakaan spatstat ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

Anda kemudian dapat membandingkan hasilnya secara grafis (garis vertikal merah adalah statistik asli),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

masukkan deskripsi gambar di sini

atau secara numerik.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Perhatikan bahwa rata-rata statistik tetangga terdekat mungkin bukan ukuran statistik terbaik untuk masalah Anda. Statistik seperti fungsi-K bisa lebih terbuka (lihat jawaban whuber).

Di atas dapat dengan mudah diimplementasikan di dalam ArcGIS menggunakan Modelbuilder. Dalam satu lingkaran, secara acak menugaskan kembali nilai atribut untuk setiap titik kemudian menghitung statistik spasial. Anda harus bisa menghitung hasilnya dalam sebuah tabel.

MannyG
sumber
2
Anda mungkin ingin mempertimbangkan tes permutasi alih-alih pendekatan kepadatan kernel, Manny. Hipotesis nol adalah bahwa label biru dan putih tidak tergantung pada poin. Untuk mengujinya, mengadopsi statistik yang sesuai untuk lingkungan (seperti jarak terdekat rata-rata antara titik-titik biru dan putih, bepergian di sepanjang jalan). Secara acak menetapkan ulang warna ke semua titik, menjaga jumlah biru dan putih yang sama, dan menghitung kembali statistik. Ulangi berkali-kali untuk memperkirakan distribusi nol statistik. Rujuk nilai aktual statistik ke distribusi ini untuk mendapatkan nilai-p.
whuber
Terimakasih Tidak pernah terpikir oleh saya untuk melihatnya sebagai masalah titik yang ditandai. Saya memperbarui jawaban saya untuk mencerminkan pendekatan ini. Namun, tidak jelas bagi saya mengapa pendekatan asli saya (yaitu menggunakan grid kepadatan kernel untuk menghasilkan poin acak) menghasilkan hasil yang berbeda. Bahkan, itu (solusi asli saya) tidak dengan setia mencerminkan fakta bahwa A dan B berasal dari proses yang sama. Apakah ini karena pendekatan kepadatan kernel tidak memanfaatkan detail yang diberikan kepada kami oleh data titik?
MannyG
1
Densitas kernel memiliki elemen kecil kesewenang-wenangan terhadapnya (terkait dengan pilihan setengah lebar). Ini bisa membuat perbedaan. Ini juga agak dihapus dari apa yang sebenarnya terjadi: ada proses yang mendasari menghasilkan poin; Anda melihat satu realisasi dari proses itu; Anda membuat KDE dari itu ; maka Anda menggambar realisasi baru dari KDE itu. Akibatnya Anda hanya mereproduksi konfigurasi baru seperti konfigurasi tunggal yang Anda amati. Dalam pendekatan permutasi, hipotesis nol bahwa kedua distribusi adalah sama membenarkan menandai tanda: ini langsung dan kuat.
Whuber
1
Terima kasih atas masukannya, saya akan memberikan komentar yang lebih lengkap ketika saya memiliki lebih banyak waktu. Akan lebih baik untuk mencatat kode R ini (apakah Anda bahkan menyebutkan itu adalah kode R dalam jawabannya?) Dan ia menggunakan fungsi-fungsi dalam spatstatpaket.
Andy W
2
+1, Salah satu hal yang menyenangkan tentang menggunakan tes permutasi seperti ini adalah 1) ketika dibatasi pada kekhususan geocoder (alamat atau kisaran alamat untuk data kejahatan dalam sebagian besar keadaan) mengevaluasi pola titik dibandingkan dengan menyelesaikan keacakan spasial tidak membuat terlalu banyak akal. 2) Tes permutasi semacam itu menghindari masalah dengan efek tepi. Tentu saja ini terlalu generalisasi, tetapi saya pikir kerangka kerja seperti itu dapat digeneralisasi untuk mengevaluasi berbagai jenis statistik pola titik.
Andy W
4

Anda mungkin ingin memeriksa CrimeStat.

Menurut situs web:

CrimeStat adalah program statistik spasial untuk analisis lokasi kejadian kejahatan, yang dikembangkan oleh Ned Levine & Associates, yang didanai oleh hibah dari National Institute of Justice (hibah 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007, dan 2005-IJ-CX-K037). Program ini berbasis Windows dan antarmuka dengan sebagian besar program GIS desktop. Tujuannya adalah untuk menyediakan alat statistik tambahan untuk membantu lembaga penegak hukum dan peneliti peradilan pidana dalam upaya pemetaan kejahatan mereka. CrimeStat digunakan oleh banyak departemen kepolisian di seluruh dunia dan juga oleh peradilan pidana dan peneliti lainnya. Versi terbaru adalah 3.3 (CrimeStat III).

RK
sumber
2

Pendekatan yang sederhana dan cepat dapat membuat peta panas dan peta perbedaan dari dua peta panas tersebut. Terkait: Bagaimana membangun peta panas yang efektif?

underdark
sumber
3
Sayangnya, membedakan dua peta yang diinterpolasi atau dihaluskan cenderung memberi tahu Anda lebih banyak tentang metode interpolasi atau penghalusan daripada tentang data :-(. Jika Anda harus melakukan interpolasi, berhati-hatilah untuk melakukannya dengan baik (misalnya, krige setelah melakukan EDA dan variografi) dan cukup interpolasi salah satu dataset. Anda dapat membandingkan data aktual dalam satu set dengan nilai yang diinterpolasi dari yang lain, sehingga menghilangkan setengah kesalahan membandingkan dua peta yang diinterpolasi. Perhatikan bahwa interpolasi tidak valid untuk banyak jenis data dan perataan tidak sesuai untuk jenis data lain
whuber
Saya setuju bahwa metode ini tidak cocok untuk berbagai jenis input data. Saya pikir itu bisa memberikan kesan pertama yang baik ketika menganalisis pola kerapatan titik.
underdark
Saya tidak ragu Anda benar ketika interpolasi dilakukan oleh seorang ahli dan ditafsirkan secara bijaksana.
Whuber
2

Andaikata Anda telah mengulas literatur tentang Korelasi-Otomatis Spasial. ArcGIS memiliki berbagai alat titik dan klik untuk melakukan ini untuk Anda melalui skrip Toolbox: Alat Statistik Spasial -> Analisis Pola .

Anda dapat bekerja mundur - Temukan alat dan tinjau algoritma yang diterapkan untuk melihat apakah itu cocok dengan skenario Anda. Saya menggunakan Moran's Index beberapa waktu lalu ketika menyelidiki hubungan spasial dalam terjadinya mineral tanah.

Erick
sumber
2

Anda dapat menjalankan analisis korelasi bivariat di banyak perangkat lunak statistik untuk menentukan tingkat korelasi statistik antara dua variabel dan tingkat signifikansi. Anda kemudian dapat membuat cadangan temuan statistik Anda dengan memetakan satu variabel menggunakan skema chloropleth, dan variabel lainnya menggunakan simbol bertingkat. Setelah overlay, Anda kemudian dapat menentukan area mana yang menampilkan hubungan spasial tinggi / tinggi, tinggi / rendah dan rendah / rendah. Presentasi ini memiliki beberapa contoh bagus.

Anda juga dapat mencoba beberapa perangkat lunak geovisualisasi yang unik. Saya sangat suka CommonGIS untuk jenis visualisasi ini. Anda dapat memilih lingkungan (contoh Anda) dan semua statistik dan plot berguna akan tersedia untuk Anda segera. Itu membuat analisis peta multi variabel cukup mudah.

Michael Markieta
sumber
2
Ini adalah ide bagus, tapi saya perhatikan contoh yang Anda rujuk berhasil karena atributnya sesuai dengan set fitur yang umum. Dalam pertanyaan ini, fitur memiliki lokasi yang berbeda dan lokasi tersebut adalah variabel acak (misalnya, bukan unit administratif tetap). Ini adalah komplikasi penting, karena sekarang kita perlu menemukan beberapa prosedur yang bermakna untuk menghubungkan nilai-nilai di satu lokasi dengan yang di lokasi lain dan kita perlu mengatasi karakter acak dari lokasi itu sendiri.
whuber
Terima kasih atas klarifikasi itu! Saya salah membaca OP dan berasumsi itu untuk dua variabel independen yang berbagi lokasi / tingkat geografis (seperti dengan DA / CT dll)
Michael Markieta
1

Analisis kuadrat akan bagus untuk ini. Ini adalah pendekatan GIS yang dapat menyoroti dan membandingkan pola spasial dari berbagai lapisan data titik.

Garis besar analisis kuadrat yang mengukur hubungan spasial antara beberapa lapisan data titik dapat ditemukan di http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf .


sumber
1
(1) Tautan ini adalah 404 (itulah sebabnya kami meminta jawaban untuk menyertakan ringkasan semua tautan). (2) Seberapa tepatnya analisis kuadrat membandingkan distribusi dua titik ?
Whuber
(1) Tautan mungkin berfungsi sekarang. (2) Analisis kuadrat membagi area tertentu menjadi unit berukuran sama, berukuran tepat. Kemudian menggunakan analisis probabilitas untuk menentukan frekuensi aktual poin dalam setiap kuadrat versus nilai yang diharapkan untuk setiap frekuensi. Menggunakan perintah kepadatan titik dan statistik zona sebagai alat tabel dalam ekstensi analis spasial untuk ArcMap, kita dapat menyoroti area yang dekat dengan lokasi titik kepadatan tinggi selain meringkas kelas fitur titik ini untuk analisis regresi.
Anda telah menggambarkan prosedur untuk analisis distribusi titik univariat . Ini dapat diadaptasi (dengan menilai korelasi kuadrat) untuk membandingkan tingkat kemunculan bersama dari dua proses, tetapi menderita dari dua keterbatasan yang signifikan. Pertama, ia tidak mempelajari hubungan antara proses sebagai fungsi jarak; kedua, dengan Binning poin di kuadrat kehilangan kekuasaan. Hilangnya kekuatan berarti Anda mungkin gagal mengidentifikasi pola-pola penting atau jika tidak berarti Anda perlu mengumpulkan lebih banyak data untuk mencapai tujuan penyelidikan.
whuber
Saya telah menggunakan "prosedur" ini untuk analisis multivarian dari distribusi titik. Meskipun tidak berarti hilangnya daya, ia juga menyediakan cara untuk secara visual dan kuantitatif membandingkan distribusi pola dua titik pada tingkat agregasi yang unik (solusi untuk pertanyaan awal di sini).
Saya harap apa yang Anda baca di situs kami menginspirasi Anda untuk mempertimbangkan pendekatan alternatif di masa depan: mereka akan memperluas kemampuan Anda untuk memanfaatkan data Anda dan sumber daya penelitian yang terbatas.
whuber