Apa yang menyebabkan pola berbentuk huruf U dalam korelasiogram spasial?

12

Saya telah memperhatikan dalam karya saya sendiri pola ini ketika memeriksa korelasiogram spasial pada jarak yang bervariasi pola berbentuk U dalam korelasi muncul. Lebih khusus lagi, korelasi positif yang kuat pada tempat sampah kecil berkurang dengan jarak, kemudian mencapai lubang pada titik tertentu kemudian naik kembali.

Berikut adalah contoh dari blog Conservation Ecology, Macroecology playground (3) - Autokorelasi spasial .

Moran's I Correlogram

Korelasi otomatis positif yang lebih kuat pada jarak yang lebih besar secara teoritis melanggar hukum geografi pertama Tobler, jadi saya perkirakan itu disebabkan oleh beberapa pola lain dalam data. Saya berharap mereka mencapai nol pada jarak tertentu dan kemudian melayang di sekitar 0 pada jarak lebih jauh (yang biasanya terjadi dalam plot deret waktu dengan persyaratan AR atau MA rendah).

Jika Anda melakukan pencarian gambar google, Anda dapat menemukan beberapa contoh lain dari jenis pola yang sama ini (lihat di sini untuk satu contoh lainnya). Seorang pengguna di situs GIS telah memposting dua contoh di mana pola muncul untuk Moran's I tetapi tidak muncul untuk Geary's C ( 1 , 2 ). Dalam hubungannya dengan karya saya sendiri, pola-pola ini dapat diamati untuk data asli, tetapi ketika mencocokkan model dengan istilah spasial dan memeriksa residu mereka tampaknya tidak bertahan.

Saya belum menemukan contoh dalam analisis deret waktu yang menampilkan plot ACF yang serupa, jadi saya tidak yakin pola apa yang menyebabkan data asli ini. Scortchi dalam komentar ini berspekulasi bahwa pola sinusoidal mungkin disebabkan oleh pola musiman yang dihilangkan dalam deret waktu tersebut. Bisakah jenis tren spasial yang sama menyebabkan pola ini dalam korelasi spasial? Atau itu beberapa artefak lain dari cara korelasi dihitung?


Ini adalah contoh dari pekerjaan saya. Sampel cukup besar, dan garis abu-abu terang adalah seperangkat 19 permutasi dari data asli untuk menghasilkan distribusi referensi (sehingga orang dapat melihat varians dalam garis merah diharapkan cukup kecil). Jadi, meskipun plotnya tidak sedramatik seperti yang pertama ditunjukkan, pit dan kemudian naik pada jarak lebih jauh tampak cukup mudah di plot. (Perhatikan juga lubang di tambang saya tidak negatif, seperti contoh lainnya, jika hal itu secara material membuat contoh berbeda saya tidak tahu.)

masukkan deskripsi gambar di sini

Berikut ini adalah peta kerapatan kernel dari data untuk melihat distribusi spasial yang menghasilkan korelasi tersebut.

Kejahatan KDE di DC

Andy W
sumber
1
I
Saya dapat melihat dari mana datangnya dari @ user777, meskipun saya mungkin mengharapkan argumen serupa yang akan menyebabkan plot untuk tren ke 0 karena asimtotik lingkungan spasial semakin besar. Artinya, ketika lingkungan tumbuh lebih besar, rata-rata lingkungan akan menjadi lebih dekat dengan rata-rata besar. Di kepala saya (saya pikir) itu akan membuat korelasinya menuju nol, tidak satu pun, tetapi saya bisa dengan mudah salah. (Argumen yang sama juga berlaku untuk deret waktu, dan saya tidak ingat melihat plot ACF untuk deret waktu yang terlihat seperti ini.)
Andy W
Kde DC mengingatkan saya pada papan catur. Seperti apa plot autokorelasi spasial dari papan catur? Saya bertanya-tanya apakah itu tidak akan tinggi pada jarak dekat (kotak yang sama), rendah sedikit lebih jauh (kotak yang berbeda), & kemudian lebih tinggi lagi. Saya tidak cukup tahu tentang topik ini untuk mengetahui apakah itu jawabannya.
gung - Reinstate Monica
@ung, itu tergantung pada bagaimana Anda merumuskan jarak dalam kasus itu. Untuk kotak-kotak dengan kedekatan ratu itu akan identik dengan istilah auto-regresif negatif, yang untuk serangkaian waktu akan menyebabkan plot ACF menjadi alternatif antara korelasi positif dan negatif (dan gelombang akan berkurang, kemungkinan sangat cepat dalam kasus itu ). Meskipun lebih rumit dalam analisis spasial daripada dalam deret waktu. Saya tidak akan mencirikan pola ini sebagai kotak-kotak.
Andy W
2
Kumpulan data Anda benar-benar tidak memiliki cakupan spasial yang cukup sehingga Anda harus memperkirakan autokovarian pada jarak 5 kilometer (seluruh area tidak lebih dari 10 kilometer dan Anda umumnya ingin memiliki kumpulan data yang mencakup berkali-kali panjang korelasi.) Tampak bagi saya bahwa Anda pada dasarnya memiliki tiga "gumpalan" kejahatan tinggi dalam bentuk segitiga, dengan gumpalan sekitar 5K terpisah satu sama lain dan celah di antaranya. Dengan demikian, tidak mengejutkan melihat korelasi positif pada panjang itu.
Brian Borchers

Jawaban:

4

Penjelasan

Koregogram berbentuk u adalah kejadian umum ketika perhitungannya dilakukan di seluruh wilayah di mana sebuah fenomena terjadi. Ini muncul terutama dengan fenomena seperti bulu di alam, seperti kontaminasi lokal di tanah atau air tanah atau, seperti dalam kasus ini, di mana fenomena tersebut dikaitkan dengan kepadatan populasi yang umumnya berkurang menuju batas wilayah studi (Distrik Columbia, yang memiliki inti perkotaan dengan kepadatan tinggi dan dikelilingi oleh pinggiran kota dengan kepadatan lebih rendah).

Ingat bahwa korelogram merangkum tingkat kesamaan dari semua data sesuai dengan jumlah pemisahan spasialnya. Nilai yang lebih tinggi lebih mirip, nilai yang lebih rendah kurang sama. Satu- satunya pasangan titik di mana pemisahan spasial terbesar dapat dicapai adalah mereka yang terletak di sisi yang berlawanan secara berlawanan dari peta. Korelasi karenanya membandingkan nilai-nilai di sepanjang batas satu sama lain. Ketika nilai data cenderung secara keseluruhan menurun menuju batas, korelogram hanya dapat membandingkan nilai kecil dengan nilai kecil. Kemungkinan akan menemukan mereka sangat mirip.

Untuk fenomena seperti bulu atau fenomena unimodal spasial lainnya, oleh karena itu, kita dapat mengantisipasi sebelum mengumpulkan data bahwa korelogram kemungkinan akan berkurang hingga sekitar setengah diameter wilayah tercapai dan kemudian akan mulai meningkat.

Efek sekunder: variabilitas estimasi

Efek sekunder adalah bahwa ada lebih banyak pasangan titik-data yang tersedia untuk memperkirakan korelasi dengan jarak pendek daripada jarak yang lebih jauh. Pada jarak menengah sampai jauh, "populasi lag" dari pasangan titik tersebut berkurang. Ini meningkatkan variabilitas korelasiogram empiris. Terkadang variabilitas ini sendiri akan menciptakan pola yang tidak biasa dalam korelogram. Jelas sebuah dataset besar digunakan dalam angka teratas ("Moran's I"), yang mengurangi efek ini, tetapi meskipun demikian peningkatan variabilitas terbukti dalam amplitudo yang lebih besar dari fluktuasi lokal dalam plot pada jarak di atas 3500 atau lebih: persis setengah dari jarak maksimum.

Karenanya, aturan praktis yang lama dalam statistik spasial adalah untuk menghindari penghitungan korelogram pada jarak yang lebih besar dari setengah diameter area studi dan untuk menghindari menggunakan jarak yang sangat jauh untuk prediksi (seperti interpolasi).

Mengapa periodisitas spasial bukanlah jawaban yang lengkap

Literatur tentang statistik spasial memang mencatat bahwa pola periodik spasial dapat menyebabkan rebound pada korelasi pada jarak yang lebih besar. Ahli geologi pertambangan menyebut ini "efek lubang." Kelas variograms yang menggabungkan istilah sinusoidal ada untuk memodelkannya. Namun, semua variograms ini menerapkan pembusukan yang kuat dengan jarak juga, dan karenanya tidak dapat menjelaskan pengembalian ekstrim ke korelasi penuh yang ditunjukkan pada gambar pertama. Selain itu, dalam dua dimensi atau lebih, tidak mungkin bagi suatu fenomena untuk menjadi isotropik (di mana arah korelasinya semuanya sama) dan periodik. Oleh karena itu periodisitas data saja tidak akan menjelaskan apa yang ditampilkan.

Apa yang bisa dilakukan

Cara yang benar untuk melanjutkan dalam keadaan seperti itu adalah untuk menerima bahwa fenomena itu tidak diam dan untuk mengadopsi model yang menggambarkannya dalam beberapa bentuk deterministik yang mendasarinya - "drift" atau "trend" - dengan fluktuasi tambahan di sekitar drift tersebut. yang mungkin memiliki autokorelasi spasial (dan temporal). Pendekatan lain untuk data seperti jumlah kejahatan adalah untuk mempelajari variabel terkait yang berbeda, seperti kejahatan per unit populasi.

whuber
sumber
Terima kasih, apakah menurut Anda beberapa bobot tambahan untuk efek tepi diperlukan? (Itu mungkin berlebihan untuk analisis eksplorasi residual model.) Disertasi saya sebenarnya menggunakan pergeseran spasial non-linear dan istilah tren - kejahatan per unit populasi mengganggu karena beberapa alasan. Populasi residensial sebenarnya bukan garis dasar minat - lebih seperti jalan-jalan di sekitar populasi. Wilayah dalam kota ini dapat membengkak banyak (20 ~ 30 kali) selama jam-jam tertentu dan lebih terkait dengan lembaga non-perumahan (pekerjaan dan hiburan).
Andy W
Anda memiliki banyak pilihan, Andy, karena tidak ada cara untuk mengidentifikasi model yang unik: Anda harus memutuskan di mana Anda ingin berhenti memodelkan nilai-nilai dalam hal pergeseran spasial dan mulai memodelkan mereka (atau lebih tepatnya, residu mereka) dengan model spasial stokastik. Corelogram berbentuk-u dapat dipahami sebagai indikasi kuat bahwa beberapa mekanisme pemodelan drift diperlukan. Normalisasi oleh populasi yang relevan (bahkan jika itu hanya dapat diperkirakan secara kasar) adalah salah satu metode yang tersedia untuk Anda. Termasuk ukuran populasi (atau penggunaan, dll.) Sebagai kovariat adalah hal lain.
whuber
Saya hampir saja menggunakan serangkaian luas aktivitas penggunaan lahan (bar, pompa bensin, rumah sakit, sekolah, dll.) Ditambah dengan ketentuan spasial. Berikut adalah peta prediksi yang membuat kovariat lainnya konstan . Masih ada sedikit sisa auto-korelasi. Saya skeptis diberikan kesalahan berapa banyak pemetaan dasymetric populasi ke tempat-tempat kecil akan membantu, tapi saya membayangkan saya akan melakukan analisis itu pada akhirnya.
Andy W
Itu adalah pendekatan berprinsip: biarkan teori memandu pengembangan komponen drift model dan kemudian mengevaluasi residu untuk memutuskan apakah akan sepadan dengan kesulitan memodelkan autokorelasi spasial mereka. Dalam banyak kasus sebagian besar hubungan spasial yang jelas dijelaskan dengan cukup oleh istilah drift dan jarang membutuhkan mesin geostatistik lengkap. Salah satu aspek menarik dari masalah Anda adalah bahwa metrik yang mendasari (jarak spasial) bisa dibilang seharusnya waktu tempuh atau jarak tempuh di sepanjang jaringan jalan daripada jarak Euclidean.
whuber