Alternatif yang kuat untuk Moran's I

19

Moran's I , ukuran autokorelasi spasial, bukan statistik yang sangat kuat (bisa sensitif terhadap distribusi atribut data spasial yang miring).

Apa sajakah teknik yang lebih kuat untuk mengukur autokorelasi spasial? Saya sangat tertarik dengan solusi yang sudah tersedia / dapat diterapkan dalam bahasa scripting seperti R. Jika solusi berlaku untuk keadaan / distribusi data yang unik, harap sebutkan yang ada di jawaban Anda.


EDIT : Saya memperluas pertanyaan dengan beberapa contoh (sebagai tanggapan atas komentar / jawaban atas pertanyaan awal)

Disarankan bahwa teknik permutasi (di mana distribusi sampling I Moran dihasilkan menggunakan prosedur Monte Carlo) menawarkan solusi yang kuat. Pemahaman saya adalah bahwa tes tersebut menghilangkan kebutuhan untuk membuat asumsi tentang distribusi I Moran (mengingat bahwa statistik uji dapat dipengaruhi oleh struktur spasial dari dataset) tetapi, saya gagal untuk melihat bagaimana teknik permutasi mengoreksi non-normal data atribut terdistribusi . Saya menawarkan dua contoh: satu yang menunjukkan pengaruh data miring pada statistik I Moran lokal, yang lain pada I global Moran - bahkan di bawah tes permutasi.

Saya akan menggunakan Zhang et al. 's (2008) menganalisis sebagai contoh pertama. Dalam makalah mereka, mereka menunjukkan pengaruh distribusi data atribut pada Moran lokal saya menggunakan tes permutasi (9999 simulasi). Saya telah mereproduksi hasil hotspot penulis untuk konsentrasi timbal (Pb) (pada tingkat kepercayaan 5%) menggunakan data asli (panel kiri) dan transformasi log dari data yang sama (panel kanan) di GeoDa. Boxplot dari konsentrasi Pb asli dan yang diubah log juga disajikan. Di sini, jumlah hot spot signifikan hampir dua kali lipat ketika data ditransformasikan; contoh ini menunjukkan bahwa statistik lokal adalah sensitif terhadap distribusi data atribut - bahkan ketika menggunakan teknik Monte Carlo!

masukkan deskripsi gambar di sini

Contoh kedua (data simulasi) menunjukkan pengaruh data miring dapat memiliki pada Moran's I global , bahkan ketika menggunakan tes permutasi. Contoh, dalam R , berikut:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Perhatikan perbedaan dalam nilai-P. Data miring menunjukkan bahwa tidak ada pengelompokan pada tingkat signifikansi 5% (p = 0,167) sedangkan data yang terdistribusi normal menunjukkan bahwa ada (p = 0,013).


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Penggunaan I dan GIS Moran lokal untuk mengidentifikasi titik-titik polusi Pb di tanah perkotaan di Galway, Irlandia, Ilmu Lingkungan Total, Volume 398, Masalah 1-3, 15 Juli 2008 , Halaman 212-221

MannyG
sumber
1
Apakah Anda memiliki referensi untuk sensitivitas terhadap distribusi yang miring)? Apakah Anda tertarik pada tes Global distribusi spasial non-acak atau mengidentifikasi fitur abnormal lokal? Apa distribusi hasil yang diinginkan (variabel jumlah positif?)
Andy W
1
AndyW: 1) Satu referensi ke sensitivitas tes adalah Fortin dan Dale 'Analisis Spasial, Panduan untuk para ahli ekologi' (hlm. 125), 2) Saya tertarik pada solusi untuk tes Global dan Lokal, 3) Saya tidak punya spesifik distribusi data dalam pikiran.
MannyG
1
Andy, karena Moran's I didasarkan pada varians tertimbang dan estimasi kovarian, ia akan memiliki sensitivitas yang sama terhadap pencilan seperti yang diperkirakan, yang (seperti diketahui) sangat besar. Wawasan ini juga menunjukkan jalan ke banyak solusi yang mungkin untuk masalah Manny: gantikan versi estimasi dispersi dan asosiasi favorit Anda yang kuat untuk membentuk korelasi berbobot yang kuat dan Anda mulai aktif.
whuber
1
Sepertinya Anda mungkin menggabungkan beberapa konsep di sini, @Andy. Pertama, Manny ingin mengukur autokorelasi; dia belum tentu melakukan tes hipotesis. Kedua, pertanyaan dengan pengujian hipotesis paling baik dibingkai dalam hal kekuatan daripada ketahanan. Tetapi (ketiga) konsep-konsep itu memang memiliki hubungan: statistik uji yang kuat akan cenderung mempertahankan kekuatannya di bawah berbagai pelanggaran asumsi distribusi (seperti kontaminasi oleh pencilan) sedangkan statistik uji non-kuat dapat kehilangan sebagian besar atau semua kekuatannya dalam situasi itu.
whuber
1
@ FC84, saya meninjau kembali masalah ini tahun lalu dan menulis solusi yang diusulkan. Tetapi perlu pemeriksaan. Saya berencana untuk menawarkan versi yang dikurangi dari penulisan itu sebagai jawaban di sini di beberapa titik. Merasa bebas untuk mendapatkan apa yang Anda dapat dari apa yang saya miliki. Tapi gunakan dengan hati-hati!
MannyG

Jawaban:

2

(Ini terlalu sulit pada saat ini untuk berubah menjadi komentar)

Ini berkaitan dengan tes lokal dan global (bukan ukuran, sampel independen dari korelasi otomatis). Aku dapat menghargai bahwa tertentu Moran saya ukuran adalah estimasi bias dari korelasi (menafsirkan dalam hal yang sama seperti koefisien korelasi Pearson), saya masih tidak melihat bagaimana tes hipotesis permutasi sensitif terhadap distribusi asli dari variabel ( baik dalam hal kesalahan tipe 1 atau tipe 2).

Sedikit adaptasi kode yang Anda berikan dalam komentar (bobot spasial colqueentidak ada);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Ketika seseorang melakukan tes permutasi (dalam hal ini, saya suka menganggapnya sebagai ruang jumbling) tes hipotesis auto-korelasi spasial global tidak boleh terpengaruh oleh distribusi variabel, karena distribusi uji simulasi pada dasarnya akan berubah dengan distribusi variabel asli. Kemungkinan seseorang dapat membuat simulasi yang lebih menarik untuk mendemonstrasikan ini, tetapi seperti yang dapat Anda lihat dalam contoh ini, statistik uji yang diamati jauh di luar distribusi yang dihasilkan untuk yang asli PLUMBdan yang dicatat PLUMB(yang jauh lebih dekat dengan distribusi normal) . Meskipun Anda dapat melihat distribusi tes PLUMB yang dicatat di bawah nol bergeser lebih dekat ke simetri sekitar 0.

masukkan deskripsi gambar di sini

Saya akan menyarankan ini sebagai alternatif, mengubah distribusi menjadi sekitar normal. Saya juga akan menyarankan mencari sumber daya pada penyaringan spasial (dan juga statistik Getis-Ord lokal dan global), meskipun saya tidak yakin ini akan membantu dengan skala pengukuran bebas juga (tapi mungkin mungkin bermanfaat untuk tes hipotesis) . Saya akan memposting kembali nanti dengan potensi lebih banyak literatur yang menarik.

Andy W
sumber
Terima kasih Andy untuk akun terperinci Anda. Jika saya memahami Anda dengan benar, Anda menyiratkan bahwa dalam tes permutasi statistik uji (Moran's I) tidak akan berubah relatif terhadap distribusi MC yang dihasilkan, tetapi ini tidak setuju dengan pengamatan saya. Sebagai contoh, jika kita menggunakan variabel HOVAL dalam dataset columbus yang sama, nilai p-test MC Moran I yang dihasilkan berubah dari 0,029 (dengan data miring asli) menjadi 0,004 (dengan data transformasi log) yang mengindikasikan kesenjangan pelebaran antara MC distribusi dan statistik uji - tidak signifikan jika kita telah menetapkan ambang batas pada 1%.
MannyG
1
Ya Anda menafsirkan poin saya dengan benar. Tentu saja mungkin untuk menemukan proses tertentu yang hasilnya berbeda. Pertanyaannya menjadi apakah tingkat kesalahan sama atau tidak dalam berbagai keadaan.
Andy W