Model untuk estimasi kepadatan populasi

14

Database (populasi, area, bentuk) dapat digunakan untuk memetakan kepadatan populasi dengan menetapkan nilai konstan populasi / area untuk setiap bentuk (yang merupakan poligon seperti blok Sensus, traktat, county, state, apa pun). Namun, populasi biasanya tidak terdistribusi secara seragam dalam poligonnya. Pemetaan Dasymetric adalah proses menyempurnakan estimasi kepadatan ini dengan menggunakan data tambahan. Ini adalah masalah penting dalam ilmu sosial seperti yang ditunjukkan oleh ulasan baru-baru ini .

Jadi, anggaplah bahwa kita telah menyediakan peta tambahan tutupan lahan (atau faktor diskrit lainnya). Dalam kasus yang paling sederhana, kita dapat menggunakan area yang jelas tidak bisa dihuni seperti waterbodies untuk menggambarkan di mana populasi tidak dan, dengan demikian, menugaskan semua populasi ke area yang tersisa. Lebih umum, masing-masing Sensus satuan j diukir ke dalam k bagian memiliki daerah permukaan xji , i=1,2,,k . Dataset kami karenanya ditambahkan ke daftar tupel

(yj,xj1,xj2,,xjk)

di mana adalah penduduk (diasumsikan diukur tanpa kesalahan) di unit j dan - meskipun hal ini tidak sepenuhnya kasus - kita bisa mengasumsikan setiap x j i juga persis diukur. Dalam hal ini, tujuannya adalah untuk partisi masing-masing y j menjadi penjumlahanyjjxjiyj

yj=zj1+zj2++zjk

di mana setiap dan z j i memperkirakan populasi dalam unit j yang berada di kelas tutupan lahan i . Estimasi harus tidak bias. Partisi ini memurnikan peta kepadatan populasi dengan menetapkan kepadatan z j i / x j i ke persimpangan poligon Sensus ke- j dan kelas tutupan lahan ke- i . zji0zjijizji/xjijthith

Masalah ini berbeda dari pengaturan regresi standar dalam cara yang menonjol:

  1. Partisi setiap harus tepat. yj
  2. Komponen setiap partisi harus non-negatif.
  3. Tidak ada kesalahan dalam data apa pun: semua populasi menghitung dan semua area x j i benar. yjxji

Ada banyak pendekatan untuk solusi, seperti metode " pemetaan dasymetric cerdas ", tetapi semua yang saya baca memiliki elemen ad hoc dan potensi yang jelas untuk bias. Saya mencari jawaban yang menyarankan metode statistik yang kreatif dan dapat ditelusuri secara komputasional. Aplikasi langsung menyangkut koleksi c. - 10 6 Unit sensus rata-rata masing-masing 40 orang (walaupun sebagian besar memiliki 0 orang) dan sekitar selusin kelas tutupan lahan.105106

whuber
sumber
Masalah pemformatan sekarang telah diperbaiki. Itu adalah bug.
Rob Hyndman
@Rob Terima kasih, dan terima kasih kepada semua orang yang melihat ini: Saya melihat komentar Anda sebelum dihapus dan berterima kasih atas upaya Anda.
whuber
1
Yang ini juga: P. A Zandbergen dan D. A Ignizio, “Perbandingan Teknik Pemetaan Dasymetric untuk Estimasi Populasi Area Kecil,” Kartografi dan Ilmu Informasi Geografis 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/... Yang sepertinya memanggil untuk blending.
fgregg
1
Makalah ini mungkin berguna: Hwahwan Kim dan Xiaobai Yao, "interpolasi Pycnophylactic ditinjau kembali: integrasi dengan metode pemetaan dasymetric," International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
fgregg
1
Anda tahu, pemetaan dasymetric pada akhirnya sebagai masalah inferensi ekologis. Karya terbaru K. Imai mungkin bisa membantu: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg

Jawaban:

4

Anda mungkin ingin memeriksa karya Mitchel Langford pada pemetaan dasymetric.

Dia membangun raster yang mewakili distribusi populasi Wales dan beberapa pendekatan metodologisnya mungkin berguna di sini.

Update: Anda mungkin juga kita lihat karya Jeremy Mennis (terutama ini dua artikel).

Radek
sumber
2
Terima kasih. Pekerjaan itu menyediakan pointer ke web penelitian terbaru tentang pemetaan dasymetric.
whuber
2

Pertanyaan menarik. Berikut adalah langkah tentatif untuk mendekati ini dari sudut statistik. Misalkan kita menemukan cara untuk menetapkan jumlah populasi untuk setiap area . Nyatakan hubungan ini sebagai berikut:xji

zji=f(xji,β)

Jelas, bentuk fungsional apa pun yang kita berikan pada Akan menjadi pendekatan terbaik untuk hubungan nyata dan dengan demikian kebutuhan untuk memasukkan kesalahan ke dalam persamaan di atas. Dengan demikian, di atas menjadi:f(.)

zji=f(xji,β)+ϵji

dimana,

ϵjiN(0,σ2)

Asumsi kesalahan distribusi pada istilah kesalahan adalah untuk tujuan ilustrasi. Jika perlu kami dapat mengubahnya sesuai kebutuhan.

However, we need an exact decomposition of yji. Thus, we need to impose a constraint on the error terms and the function f(.) as below:

iϵji=0

if(xji,β)=yj

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

where,

e is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to yj and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed yj exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of σ2.

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

zji=f(xji,β)+ϵji

where,

ϵjiN(0,σ2)

Denote the stacked vector of zji by zj and the stacked deterministic terms of f(xji,β) by fj. Thus, we have:

zjN(fj,σ2I)I(zje=yj)

where,

e is a vector of ones of appropriate dimension.

The constraint on zj ensures an exact decomposition.


sumber
2
@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.
whuber