Saya ingin melakukan analisis multivariat tingkat individu pada tingkat kecil agregasi geografis (distrik pengumpulan sensus Australia). Jelas, sensus tidak tersedia pada tingkat agregasi kecil ini untuk alasan privasi jadi saya sedang menyelidiki alternatif lain. Hampir semua variabel yang menarik bersifat kategorikal. Saya memiliki dua set data yang saya miliki:
Sampel sensus 1% tersedia pada tingkat agregasi spasial yang jauh lebih besar (area dengan populasi ~ 190.000 dan segregasi demografi yang luas spasial).
Tabel frekuensi untuk variabel yang saya minati pada level area kecil (500 area kecil, berarti pop = 385, sd = 319, median = 355).
Bagaimana saya bisa menggunakan dua set data ini untuk mensimulasikan distribusi populasi pada tingkat area kecil yang sedekat mungkin dengan populasi aktual area kecil?
Saya menghargai mungkin ada metode rutin untuk melakukan ini; jika demikian sebuah penunjuk ke buku teks atau artikel jurnal yang relevan akan sangat dihargai.
Jawaban:
Pemetaan Dasymetric terutama difokuskan pada interpolasi estimasi populasi ke area yang lebih kecil daripada yang tersedia dalam data yang disebarluaskan saat ini (lihat pertanyaan ini untuk sejumlah referensi berguna tentang topik) Seringkali ini dilakukan dengan hanya mengidentifikasi daerah (berdasarkan karakteristik tanah) di mana jelas tidak ada populasi, dan kemudian memperkirakan kembali kepadatan populasi (menghilangkan daerah tersebut). Contohnya adalah jika ada badan air di kota, yang lain mungkin jika Anda mengidentifikasi bidang tanah industri yang tidak dapat memiliki populasi perumahan. Pendekatan yang lebih baru untuk pemetaan dasymetric menggabungkan data tambahan lainnya dalam kerangka probabilistik untuk mengalokasikan perkiraan populasi (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).
Sekarang mudah untuk melihat kaitannya dengan pertanyaan Anda. Anda ingin perkiraan populasi di wilayah kecil. Tapi, juga harus jelas bagaimana itu bisa gagal dari tujuan Anda. Anda tidak hanya menginginkan data populasi, tetapi juga karakteristik populasi tersebut. Salah satu istilah yang digunakan untuk menggambarkan situasi ini adalah perubahan masalah dukungan (Cressie, 1996; Gotway & Young, 2002). Meminjam dari literatur geostatistik di mana seseorang mencoba membuat prediksi karakteristik tertentu pada area yang luas dari sampel titik, karya terbaru telah berupaya untuk menginterpolasi data areal ke zona target yang berbeda. Sebagian besar karya Pierre Goovaerts berfokus pada metode kriging area-ke-titik seperti itu, sebuah artikel baru-baru ini di jurnal Geographical Analysis memiliki beberapa contoh metode yang diterapkan materi pelajaran yang berbeda (Haining et al., 2010), dan salah satu aplikasi favorit saya adalah dalam artikel ini (Young et al., 2009).
Apa yang saya kutip seharusnya tidak dipandang sebagai obat mujarab untuk masalah ini. Pada akhirnya banyak masalah yang sama dengan inferensi ekologis dan bias agregasi berlaku untuk tujuan interpolasi areal juga. Mungkin juga banyak hubungan antara data tingkat mikro hilang begitu saja dalam proses agregasi, dan teknik interpolasi semacam itu tidak akan dapat memulihkannya. Juga proses melalui mana data diinterpolasi secara empiris (melalui estimasi variograms dari data level agregat) seringkali cukup penuh dengan langkah-langkah ad-hoc yang seharusnya membuat proses dipertanyakan (Goovaerts, 2008).
Sayangnya, saya memposting ini dalam jawaban yang terpisah karena literatur inferensi ekologis dan literatur tentang pemetaan dasymetric dan area-to-point kriging adalah non-tumpang tindih. Meskipun literatur tentang kesimpulan ekologis memiliki banyak implikasi untuk teknik ini. Tidak hanya teknik interpolasi tunduk pada bias agregasi, tetapi teknik dasymetric cerdas (yang menggunakan data agregat untuk menyesuaikan model untuk memprediksi area yang lebih kecil) cenderung dicurigai bias bias. Pengetahuan tentang situasi di mana bias agregasi terjadi harus mencerahkan situasi di mana interpolasi areal dan pemetaan dasimetri sebagian besar akan gagal (terutama dalam hal mengidentifikasi korelasi antara variabel yang berbeda pada tingkat terpilah).
Kutipan
sumber
Karya Gary King, khususnya bukunya "Solusi untuk Masalah Inferensi Ekologis" (dua bab pertama tersedia di sini ), akan menarik (serta perangkat lunak yang menyertainya yang ia gunakan untuk inferensi ekologis). King menunjukkan dalam bukunya bagaimana perkiraan model regresi menggunakan data agregat dapat ditingkatkan dengan memeriksa batas potensial pengelompokan tingkat yang lebih rendah berdasarkan pada data agregat yang tersedia. Fakta bahwa sebagian besar data Anda adalah pengelompokan kategorikal membuatnya dapat menerima teknik ini. (Meskipun jangan tertipu, itu bukan solusi yang mahakuasa seperti yang Anda harapkan diberi judul!) Lebih banyak karya saat ini ada, tetapi buku King adalah IMO tempat terbaik untuk memulai.
Kemungkinan lain adalah hanya untuk mewakili batas potensial dari data itu sendiri (dalam peta atau grafik). Jadi misalnya Anda mungkin memiliki distribusi jenis kelamin yang dilaporkan pada tingkat agregat (katakanlah 5.000 pria dan 5.000 wanita), dan Anda tahu tingkat agregat ini mencakup 2 unit area kecil populasi yang berbeda, 9.000 dan 1.000 individu. Anda kemudian dapat mewakili ini sebagai tabel kontingensi formulir;
Meskipun Anda tidak memiliki informasi dalam sel untuk agregasi level yang lebih rendah, dari total marginal kami dapat menyusun nilai potensial minimum atau maksimum untuk setiap sel. Jadi, dalam contoh ini
Men X Unit1
sel hanya dapat mengambil nilai di antara 4.000 dan 5.000 (Kapan saja distribusi marjinal lebih tidak merata, semakin kecil interval nilai yang mungkin diambil sel). Rupanya mendapatkan batas-batas tabel lebih sulit daripada yang saya perkirakan ( Dobra & Fienberg, 2000 ), tetapi tampaknya fungsi tersedia dieiPack
perpustakaan di R ( Lau et al., 2007, hlm. 43 ).Analisis multivariat dengan data tingkat agregat sulit, karena bias agregasi pasti terjadi dengan jenis data ini. (Singkatnya, saya hanya akan menggambarkan bias agregasi karena banyak proses menghasilkan data tingkat individu yang berbeda dapat menghasilkan asosiasi tingkat agregat) Serangkaian artikel di American Sociological Reviewpada tahun 1970-an adalah beberapa referensi favorit saya untuk topik (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) meskipun sumber kanonik pada topik tersebut mungkin (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Saya benar-benar berpikir bahwa mewakili batasan potensial yang dapat diambil oleh data berpotensi menimbulkan hasutan, meskipun Anda benar-benar dihalangi oleh keterbatasan data agregat untuk melakukan analisis multivariat. Namun itu tidak menghentikan siapa pun untuk melakukannya dalam ilmu sosial (baik atau buruk!)
Perhatikan, (seperti yang dikatakan Charlie dalam komentar) bahwa "solusi" King telah menerima banyak kritik (Anselin & Cho, 2002; Freedman et al., 1998). Meskipun kritik-kritik ini tidak bisa dikatakan tentang matematika metode King, lebih-lebih dalam hal situasi di mana metode King masih gagal untuk menjelaskan bias agregasi (dan saya setuju dengan Freedman dan Anselin dalam situasi di mana data untuk ilmu-ilmu sosial masih diduga jauh lebih umum daripada yang memenuhi asumsi King). Ini adalah sebagian alasan mengapa saya menyarankan hanya memeriksa batas-batas (tidak ada yang salah dengan itu), tetapi membuat kesimpulan tentang korelasi tingkat individu dari data tersebut membutuhkan lebih banyak lompatan keyakinan yang pada akhirnya tidak dapat dibenarkan dalam kebanyakan situasi.
Kutipan
sumber
Saya tidak yakin jawaban yang jelas ada dalam literatur untuk ini, mengingat bahwa pencarian Google pada dasarnya memberikan tiga referensi yang dapat digunakan pada estimasi area kecil multivariat. Pfeffermann (2002) membahas variabel respon diskrit di bagian 4 makalah, tetapi ini akan menjadi model univariat. Tentu saja, dengan metode Bayesian hierarkis ( Rao 2003, Bab 10 ), Anda dapat melakukan segala jenis keajaiban, tetapi jika pada akhirnya Anda menemukan diri Anda hanya mereplikasi prior Anda (karena Anda memiliki sedikit data), ini akan menjadi mengerikan hasil latihan simulasi Anda. Selain itu, Rao hanya memperlakukan variabel kontinu.
Saya kira tantangan terbesar adalah dekomposisi dari matriks kovarian menjadi komponen antara dan di dalam area kecil. Dengan sampel 1%, Anda hanya akan memiliki 3 pengamatan dari SAE Anda, jadi mungkin sulit untuk mendapatkan estimasi yang stabil dari komponen dalam.
Jika saya berada di posisi Anda, saya akan mencoba ekstensi multivariat dari model Pfeffermann dengan efek acak multivariat dari area kecil. Anda memang mungkin berakhir dengan model Bayesian hirarkis untuk ini, jika tidak ada karya berbasis desain.
UPDATE (untuk menanggapi komentar Andy atas jawaban ini): metode bootstrap untuk estimasi area kecil ( Lahiri 2003 ) secara khusus menciptakan populasi yang masuk akal dari penelitian ini. Sementara fokus dari latihan bootstrap adalah untuk memperkirakan varians dari estimasi area kecil, prosedurnya harus menarik dan relevan dengan masalah yang diposting.
sumber