Saya mencari penjelasan / metodologi untuk melakukan Analisis Komponen Utama yang Tertimbang Secara Geografis (GWPCA). Saya senang menggunakan Python untuk setiap bagian dari ini dan saya membayangkan SPSS atau R digunakan untuk menjalankan PCA pada variabel-variabel geografis tertimbang.
Dataset saya terdiri dari sekitar 30 variabel independen yang diukur di seluruh ~ 550 trus sensus (vektor geometri).
Saya tahu ini adalah pertanyaan yang dimuat. Tapi, saat saya mencari dan mencari, sepertinya tidak ada solusi di luar sana. Apa yang saya temui adalah persamaan matematika yang menjelaskan komposisi dasar GWPCA (dan GWR). Apa yang saya kejar lebih banyak diterapkan dalam arti, bahwa saya mencari langkah-langkah utama apa yang perlu saya selesaikan untuk mendapatkan dari data mentah ke hasil GWPCA.
Saya ingin memperluas pada bagian pertama dengan edit ini karena komentar yang diterima di bawah ini.
Untuk mengatasi Paul ...
Saya mendasarkan minat saya pada GWPCA dari makalah berikut:
Lloyd, CD, (2010). Menganalisa karakteristik populasi menggunakan analisis komponen utama yang berbobot geografis: Studi kasus Irlandia Utara pada tahun 2001. Komputer, Lingkungan dan Sistem Perkotaan, 34 (5), hal.389-399.
Bagi mereka yang tidak memiliki akses ke literatur, saya telah melampirkan tangkapan layar bagian-bagian tertentu yang menjelaskan matematika di bawah ini:
Dan untuk mengatasi ...
Tanpa merinci (kerahasiaan), kami berusaha mengurangi 30 variabel, yang kami yakini semua indikator yang sangat baik (meskipun secara global), ke sekumpulan komponen dengan nilai eigen lebih besar dari 1. Dengan menghitung komponen yang ditimbang secara geografis, kami berupaya untuk memahami varian lokal yang dijelaskan oleh komponen-komponen ini.
Saya pikir tujuan utama kami adalah untuk membuktikan konsep GWPCA, yaitu menunjukkan sifat eksplisit spasial dari data kami dan bahwa kami tidak dapat menganggap semua variabel independen sebagai penjelas pada skala global. Sebaliknya, skala lokal (lingkungan) yang akan diidentifikasi oleh masing-masing komponen akan membantu kita dalam memahami sifat multi-dimensi data kami (bagaimana variabel dapat digabungkan satu sama lain untuk menjelaskan lingkungan tertentu di wilayah studi kami).
Kami berharap dapat memetakan persentase varians yang diperhitungkan oleh masing-masing komponen (secara terpisah), untuk memahami tingkat lingkungan yang dijelaskan oleh komponen yang dimaksud (membantu kami dalam memahami spasial lokal dari komponen kami). Mungkin beberapa contoh pemetaan lain tetapi tidak ada yang terlintas dalam pikiran saat ini.
Selain itu:
Matematika di balik GWPCA melampaui apa yang saya pahami mengingat latar belakang saya dalam analisis geografis dan statistik sosial. Penerapan matematika adalah yang paling penting, yaitu, apa yang saya hubungkan ke variabel / formula ini.
sumber
Jawaban:
"PCA tertimbang secara geografis" sangat deskriptif: dalam
R
, program ini praktis menulis sendiri. (Perlu lebih banyak baris komentar daripada baris kode yang sebenarnya.)Mari kita mulai dengan bobot, karena ini adalah di mana perusahaan suku cadang PCA secara geografis tertimbang dari PCA itu sendiri. Istilah "geografis" berarti bobot tergantung pada jarak antara titik dasar dan lokasi data. Standar - tetapi tidak berarti hanya - pembobotan adalah fungsi Gaussian; yaitu, peluruhan eksponensial dengan jarak kuadrat. Pengguna perlu menentukan tingkat peluruhan atau - lebih intuitif - jarak karakteristik di mana jumlah peluruhan tetap terjadi.
PCA berlaku untuk matriks kovarians atau korelasi (yang berasal dari kovarians). Di sini, kemudian, adalah fungsi untuk menghitung kovarian tertimbang dengan cara yang stabil secara numerik.
Korelasi diturunkan dengan cara biasa, dengan menggunakan standar deviasi untuk unit pengukuran setiap variabel:
Sekarang kita bisa melakukan PCA:
(Sejauh ini, 10 baris net dari kode yang dapat dieksekusi. Hanya satu lagi yang akan diperlukan, di bawah ini, setelah kami menggambarkan kisi yang akan digunakan untuk melakukan analisis.)
Mari kita ilustrasikan dengan beberapa data sampel acak yang sebanding dengan yang dijelaskan dalam pertanyaan: 30 variabel di 550 lokasi.
Perhitungan berbobot geografis sering dilakukan pada set lokasi yang dipilih, seperti sepanjang transek atau pada titik-titik grid biasa. Mari kita gunakan kisi kasar untuk mendapatkan perspektif tentang hasilnya; nanti - setelah kami yakin semuanya bekerja dan kami mendapatkan apa yang kami inginkan - kami dapat memperbaiki grid.
Ada pertanyaan tentang informasi apa yang ingin kami simpan dari setiap PCA. Biasanya, PCA untuk n variabel return daftar diurutkan n nilai eigen dan - dalam berbagai bentuk - daftar yang sesuai dari n vektor, masing-masing dengan panjang n . Itu n * (n +1) angka untuk dipetakan! Dengan mengambil beberapa isyarat dari pertanyaan, mari kita petakan nilai eigen. Ini diekstraksi dari output
gw.pca
melalui$sdev
atribut, yang merupakan daftar nilai eigen dengan nilai menurun.Ini selesai dalam waktu kurang dari 5 detik pada mesin ini. Perhatikan bahwa jarak karakteristik (atau "bandwidth") 1 digunakan dalam panggilan ke
gw.pca
.Sisanya adalah masalah pembersihan. Mari kita petakan hasilnya menggunakan
raster
perpustakaan. (Sebagai gantinya, orang mungkin menuliskan hasilnya dalam format kisi untuk pasca-pemrosesan dengan GIS.)Ini adalah empat dari 30 peta pertama, yang menunjukkan empat nilai eigen terbesar. (Jangan terlalu senang dengan ukurannya, yang melebihi 1 di setiap lokasi. Ingat bahwa data ini dihasilkan secara acak dan oleh karena itu, jika mereka memiliki struktur korelasi sama sekali - yang nilai eigen besar dalam peta ini tampaknya mengindikasikan - itu semata-mata karena kebetulan dan tidak mencerminkan sesuatu yang "nyata" yang menjelaskan proses pembuatan data.)
Ini instruktif untuk mengubah bandwidth. Jika terlalu kecil, perangkat lunak akan mengeluh tentang singularitas. (Saya tidak membuat kesalahan saat memeriksa implementasi kosong ini.) Tetapi menguranginya dari 1 menjadi 1/4 (dan menggunakan data yang sama seperti sebelumnya) memang memberikan hasil yang menarik:
Perhatikan kecenderungan titik-titik di sekitar batas untuk memberikan nilai eigen utama yang luar biasa besar (ditunjukkan di lokasi hijau peta kiri atas), sementara semua nilai eigen lainnya ditekan untuk mengkompensasi (ditunjukkan oleh warna merah muda terang di tiga peta lainnya) . Fenomena ini, dan banyak seluk-beluk lainnya dari PCA dan pembobotan geografis, perlu dipahami sebelum orang dapat berharap untuk menafsirkan versi PCA yang ditimbang secara geografis. Dan kemudian ada 30 * 30 = 900 vektor eigen lainnya (atau "memuat") untuk dipertimbangkan ....
sumber
nrow=n.cols
, tetapi itulah yang berhasil (berdasarkan bagaimanapoints
dibuat) dan saya tidak ingin kembali dan mengganti nama semuanya.Memperbarui:
Sekarang ada paket R khusus yang tersedia di CRAN - GWmodel yang mencakup PCA yang ditimbang secara geografis di antara alat lainnya. Dari situs web penulis :
Lebih detail dalam pratinjau makalah yang akan datang .
Saya ragu apakah ada solusi 'siap pakai, tancapkan data Anda'. Tetapi saya sangat berharap untuk terbukti salah karena saya ingin menguji metode ini dengan beberapa data saya.Beberapa opsi untuk dipertimbangkan:
Marí-Dell'Olmo dan rekannya menggunakan analisis faktor Bayesian untuk menghitung indeks kekurangan untuk area kecil di Spanyol:
Dalam artikel tersebut mereka memberikan spesifikasi untuk model WinBUGS yang dijalankan dari R yang mungkin bisa Anda mulai.
adegenet R package mengimplementasikan
spca
fungsi. Meskipun berfokus pada data genetik, itu mungkin juga dekat dengan solusi untuk masalah Anda. Baik dengan menggunakan paket / fungsi ini secara langsung, atau memodifikasi kodenya. Ada sketsa tentang masalah yang seharusnya membuat Anda bangun dan berjalan.Para peneliti di Cluster Penelitian Strategis tampaknya secara aktif bekerja pada topik tersebut. Terutama Paul Harris dan Chris Brunsdon (di sini presentasi yang saya temukan ). Publikasi terbaru Paul dan Urska ( teks lengkap ) juga dapat menjadi sumber yang berguna:
Mengapa Anda tidak mencoba menghubungi mereka dan bertanya tentang solusi apa yang sebenarnya mereka gunakan? Mereka mungkin bersedia membagikan pekerjaan mereka atau mengarahkan Anda ke arah yang baik.
makalah menyebutkan menggunakan sistem GeoDAS GIS . Mungkin menjadi petunjuk lain.
sumber
spca
sketsa.) Itu adalah penggunaan yang kuat dan sah untuk GWPCA. (Namun, metode ini bisa lebih ditingkatkan, dan lebih bersemangat analisis data spasial eksplorasi, jika PCA digantikan oleh prosedur yang lebih kuat.)GWmodel
sepertinya sebuah paket yang layak untuk didapatkan.