Saya memiliki data untuk jaringan stasiun cuaca di seluruh Amerika Serikat. Ini memberi saya bingkai data yang berisi tanggal, lintang, bujur, dan beberapa nilai yang diukur. Asumsikan bahwa data dikumpulkan sekali sehari dan didorong oleh cuaca skala regional (tidak, kami tidak akan masuk ke dalam diskusi itu).
Saya ingin menunjukkan secara grafis bagaimana nilai-nilai yang diukur secara bersamaan berkorelasi lintas waktu dan ruang. Tujuan saya adalah untuk menunjukkan homogenitas regional (atau ketiadaan nilai) dari nilai yang sedang diselidiki.
Himpunan data
Untuk memulainya, saya mengambil sekelompok stasiun di wilayah Massachusetts dan Maine. Saya memilih situs berdasarkan garis lintang dan bujur dari file indeks yang tersedia di situs FTP NOAA.
Langsung Anda melihat satu masalah: ada banyak situs yang memiliki pengidentifikasi serupa atau sangat dekat. FWIW, saya mengidentifikasi mereka menggunakan kode USAF dan WBAN. Melihat lebih dalam ke metadata saya melihat bahwa mereka memiliki koordinat dan ketinggian yang berbeda, dan data berhenti di satu situs kemudian mulai dari yang lain. Jadi, karena saya tidak tahu yang lebih baik, saya harus memperlakukan mereka sebagai stasiun terpisah. Ini berarti data berisi pasangan stasiun yang sangat dekat satu sama lain.
Analisis awal
Saya mencoba mengelompokkan data berdasarkan bulan kalender dan kemudian menghitung regresi kuadrat terkecil biasa antara pasangan data yang berbeda. Saya kemudian memplot korelasi antara semua pasangan sebagai garis yang menghubungkan stasiun (di bawah). Warna garis menunjukkan nilai R2 dari kecocokan OLS. Gambar tersebut kemudian menunjukkan bagaimana 30+ titik data dari Januari, Februari, dll. Berkorelasi antara stasiun yang berbeda di bidang yang diminati.
Saya telah menulis kode yang mendasarinya sehingga rata-rata harian hanya dihitung jika ada poin data setiap periode 6 jam, sehingga data harus dapat dibandingkan di seluruh situs.
Masalah
Sayangnya, ada terlalu banyak data yang masuk akal pada satu plot. Itu tidak bisa diperbaiki dengan mengurangi ukuran garis.
Jaringan tampaknya terlalu rumit, jadi saya pikir saya perlu mencari cara untuk mengurangi kompleksitas, atau menerapkan semacam kernel spasial.
Saya juga tidak yakin apa metrik yang paling tepat untuk menunjukkan korelasi, tetapi untuk audiens yang dimaksud (non-teknis), koefisien korelasi dari OLS mungkin hanya yang paling sederhana untuk dijelaskan. Saya mungkin perlu menyajikan beberapa informasi lain seperti kesalahan gradien atau standar juga.
Pertanyaan
Saya belajar cara saya ke bidang ini dan R pada saat yang sama, dan akan sangat menghargai saran tentang:
- Apa nama yang lebih formal untuk apa yang saya coba lakukan? Adakah beberapa istilah yang membantu yang memungkinkan saya menemukan lebih banyak lektur? Pencarian saya kosong untuk apa yang harus menjadi aplikasi umum.
- Apakah ada metode yang lebih tepat untuk menunjukkan korelasi antara beberapa set data yang dipisahkan dalam ruang?
- ... khususnya, metode yang mudah untuk menunjukkan hasil dari secara visual?
- Apakah ini diimplementasikan dalam R?
- Apakah ada dari pendekatan ini yang mengarah pada otomatisasi?
sumber
Jawaban:
Saya pikir ada beberapa opsi untuk menampilkan tipe data ini:
Opsi pertama adalah melakukan "Analisis Fungsi Orthogonal Empiris" (EOF) (juga disebut sebagai "Analisis Komponen Utama" (PCA) dalam lingkaran non-iklim). Untuk kasus Anda, ini harus dilakukan pada matriks korelasi lokasi data Anda. Misalnya, matriks data Anda
dat
akan menjadi lokasi spasial Anda di dimensi kolom, dan parameter yang diukur di baris; Jadi, matriks data Anda akan terdiri dari deret waktu untuk setiap lokasi. Theprcomp()
fungsi akan memungkinkan Anda untuk mendapatkan komponen utama, atau mode dominan korelasi, yang berkaitan dengan bidang ini:Opsi kedua adalah membuat peta yang menunjukkan korelasi relatif terhadap lokasi tertentu yang diminati:
Sunting: contoh tambahan
Meskipun contoh berikut tidak menggunakan data gappy, Anda bisa menerapkan analisis yang sama ke bidang data setelah interpolasi dengan DINEOF ( http://menugget.blogspot.de/2012/10/dineof-data-interpolating-empirical.html ) . Contoh di bawah ini menggunakan subset data tekanan permukaan laut anomali bulanan dari kumpulan data berikut ( http://www.esrl.noaa.gov/psd/gcos_wgsp/Gridded/data.hadslp2.html ):
Petakan mode EOF terkemuka
Buat peta korelasi
sumber
Saya tidak melihat dengan jelas di balik garis tetapi bagi saya tampaknya ada terlalu banyak titik data.
Karena Anda ingin menunjukkan homogenitas regional dan bukan stasiun, saya sarankan Anda terlebih dahulu untuk mengelompokkannya secara spasial. Misalnya, overlay oleh "jala" dan menghitung nilai rata-rata yang diukur di setiap sel (setiap saat). Jika Anda menempatkan nilai rata-rata ini di pusat sel dengan cara ini Anda meraster data (atau Anda dapat menghitung juga berarti garis lintang dan bujur di setiap sel jika Anda tidak ingin overlay garis). Atau rata-rata di dalam unit administrasi, apa pun. Kemudian untuk "stasiun" rata-rata baru ini Anda dapat menghitung korelasi dan plot peta dengan jumlah garis yang lebih kecil.
Ini juga dapat menghapus garis korelasi tunggal acak tinggi yang melewati semua area.
sumber