Bagaimana menemukan hubungan antara berbagai jenis acara (ditentukan oleh lokasi 2D-nya)?

9

Saya memiliki dataset peristiwa yang terjadi selama periode waktu yang sama. Setiap acara memiliki tipe (ada beberapa tipe berbeda, kurang dari sepuluh) dan lokasi, direpresentasikan sebagai titik 2D.

Saya ingin memeriksa apakah ada korelasi antara jenis peristiwa, atau antara jenis dan lokasi. Misalnya, mungkin peristiwa tipe A biasanya tidak terjadi di mana peristiwa tipe B lakukan. Atau mungkin di beberapa daerah, ada sebagian besar peristiwa tipe C.

Alat apa yang bisa saya gunakan untuk melakukan ini? Menjadi pemula dalam analisis statistik, ide pertama saya adalah menggunakan beberapa jenis PCA (Principal Component Analysis) pada dataset ini untuk melihat apakah setiap jenis peristiwa memiliki komponennya sendiri, atau mungkin beberapa berbagi hal yang sama (yaitu berkorelasi)?

Saya harus menyebutkan bahwa dataset saya adalah dari urutan 500'000 poin , sehingga membuat hal-hal sedikit lebih sulit untuk menangani.(x,y,type)

EDIT: Seperti disebutkan dalam jawaban di bawah dan komentar, cara untuk pergi adalah memodelkan ini sebagai proses titik yang ditandai, dan kemudian menggunakan R untuk melakukan semua pekerjaan berat, seperti yang dijelaskan secara rinci dalam laporan lokakarya ini: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

Wookai
sumber
Apakah ini dataset raster, seperti gambar penginderaan (yang diproses) dari jarak jauh, atau apakah itu dataset tidak teratur?
whuber
Yah, saya pikir Anda akan menyebutnya tidak teratur: itu adalah rekaman kejahatan yang terjadi di Inggris selama bulan tertentu, tersedia di sini: police.uk/data .
Wookai
@Wookai 500.000.000 kejahatan di Inggris dalam satu bulan ?? Apakah anarki turun ke Kepulauan Inggris tidak dilaporkan oleh pers, hanya akhirnya terungkap dalam arsip kepolisian? :-) Saya bisa percaya tentang 1/100 jumlah itu - nyaris.
whuber
Wow, saya benar-benar minta maaf atas "kesalahan ketik" ini;)! Ini 1000 kali lebih sedikit sebenarnya, 500'000 kejahatan (termasuk "kejahatan kendaraan", yaitu tiket cepat, dll ...).
Wookai
1
Ya, R terlihat jalan yang harus dilalui! Saya menemukan laporan yang sangat lengkap dari sebuah lokakarya tentang modul spatstat R, yang sesuai dengan apa yang saya cari: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

Jawaban:

3

Jenis data yang Anda gambarkan secara usus disebut "pola titik bertanda", R memiliki tampilan tugas untuk statistik spasial yang menawarkan banyak paket bagus untuk jenis analisis ini, yang sebagian besar di antaranya mungkin tidak dapat menangani jenis data besar yang Anda punya :(

Misalnya, mungkin peristiwa tipe A biasanya tidak terjadi di mana peristiwa tipe B lakukan. Atau mungkin di beberapa daerah, ada sebagian besar peristiwa tipe C.

Ini adalah dua jenis pertanyaan yang agak berbeda: Pertanyaan kedua tentang penentuan posisi satu jenis merek / peristiwa. Buzzwords untuk dicari dalam konteks ini adalah estimasi intensitas fe atau estimasi fungsi-K jika Anda tertarik untuk menemukan pola pengelompokan (peristiwa sejenis cenderung untuk dikelompokkan bersama) atau tolakan (peristiwa sejenis cenderung dipisahkan). Yang pertama bertanya tentang korelasi antara berbagai jenis peristiwa. Ini biasanya diukur dengan fungsi korelasi tanda.

Saya pikir subsampling data untuk mendapatkan ukuran data yang lebih mudah ditelusuri berbahaya (lihat komentar untuk balasan @ hamner), tapi mungkin Anda bisa mengagregasi data Anda: Membagi jendela pengamatan menjadi sejumlah sel yang dapat dikelola dengan ukuran yang sama dan mentabulasi acara tersebut dalam hitungan setiap. Setiap sel kemudian dijelaskan oleh lokasi pusatnya dan 10-vektor jumlah untuk 10 jenis tanda Anda. Anda harus dapat menggunakan metode standar untuk proses titik yang ditandai pada proses agregat ini.

orang fabian
sumber
Saya akrab dengan proses titik yang ditandai dan beberapa alat teoritis terkait, saya harus memikirkan ini sebelumnya. Terima kasih banyak untuk kata kunci, apakah Anda memiliki beberapa petunjuk untuk ini? Terima kasih juga untuk ide agregasi, saya punya yang serupa, akan mencoba melakukan ini.
Wookai
2
Peter Diggle telah menulis "geostatistik berbasis model". Dia juga memiliki analisis data kejahatan Lancashire di halaman ini: lancs.ac.uk/staff/diggle/MADE yang mungkin memberi Anda beberapa ide bagus.
Fabian
1

Pertama, ukuran dataset. Saya sarankan mengambil sampel kecil yang dapat ditelusuri dari dataset (baik dengan secara acak memilih N titik data, atau dengan secara acak memilih beberapa persegi yang relatif kecil di bidang XY dan mengambil semua titik yang termasuk dalam bidang itu) dan kemudian mengasah teknik analisis Anda pada subset ini. Setelah Anda memiliki gagasan tentang bentuk analisis yang berfungsi, Anda dapat menerapkannya pada bagian yang lebih besar dari dataset.

PCA terutama digunakan sebagai teknik reduksi dimensi; dataset Anda hanya tiga dimensi (salah satunya adalah kategori), jadi saya ragu itu akan berlaku di sini.

Cobalah bekerja dengan Matlab atau R untuk memvisualisasikan titik-titik yang Anda analisis dalam bidang XY (atau kerapatan relatifnya jika bekerja dengan seluruh kumpulan data), baik untuk jenis individu dan semua jenis yang digabungkan, dan melihat pola apa yang muncul secara visual. Itu dapat membantu memandu analisis yang lebih ketat.

Benhamner
sumber
1
Apakah ini sesuai tergantung pada apa yang sudah Anda ketahui atau asumsikan tentang proses pembuatan data Anda. Subsampling data berdasarkan wilayah (mis. Ambil semua titik di beberapa jendela kecil yang telah ditentukan) dapat berbahaya jika tidak homogen (karena menggunakan jendela yang berbeda akan mengubah kesimpulan Anda). Pengambilan sampel data tanpa memposisikan untuk set pelatihan memiliki efek "menipis" proses yang diamati dan membatalkan kesimpulan yang mungkin ingin Anda gambarkan misalnya rentang korelasi antara tanda atau proses pengelompokan / tolakan.
Fabian
Ya, saya tahu PCA adalah untuk pengurangan dimensionalitas, inilah mengapa saya bingung bagaimana saya bisa menerapkannya pada dataset saya. Idenya adalah untuk melihat apakah setiap tipe acara memiliki "arah" sendiri, atau jika beberapa "berbagi arah yang sama". Tapi saya kira saya hanya berpikir untuk korelasi.
Wookai