Saya memiliki dataset peristiwa yang terjadi selama periode waktu yang sama. Setiap acara memiliki tipe (ada beberapa tipe berbeda, kurang dari sepuluh) dan lokasi, direpresentasikan sebagai titik 2D.
Saya ingin memeriksa apakah ada korelasi antara jenis peristiwa, atau antara jenis dan lokasi. Misalnya, mungkin peristiwa tipe A biasanya tidak terjadi di mana peristiwa tipe B lakukan. Atau mungkin di beberapa daerah, ada sebagian besar peristiwa tipe C.
Alat apa yang bisa saya gunakan untuk melakukan ini? Menjadi pemula dalam analisis statistik, ide pertama saya adalah menggunakan beberapa jenis PCA (Principal Component Analysis) pada dataset ini untuk melihat apakah setiap jenis peristiwa memiliki komponennya sendiri, atau mungkin beberapa berbagi hal yang sama (yaitu berkorelasi)?
Saya harus menyebutkan bahwa dataset saya adalah dari urutan 500'000 poin , sehingga membuat hal-hal sedikit lebih sulit untuk menangani.
EDIT: Seperti disebutkan dalam jawaban di bawah dan komentar, cara untuk pergi adalah memodelkan ini sebagai proses titik yang ditandai, dan kemudian menggunakan R untuk melakukan semua pekerjaan berat, seperti yang dijelaskan secara rinci dalam laporan lokakarya ini: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Jawaban:
Jenis data yang Anda gambarkan secara usus disebut "pola titik bertanda", R memiliki tampilan tugas untuk statistik spasial yang menawarkan banyak paket bagus untuk jenis analisis ini, yang sebagian besar di antaranya mungkin tidak dapat menangani jenis data besar yang Anda punya :(
Ini adalah dua jenis pertanyaan yang agak berbeda: Pertanyaan kedua tentang penentuan posisi satu jenis merek / peristiwa. Buzzwords untuk dicari dalam konteks ini adalah estimasi intensitas fe atau estimasi fungsi-K jika Anda tertarik untuk menemukan pola pengelompokan (peristiwa sejenis cenderung untuk dikelompokkan bersama) atau tolakan (peristiwa sejenis cenderung dipisahkan). Yang pertama bertanya tentang korelasi antara berbagai jenis peristiwa. Ini biasanya diukur dengan fungsi korelasi tanda.
Saya pikir subsampling data untuk mendapatkan ukuran data yang lebih mudah ditelusuri berbahaya (lihat komentar untuk balasan @ hamner), tapi mungkin Anda bisa mengagregasi data Anda: Membagi jendela pengamatan menjadi sejumlah sel yang dapat dikelola dengan ukuran yang sama dan mentabulasi acara tersebut dalam hitungan setiap. Setiap sel kemudian dijelaskan oleh lokasi pusatnya dan 10-vektor jumlah untuk 10 jenis tanda Anda. Anda harus dapat menggunakan metode standar untuk proses titik yang ditandai pada proses agregat ini.
sumber
Pertama, ukuran dataset. Saya sarankan mengambil sampel kecil yang dapat ditelusuri dari dataset (baik dengan secara acak memilih N titik data, atau dengan secara acak memilih beberapa persegi yang relatif kecil di bidang XY dan mengambil semua titik yang termasuk dalam bidang itu) dan kemudian mengasah teknik analisis Anda pada subset ini. Setelah Anda memiliki gagasan tentang bentuk analisis yang berfungsi, Anda dapat menerapkannya pada bagian yang lebih besar dari dataset.
PCA terutama digunakan sebagai teknik reduksi dimensi; dataset Anda hanya tiga dimensi (salah satunya adalah kategori), jadi saya ragu itu akan berlaku di sini.
Cobalah bekerja dengan Matlab atau R untuk memvisualisasikan titik-titik yang Anda analisis dalam bidang XY (atau kerapatan relatifnya jika bekerja dengan seluruh kumpulan data), baik untuk jenis individu dan semua jenis yang digabungkan, dan melihat pola apa yang muncul secara visual. Itu dapat membantu memandu analisis yang lebih ketat.
sumber