Analisis korelasi silang antara titik-proses

15

Saya ingin saran tentang metode analisis yang saya gunakan, untuk mengetahui apakah itu baik secara statistik.

Saya telah mengukur dua titik proses dan T 2 = t 2 1 , t 2 2 , . . . , t 2 m dan saya ingin menentukan apakah peristiwa di T 1 entah bagaimana berkorelasi dengan peristiwa di T 2 .T1=t11,t21,...,tn1T2=t12,t22,...,tm2T1T2

Salah satu metode yang telah saya temukan dalam literatur adalah bahwa membangun histogram lintas-korelasi: untuk setiap kami menemukan penundaan untuk semua peristiwa T 2 yang jatuh dalam jendela waktu tertentu (sebelum dan sesudah t 1 n ), dan kemudian kita membuat histogram dari semua penundaan ini.tn1T2tn1

Jika dua proses tidak berkorelasi saya harapkan histogram datar, seperti kemungkinan memiliki sebuah acara di setelah (atau sebelum) sebuah acara di T 1 adalah sama sekali penundaan. Di sisi lain jika ada puncak dalam histogram, ini menunjukkan bahwa proses dua titik entah bagaimana saling mempengaruhi (atau, setidaknya, memiliki beberapa input yang sama).T2T1

Sekarang, ini bagus dan bagus, tetapi bagaimana saya menentukan apakah histogram memang memiliki puncak (saya harus mengatakan bahwa untuk set data tertentu saya jelas datar, tetapi tetap menyenangkan jika memiliki cara statistik untuk mengkonfirmasikan itu)?

Jadi, di sini apa yang telah saya lakukan: Saya sudah mengulangi proses menghasilkan histogram untuk beberapa (1000) kali menjaga seperti itu dan menggunakan "dikocok" versi T 2 . Untuk mengocok T 2 saya menghitung interval antara semua peristiwa, mengocoknya dan menjumlahkannya untuk menyusun kembali proses titik baru. Di RI cukup lakukan ini dengan:T1T2T2

times2.swp <- cumsum(sample(diff(times2)))

T2T1

T2T1

Saya kemudian akan mengambil nilai 95% ini untuk semua penundaan waktu dan menggunakannya sebagai "batas kepercayaan" (mungkin ini bukan istilah yang benar) sehingga apa pun yang melampaui batas ini dalam histogram asli dapat dianggap sebagai "benar" puncak".

Pertanyaan 1 : apakah metode ini benar secara statistik? Jika tidak, bagaimana Anda mengatasi masalah ini?

Pertanyaan 2 : Hal lain yang ingin saya lihat adalah apakah ada jenis korelasi "yang lebih panjang" dari data saya. Misalnya mungkin ada perubahan serupa dalam laju peristiwa dalam dua proses titik (perhatikan bahwa mereka mungkin memiliki tingkat yang sangat berbeda), tapi saya tidak yakin bagaimana cara melakukannya. Saya berpikir untuk membuat "amplop" dari setiap titik proses menggunakan semacam kernel smoothing dan kemudian melakukan analisis korelasi silang dari dua amplop. Bisakah Anda menyarankan jenis analisis lain yang mungkin?

Terima kasih dan maaf atas pertanyaan yang sangat panjang ini.

nico
sumber

Jawaban:

11

Metode standar untuk menganalisis masalah ini dalam dua dimensi atau lebih adalah fungsi (lintas) K Ripley , tetapi tidak ada alasan untuk tidak menggunakannya dalam satu dimensi juga. (Pencarian Google melakukan pekerjaan yang baik untuk menggali referensi.) Pada dasarnya, ini plot CDF dari semua jarak antara titik dalam dua realisasi daripada perkiraan histogram ke PDF dari jarak tersebut. (Varian, fungsi L, memplot perbedaan antara K dan distribusi nol untuk dua proses yang tidak berkorelasi seragam.) Ini dengan rapi menghindari sebagian besar masalah yang Anda hadapi dengan kebutuhan untuk memilih tempat sampah, untuk melicinkan, dll. Pita kepercayaan untuk K biasanya dibuat melalui simulasi. Ini mudah dilakukan di R. Banyak paket statistik spasial untuk R dapat digunakan secara langsung atau siap disesuaikan dengan kasus 1D ini. Roger Bivandhalaman tinjauan umum pada CRAN mencantumkan paket-paket ini: lihat bagian "Analisis Pola Titik".

whuber
sumber
Menarik ... Saya agak sibuk saat ini, tetapi saya pasti akan melihatnya!
nico