Pas distribusi ke data spasial

10

Cross memposting pertanyaan saya dari mathoverflow untuk menemukan beberapa bantuan khusus statistik.

Saya sedang mempelajari proses fisik menghasilkan data yang diproyeksikan dengan baik ke dalam dua dimensi dengan nilai-nilai non-negatif. Setiap proses memiliki trek (diproyeksikan) titik - y - lihat gambar di bawah ini.xy

Jejak sampel berwarna biru, jenis trek yang bermasalah digambar tangan dengan warna hijau, dan wilayah yang menjadi perhatian digambar dengan warna merah: trek dan wilayah yang menjadi perhatian

Setiap lagu adalah hasil dari percobaan independen. Dua puluh juta percobaan telah dilakukan selama beberapa tahun, tetapi dari hanya dua ribu yang menunjukkan fitur yang kami plot sebagai trek. Kami hanya peduli dengan eksperimen yang menghasilkan trek, sehingga kumpulan data kami adalah (kurang lebih) dua ribu trek.

1104

Bagaimana kita bisa menghitung kemungkinan trek sewenang-wenang memasuki wilayah yang menjadi perhatian?

Tidak mungkin melakukan eksperimen dengan cukup cepat untuk melihat seberapa sering trek dihasilkan yang memasuki wilayah yang menjadi perhatian, jadi kita perlu memperkirakan dari data yang tersedia.

xy200

Kami telah memasang jarak minimum dari setiap trek ke wilayah yang menjadi perhatian, tetapi kami tidak yakin ini menghasilkan hasil yang dapat dibenarkan.

1) Apakah ada cara yang diketahui untuk menyesuaikan distribusi dengan tipe data ini untuk ekstrapolasi?

-atau-

2) Apakah ada cara yang jelas untuk menggunakan data ini untuk membuat model untuk menghasilkan trek? Misalnya, gunakan analisis komponen utama pada trek sebagai titik dalam ruang yang besar, lalu paskan distribusi (Pearson?) Ke trek yang diproyeksikan ke komponen tersebut.

Jeff Snider
sumber
1
Saya tidak boleh memberikan informasi lebih lanjut tentang proses tertentu, tetapi saya akan memperbarui pertanyaan untuk berbicara tentang bagaimana data dikumpulkan.
Jeff Snider
1
Saya telah memperbarui bahasa untuk mencoba dan menjadi lebih konkret. Bayangkan kita melempar kerikil ke jendela lantai atas yang terbuka, dan kita hanya peduli bagaimana kerikil yang melewati jendela memantul di lantai dalam. Kami telah melempar jutaan kerikil, dan sekitar 2000 telah menembus jendela. Ketika sebuah kerikil melewati jendela, kami menggambar jejak progresnya melintasi lantai. Mengingat kerikil melewati jendela, kami ingin memperkirakan kemungkinan melewati wilayah yang menjadi perhatian.
Jeff Snider

Jawaban:

1

Sepertinya Anda ingin mensimulasikan pembentukan trek dan kemudian melakukan simulasi Monte Carlo untuk melihat berapa banyak trek yang jatuh ke wilayah merah. Untuk melakukan ini, pertama-tama saya akan mengkonversi garis menjadi dua fungsi, satu memberi arah dan jarak lainnya dari satu titik ke titik berikutnya di trek itu. Sekarang Anda dapat mempelajari distribusi probabilitas yang terkait dengan kedua fungsi tersebut. Misalnya, Anda mungkin menemukan bahwa jarak yang ditempuh mengikuti distribusi tertentu (hati-hati agar distribusinya tidak berubah dari waktu ke waktu). Jika salah satu variabel berubah dari waktu ke waktu maka Anda harus mempelajari analisis deret waktu (bukan bidang saya, maaf).

Pikiran lain yang terlintas dalam pikiran adalah bahwa, karena arah pergerakan xy berubah secara bertahap di sebagian besar trek, Anda mungkin sebaiknya memeriksa perubahan arah vs waktu untuk trek.

Anda juga perlu memperkirakan probabilitas trek yang dimulai pada koordinat xy yang diberikan dengan arah tertentu. Anda mungkin ingin mempertimbangkan untuk menggunakan estimasi kerapatan kernel untuk memuluskan PDF yang dihasilkan atau, jika tampaknya mengikuti distribusi yang ada model analitisnya maka maksimalisasi ekspektasi dapat digunakan untuk menyesuaikan distribusi tersebut dengan data.

Simulasi Monte Carlo kemudian akan mengambil sampel acak dari distribusi ini untuk mensimulasikan bentuk trek. Maka Anda harus mensimulasikan sejumlah besar trek dan melihat seberapa sering trek tersebut melewati wilayah merah. Ini bisa ribuan atau jutaan lagu, Anda harus bereksperimen untuk melihat kapan distribusi berhenti berubah saat Anda menambahkan lebih banyak lagu.

chippies
sumber