Menghasilkan variabel acak yang saling tergantung

Saya mencoba untuk menghasilkan set variabel acak yang terhubung secara kausal dan mulai melakukan ini dengan pendekatan monte carlo.

Baseline adalah histogram 2 dimensi yang diukur dari mana saya menggambar nilai acak.

Dalam contoh nyata saya, variabel-variabel ini adalah akselerasi $\bf{a}$ dan kecepatan - jadi jelas harus ditahan. $\bf{v}$ $v_{i+1} = v_{i} + a_i * dt$

Pendekatan naif saya saat ini adalah:

Saya mulai dengan beberapa . Kemudian saya menghasilkan acak sesuai dengan probabilitas terukur dari untuk nilai . Dengan menggunakan ini saya dapat menghitung dan seluruh prosedur dimulai lagi. $v_0$ $a_0$ $\bf{a}$ $v_0$ $a_0$ $v_1$

Jadi, ketika saya memeriksa akselerasi yang dihasilkan dalam sampah semuanya baik-baik saja. Tapi saya jelas ini sama sekali tidak menghormati distribusi marginal dari . $\bf{a}$ $\bf{v}$ $\bf{v}$

Saya agak akrab dengan metode dasar monte carlo, meskipun kurang memiliki latar belakang teoritis seperti yang Anda duga. Saya akan baik-baik saja jika dua variabel di mana hanya dihubungkan oleh beberapa matriks korelasi, tetapi hubungan sebab akibat antara keduanya memberi saya sakit kepala.

Saya tidak berhasil menemukan contoh untuk masalah semacam ini di suatu tempat - saya mungkin googl'ing istilah yang salah. Saya akan puas jika seseorang dapat mengarahkan saya ke beberapa literatur / contoh atau metode yang menjanjikan untuk memahami ini.

(Atau katakan itu tidak benar-benar mungkin diberikan masukan saya - itulah yang saya duga sesekali ...)

EDIT:

Tujuan sebenarnya dari seluruh prosedur ini: Saya memiliki satu set pengukuran dan , diwakili dalam histogram dua dimensi . Dengan masukan ini, saya ingin menghasilkan set acak dan yang mereproduksi distribusi yang diukur. $\bf{a}$ $\bf{v}$ $N(a,v)$ $\bf{a_r}$ $\bf{v_r}$

monte-carlo random-generation sebastian
sumber

Pertanyaan yang menarik Namun, yang kedua "jelas" (tentang tidak menghormati distribusi marjinal) sama sekali tidak jelas bagi saya. Mengapa ini jelas? Distribusi

(v, a)

$(v,a)$ , sebagaimana tercermin oleh "histogram dua dimensi" Anda, tergantung pada bagaimana Anda mengambil sampel variabel-variabel ini; Saya bertanya-tanya apakah ini dapat menjelaskan kemungkinan perbedaan. Jenis data apa yang diwakili oleh histogram ini dan bagaimana tepatnya Anda "mengambil nilai" darinya?

whuber

Nah, bagi saya jenisnya sudah jelas, karena

a

$\bf{a}$ distribusi cukup simetris di sekitar nol. Jadi saat menghasilkan

a_{i}

$a_i$ tidak ada ketergantungan pada

v

$v$ . Kapan saat ini

v

$v$ berada di tepi atas marginal

v

$\bf{v}$ distribusi, Anda akan menganggap bahwa harus ada bias terhadap negatif

a_{i}

$a_i$ . "draw values" mengacu pada: ambil distribusi probabilitas 1-dim, membangun distribusi kumulatif, melempar angka acak

r

$r$ antara 0 dan 1, temukan

x

$x$ dimana cum. distribusi memiliki nilai

r

$r$ . Ini

x

$x$ adalah "nilai yang ditarik"

sebastian

Untuk kelengkapan: data berasal dari gps-logging. Saya memiliki satu set perjalanan yang dicatat dalam mobil, yang mencatat kecepatan dengan 1Hz. Jadi mereka sepasang

v

$v$ dan

a

$a$ untuk setiap titik data. Ini diisi ke dalam histogram.

sebastian

Komentar Anda menunjukkan bahwa Anda menganggap itu

a

$\mathbf{a}$ dan

v

$\mathbf{v}$ independen. Itu tidak mungkin, karena ada keterbatasan fisik pada kecepatan: itu berarti banyak akselerasi tidak akan dialami pada kecepatan paling ekstrem. Namun, tidak mudah untuk memberikan saran yang lebih rinci karena Anda belum mengartikulasikan apa yang ingin Anda capai; sebaliknya, Anda telah menggambarkan pendekatan untuk memecahkan masalah yang tidak disebutkan. Mengapa Anda tidak mengubah pertanyaan ini dan malah bertanya tentang masalah yang perlu Anda selesaikan daripada bagaimana menerapkan solusi yang terlihat tidak valid?

whuber

Jawaban:

Tampaknya untuk mereproduksi distribusi bersama $\rho(a,v)$ , Anda harus memilih yang baru $a$ tidak hanya berdasarkan $v$ , tapi berdasarkan yang lama $a$ juga:

$a_{i+1} \sim \rho'(a_{i+1}|a_i, v_i)$

Pertanyaannya (yang saya belum tahu jawabannya) adalah bagaimana menemukannya $\rho'$ yang menghasilkan $\rho$ .

UPD: Anda harus menyelesaikan persamaan integral berikut:

ρ (a, v) = \int d a^{'} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t)

$\rho(a, v) = \int da' \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t)$

Mendekati fungsi $\rho$ dengan histogram, Anda mengubahnya menjadi sistem persamaan linear:

{\begin{cases} ρ (a, v) = \sum_{a^{'}} ρ^{'} (a | a^{'}, v - \frac{a + a^{'}}{2} Δ t) ρ (a^{'}, v - \frac{a + a^{'}}{2} Δ t) \\ \sum_{a} ρ^{'} (a | a^{'}, v^{'}) = 1 \end{cases}

$\cases{ \rho(a, v) = \sum_{a'} \rho'\left(a|a', v-{a+a'\over 2}\Delta t\right) \rho(a', v-{a+a'\over 2}\Delta t) \\ \sum_a \rho'\left(a|a', v'\right) = 1}$

Sistem ini tidak ditentukan. Anda dapat menerapkan penalti kelancaran untuk mendapatkan solusi.

pengguna31264
sumber

Bukankah data gps berisi posisi $p$ ? Saya akan berpikir itu, tidak hanya itu $v_{i+1}$ tergantung pada $v_{i}$ dan $a_{i}$ tapi $a_{i+1}$ juga akan bergantung pada $p_{i}$ . Pertimbangkan: di jaringan jalan apa pun ada kemacetan, batas kecepatan, sinyal, persimpangan, kemiringan curam, dll. Yang geolokasi. Jadi sesuatu seperti ensemble (distribusi) yang didefinisikan oleh:

$F_{a} = Pr ( A_{i+1} \le a_{i+1}\ |\ a_{i},v_{i},p_{i} )$
$v_{i+1} = v_{i} + a_{i}dt$

Untuk ansambel seperti itu, kesulitan akan terletak pada sifat data. Sangat mungkin bahwa populasi yang sebenarnya akan asimetris, non-linear (sepotong-bijaksana) dan mungkin tidak menentukan momen. Karakteristik ini mungkin tidak jelas dalam sampel yang Anda miliki.

Seperti yang dikatakan @whuber, masalahnya, yaitu apa yang ingin Anda hasilkan, belum tampak sepenuhnya dan jelas. Tidak jelas apakah Anda tertarik pada ansambel atau lebih individu.

AsymLabs
sumber

Saya pikir masalah saya agak jelas - saya memiliki distribusi terukur

v

$\bf{v}$ dan

a

$\bf{a}$ dan dari sini saya ingin mencicipi pseudo-random

v_{r a n d}

$\bf{v_{rand}}$ , yang pada akhirnya mereproduksi input. Saya sangat menyadari poin Anda tentang apakah yang keluar itu realistis, tapi itu pertanyaan yang berbeda ...

sebastian

Paling tidak, seperti yang ditunjukkan dalam persamaan di atas, ini tidak akan menjadi efek stasioner. Saya akan berpikir bahwa langkah pertama adalah untuk bin bacaan sesuai dengan interval waktu dan kemudian membandingkannya. Saya tidak tahu berapa banyak bacaan yang Anda miliki tetapi perbandingan ini dapat dijalankan melalui sesuatu seperti Pearson's Distribution sebagai titik awal - untuk mencoba mengklasifikasikan sifat distribusi.

AsymLabs