Apa sajakah teknik untuk pengambilan sampel dua variabel acak berkorelasi?

16

Apa sajakah teknik untuk mengambil sampel dua variabel acak berkorelasi:

  • jika distribusi probabilitasnya parameter (mis., log-normal)

  • jika mereka memiliki distribusi non-parametrik.

Data adalah dua deret waktu yang dapat digunakan untuk menghitung koefisien korelasi non-nol. Kami ingin mensimulasikan data ini di masa depan, dengan asumsi korelasi historis dan deret waktu CDF konstan.

Untuk kasus (2), analog 1-D adalah untuk membangun CDF dan sampel darinya. Jadi saya kira, saya bisa membuat CDF 2-D dan melakukan hal yang sama. Namun, saya bertanya-tanya apakah ada cara untuk mendekati dengan menggunakan CDF 1-D individu dan entah bagaimana menghubungkan pick.

Terima kasih!

Pete
sumber
3
Menghubungkan CDF 1-D membuat saya berpikir tentang kopula . Tidak yakin apakah itu akan berguna bagi Anda.
onestop

Jawaban:

23

Saya pikir apa yang Anda cari adalah kopula. Anda memiliki dua distribusi marjinal (ditentukan oleh cdf parametrik atau empiris) dan sekarang Anda ingin menentukan ketergantungan antara keduanya. Untuk kasus bivariat ada semua jenis pilihan, tetapi resep dasarnya sama. Saya akan menggunakan Gaussian copula untuk kemudahan interpretasi.

Untuk menggambar dari Gaussian copula dengan matriks korelasi C

  1. Draw (Z=(Z1,Z2)N(0,C)

  2. Tetapkan untuk i = 1 , 2 (dengan Φ cdf normal standar). Sekarang U 1 , U 2U [ 0 , 1 ] , tetapi keduanya tergantung.Ui=Φ(Zi)i=1,2ΦU1,U2U[0,1]

  3. Yi=Fi1(Ui)Fi1iYi

Voila! Cobalah untuk beberapa kasus sederhana, dan lihat histogram marginal dan scatterpot, itu menyenangkan.

Tidak ada jaminan bahwa ini sesuai untuk aplikasi khusus Anda (khususnya, Anda mungkin perlu mengganti Gaussian copula dengan di copula) tetapi ini harus Anda mulai. Referensi yang baik pada pemodelan kopula adalah Nelsen (1999), Pengantar Kopula , tetapi ada beberapa pengantar online yang cukup bagus juga.

JMS
sumber
2
+1 Nelsen cukup mudah dibaca. Saya membeli salinan beberapa tahun yang lalu bahkan setelah melalui banyak materi online.
whuber
1
Saya menemukan makalah tutorial yang bagus dan spreadsheet yang menyertainya: behan.ws/copula.pdf dan soa.org/files/xls/rsrch-copula-ex.xls
Pete
1
@Pete, kertasnya memang bagus. Tautan spreadsheet, di sisi lain, sudah mati
Boris Gorelik
Tampaknya versi terbaru dari Mathematica dan Matlab sudah memiliki fungsi menangani masalah seperti itu?
LCFactorization
apa yang harus saya lakukan jika saya ingin sama dengan plackett copula? apakah ada hubungan antara Normal dan plackett copula?
fedvasu
2

Metode populer lainnya adalah "reduksi trivariat" yang diambil sampelnya X1Y+Z dan X2W+Z sehingga korelasinya diinduksi oleh varian acak Z. Perhatikan bahwa ini juga dapat digeneralisasikan ke lebih dari 2 dimensi - tetapi lebih rumit dari kasing 2-d. Anda mungkin berpikir Anda hanya bisa mendapatkan korelasi positif tetapi sebenarnya Anda juga bisa mendapatkan korelasi negatif dengan menggunakanU dan (1-U) saat membuat variasi acak, ini akan menginduksi korelasi negatif pada distribusi.

Metode populer ketiga adalah (NORTA) NORmal To Anything ; menghasilkan variabel normal yang berkorelasi, menjadikannya menjadi varian acak seragam melalui evaluasi masing-masing cdf, lalu gunakan varian acak seragam "baru" ini sebagai sumber keacakan dalam menghasilkan gambar dari distribusi baru.

Selain pendekatan kopula (seluruh kelas metode) yang disebutkan dalam pos lain, Anda juga dapat mengambil sampel dari distribusi kopling maksimal yang serupa semangatnya dengan pendekatan kopula. Anda menentukan distribusi marginal dan sampel dari kopling maksimal. Ini dicapai dengan 2 langkah menerima-menolak seperti yang dijelaskan oleh Pierre Jacob di sini . Agaknya metode ini dapat diperluas ke dimensi lebih tinggi dari 2 tetapi mungkin lebih rumit untuk dicapai. Perhatikan bahwa kopling maksimal akan menginduksi korelasi yang tergantung pada nilai-nilai parameter marginal melihat posting ini untuk contoh yang bagus dari ini dalam jawaban Xi'an untuk pertanyaan saya.

Jika Anda bersedia menerima perkiraan (dalam kebanyakan kasus) sampel, maka teknik MCMC juga merupakan pilihan untuk sampel dari distribusi multi-dimensi.

Juga, Anda bisa menggunakan metode accept-reject tetapi biasanya sulit untuk menemukan kepadatan yang mendominasi untuk sampel dari dan mengevaluasi rasio itu terhadap kepadatan yang diinginkan.

Ini semua metode tambahan yang bisa saya pikirkan tetapi mungkin ada beberapa yang saya lewatkan.

Lucas Roberts
sumber