Metode untuk menghasilkan data non-normal berkorelasi

14

Saya tertarik untuk mencari metode untuk menghasilkan data non-normal yang berkorelasi. Jadi idealnya semacam distribusi yang mengambil dalam matriks kovarians (atau korelasi) sebagai parameter dan menghasilkan data yang mendekati itu. Tapi inilah intinya: metode yang saya coba temukan harus memiliki fleksibilitas untuk juga mengontrol kemiringan multivariat dan / atau kurtosis.

Saya kenal metode Fleishman dan penggunaan metode kekuatan dari varian normal, tapi saya percaya sebagian besar ekstensi itu hanya memungkinkan pengguna untuk kombinasi tertentu dari skewness dan kurtosis marginal , meninggalkan skewness / kurtosis multivarian di luar sana. Yang saya ingin tahu adalah apakah ada metode yang membantu menentukan skewness multivariat dan / atau kurtosis, bersama dengan beberapa struktur korelasi / kovarian.

Sekitar satu tahun yang lalu saya mengikuti seminar tentang distribusi kopula dan saya ingat profesor dengan santai menyebutkan bahwa melalui penggunaan anggur kopula, seseorang dapat menghasilkan data yang, katakanlah, simetris pada masing-masing marjinal 1-Dnya tetapi condong bersama dan sebaliknya -versa. Atau, lebih jauh lagi, bahwa setiap margin berdimensi lebih rendah dapat memiliki beberapa skewness atau kurtosis sambil mempertahankan dimensi tertinggi simetris (atau tidak). Saya kagum dengan gagasan bahwa kelenturan seperti itu bisa ada. Saya telah berusaha menemukan semacam artikel atau makalah konferensi yang menjelaskan metode tersebut, tetapi saya tidak berhasil :(. Tidak harus melalui penggunaan kopulas, Saya terbuka untuk apa pun yang berfungsi.

Sunting: Saya telah menambahkan beberapa kode R untuk mencoba menunjukkan apa yang saya maksud. Sejauh ini saya hanya mengenal dengan baik definisi Mewia tentang kecenderungan multivariat dan kurtosis. Ketika saya pertama kali mendekati masalah saya, saya naif berpikir bahwa jika saya menggunakan kopula simetris (Gaussian dalam kasus ini) dengan marjinal miring (beta, dalam contoh ini), tes univariat pada marjinal akan menghasilkan signifikansi tetapi tes Mardia untuk skewness / kurtosis multivarit akan menjadi tidak signifikan. Saya mencobanya dan itu tidak keluar seperti yang saya harapkan:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

Setelah memeriksa kontur untuk 'cop1' VS 'cop2' serta plot kepadatan bivariat empiris, saya juga dapat melihat bahwa tidak ada yang terlihat simetris sama sekali. Saat itulah saya menyadari ini mungkin sedikit lebih rumit dari yang saya kira.

Saya tahu bahwa Mardia bukan satu-satunya definisi skewness / kurtosis multivarian, jadi saya tidak membatasi diri untuk menemukan metode yang hanya memenuhi definisi Mardia.

Terima kasih!

S. Punky
sumber
+1 Pertanyaan paling menarik. Bisakah Anda lebih spesifik tentang apa arti 'condong bersama' dalam konteks ini (terutama yang bivariat)? Sementara saya bisa membayangkan bentuk-bentuk distribusi bersama yang dalam beberapa hal "berbeda" di empat kuadran (tentang kapak yang ditempatkan pada alat, katakanlah), saya tidak akrab dengan apa yang secara khusus merujuk pada "condong bersama".
Glen_b -Reinstate Monica
expXX
Halo. terima kasih banyak telah tertarik pada pertanyaan saya. ini adalah pertama kalinya saya memposting di sini jadi saya harap saya melakukan sesuatu dengan benar. saya akan menguraikan lebih lanjut pada bagian komentar karena batas karakter mencegah saya dari menggunakan kode R untuk mencoba dan menyampaikan apa yang saya lakukan
S. Punky
ya, saya baru menyadarinya dan menambahkan lebih detail. Saya menghargai Anda meluangkan waktu untuk membimbing saya sejauh bagaimana menggunakan papan ini. Terima kasih!
S. Punky
" tidak membatasi diri saya untuk menemukan metode yang hanya memenuhi definisi Mardia " - metode melakukan apa?
Glen_b -Reinstate Monica

Jawaban:

3

Setelah banyak mencari, melompat-lompat di forum online, berkonsultasi dengan profesor dan melakukan BANYAK tinjauan literatur, saya sampai pada kesimpulan bahwa mungkin satu - satunya cara untuk mengatasi masalah ini adalah melalui penggunaan copulas anggur memang. Ini memberi Anda beberapa kontrol atas kemiringan dan kurtosis berpasangan (atau momen lebih tinggi) - untuk vektor acak p-variate dan kebebasan untuk menentukan pasangan p-1 kopula dan sisa p * (p-1) / 2 - ( p-1) dimensi dapat ditentukan dalam beberapa jenis kopula kondisional.

Saya menyambut metode lain yang mungkin orang temui tetapi setidaknya saya akan meninggalkan penunjuk ini ke arah jawaban karena saya tidak bisa, untuk kehidupan saya, menemukan cara lain untuk mengatasinya.

S. Punky
sumber
2
Apa itu copula anggur?
Sextus Empiricus
1

Anda mungkin dapat menyelesaikan ini dengan memodifikasi algoritma Ruscio and Kaczetow (2008). Makalah mereka menyediakan algoritma iteratif (dengan kode R) yang meminimalkan perbedaan antara bentuk marginal yang sebenarnya dan yang dimaksudkan. Anda mungkin dapat memodifikasinya sehingga menargetkan momen multivarian (bukan marginal).

Ruscio, J., & Kaczetow, W. (2008). Mensimulasikan data nonnormal multivarian menggunakan algoritma iteratif. Penelitian Perilaku Multivariat, 43 (3), 355-381. doi: 10.1080 / 00273170802285693

Anthony
sumber
OH TUHAN! TERIMA KASIH! Saya berpikir sejenak bahwa pertanyaan ini hanya akan terlupakan
S. Punky
1
yah ... saya sudah mengulas artikel Ruscio & Kaczetow (2008). sayangnya itu hanyalah implementasi (namun lebih fleksibel) dari keluarga algoritma NORTA (NORmal To Anything) yang dikenal tidak bekerja dengan baik dengan momen multivarian 3 & 4. Saya kira saya kembali ke titik awal untuk yang ini.
S. Punky
0

Anda mungkin ingin memeriksa Distribusi Elliptical Umum , yang memungkinkan untuk matriks bentuk "klasik" dengan fleksibilitas untuk fitur lainnya.

Kuarsa
sumber
Terima kasih! Saya akan memastikan untuk memeriksa tautan ini. Sekarang, bukankah distribusi elips simetris? Jadi seseorang dapat mengontrol kurtosis tetapi kemiringannya harus tetap pada 0?
S. Punky
Tentu, tetapi GE tidak menyiratkan elips. Untuk beberapa variasi kemiringan miring, periksa juga di sini: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz
0

Saya telah menemukan metode sederhana untuk melakukan ini yang tidak melibatkan coplas dan desain kompleks lainnya. Saya khawatir saya tidak memiliki referensi formal meskipun metode ini tampaknya sangat efektif.

Idenya sederhana. 1. Gambarkan sejumlah variabel dari distribusi normal gabungan. 2. Terapkan variabel normal CDF univariat untuk memperoleh probabilitas untuk setiap variabel. 3. Akhirnya menerapkan CDF terbalik dari distribusi apa pun untuk mensimulasikan undian dari distribusi itu.

Saya datang dengan metode ini pada 2012 dan berdemonstrasi menggunakan Stata . Saya juga telah menulis posting terbaru menunjukkan metode yang sama dengan menggunakan R .

Francis Smart
sumber
(1) Apa itu "distribusi normal Spearman"? (2) Apa perbedaan yang Anda buat, jika ada, antara CDF dan "CDF normal"? (3) Bisakah Anda menjelaskan bagaimana metode ini memperkenalkan korelasi sama sekali? Saya khawatir penggunaan "variabel" dan "distribusi" secara umum membuat deskripsi Anda agak kabur, sehingga sulit untuk mengatakan apa yang sebenarnya dilakukannya. Bisakah Anda menulis ulang jawaban Anda menjadi lebih tepat?
Whuber
terima kasih untuk posting kamu! dengan mengikuti tautan orang dapat melihat informasi lebih lanjut tentang metode ini. itu tidak cukup melakukan apa yang saya harapkan untuk dicapai (yaitu kontrol atas tatanan yang lebih tinggi, momen dimensi yang lebih tinggi dari distribusi) tetapi masih merupakan pendekatan yang sangat berharga.
S. Punky
1
Tidak mengherankan, saya tidak menemukan metode baru, lihat: Cario, Marne C., dan Barry L. Nelson. Memodelkan dan menghasilkan vektor acak dengan distribusi marginal sewenang-wenang dan matriks korelasi. Laporan Teknis, Departemen Teknik Industri dan Ilmu Manajemen, Universitas Northwestern, Evanston, Illinois, 1997. Yahav, Inbal, dan Galit Shmueli. "Pada menghasilkan data poisson multivariat dalam aplikasi ilmu manajemen." Makalah Penelitian Sekolah Robert H. Smith No. RHS (2009): 06-085.
Francis Smart
bahkan jika itu bukan 'metode baru', saya masih ingin mengucapkan terima kasih karena telah meluangkan waktu untuk memeriksa pertanyaan saya dan menambahkan sesuatu yang berwawasan :)
S. Punky
0

Saya percaya metode yang disajikan dalam makalah-makalah berikut ini memungkinkan menghasilkan multivariat acak dengan kombinasi (rata-rata) mean, varian, skewness, dan kurtosis.

  1. Stanfield, PM, Wilson, JR, dan Mirka, GA 1996. Pemodelan Input Multivariat dengan Distribusi Johnson, Prosiding Konferensi Simulasi Musim Dingin 1996 , eds. Charnes, JM, Morrice, DJ, Brunner, DT, dan Swain, JJ, 1457-1464.
  2. Stanfield, PM, Wilson, JR, dan King, RE 2004. Pemodelan fleksibel waktu operasi berkorelasi dengan aplikasi dalam fasilitas penggunaan kembali produk, International Journal of Production Research , Vol 42, No 11, 2179–2196.

Penafian: Saya bukan salah satu penulis.

SecretAgentMan
sumber