Seseorang bertanya kepada saya pertanyaan ini dalam wawancara kerja dan saya menjawab bahwa distribusi bersama mereka selalu Gaussian. Saya pikir saya selalu bisa menulis Gaussian bivariat dengan sarana dan varians serta kovarian mereka. Saya bertanya-tanya apakah mungkin ada kasus di mana probabilitas gabungan dari dua Gaussians bukan Gaussian?
91
Jawaban:
Distribusi normal bivariat adalah pengecualian , bukan aturannya!
Penting untuk mengetahui bahwa "hampir semua" distribusi bersama dengan marginal normal bukan distribusi normal bivariat. Artinya, sudut pandang umum bahwa distribusi bersama dengan marginal normal yang bukan normal bivariat entah bagaimana "patologis", agak salah arah.
Tentu saja, multivarian normal sangat penting karena kestabilannya di bawah transformasi linear, dan karenanya menerima banyak perhatian dalam aplikasi.
Contohnya
Berguna untuk memulai dengan beberapa contoh. Gambar di bawah ini berisi peta panas enam distribusi bivariat, yang semuanya memiliki margin normal standar. Yang kiri dan tengah di baris atas adalah normals bivariat, sisanya tidak (seperti yang seharusnya terlihat). Mereka dijelaskan lebih lanjut di bawah ini.
Tulang telanjang copulas
Sifat ketergantungan sering dianalisis secara efisien menggunakan kopula . Sebuah kerja penghubung bivariat adalah hanya sebuah nama indah untuk distribusi probabilitas pada unit persegi dengan seragam marginal.[0,1]2
Misalkan adalah kopula bivariat. Kemudian, segera dari yang di atas, kita tahu bahwa , dan , misalnya.C ( u , v ) ≥ 0 C ( u , 1 ) = u C ( 1 , v ) = vC(u,v) C(u,v)≥0 C(u,1)=u C(1,v)=v
Kita dapat membuat variabel acak bivariat pada bidang Euclidean dengan margin yang ditentukan sebelumnya dengan transformasi sederhana dari kopula bivariat. Biarkan dan menjadi distribusi marginal yang ditentukan untuk sepasang variabel acak . Kemudian, jika adalah kopula bivariat, adalah fungsi distribusi bivariat dengan marginal dan . Untuk melihat fakta terakhir ini, perlu diketahui bahwa Argumen yang sama berfungsi untuk .F 2 ( X , Y ) C ( u , v ) F ( x , y ) = C ( F 1 ( x ) , F 2 ( y ) ) F 1 F 2F1 F2 (X,Y) C(u,v)
Untuk terus menerus dan , teorema Sklar ini menegaskan sebuah converse menyiratkan keunikan. Yaitu, mengingat distribusi bivariat dengan marginal kontinu , , kopula yang sesuai adalah unik (pada ruang rentang yang sesuai).F1 F2 F(x,y) F1 F2
Normal bivariat luar biasa
Teorema Sklar memberi tahu kita (pada dasarnya) bahwa hanya ada satu kopula yang menghasilkan distribusi normal bivariat. Ini, tepatnya dinamai, Gaussian copula yang memiliki kepadatan pada mana pembilangnya adalah distribusi normal bivariat dengan korelasi dievaluasi pada dan .[0,1]2
Tetapi, ada banyak kopula lain dan semuanya akan memberikan distribusi bivariat dengan marginal normal yang bukan normal bivariat dengan menggunakan transformasi yang dijelaskan pada bagian sebelumnya.
Beberapa detail pada contoh
Perhatikan bahwa jika adalah copula acak dengan kepadatan , kepadatan bivariat yang sesuai dengan standar marginal normal di bawah transformasi adalahC(u,v) c(u,v) F(x,y)=C(Φ(x),Φ(y))
Perhatikan bahwa dengan menerapkan Gaussian copula dalam persamaan di atas, kami memulihkan kepadatan normal bivariat. Tetapi, untuk pilihan , kami tidak akan melakukannya.c(u,v)
Contoh-contoh dalam gambar dibangun sebagai berikut (melintasi setiap baris, satu kolom pada satu waktu):
sumber
library(copula)
kcf <- khoudrajiCopula(copula2 = claytonCopula(6), shapes = fixParam(c(.4, 1), c(FALSE, TRUE)))
# force normal margins
evil <- mvdc(kcf, c("norm", "norm"), list(list(mean = 0, sd =1), list(mean = 0, sd = 1)))
contour(evil, dMvdc, xlim = c(-3, 3), ylim=c(-3, 3))
Memang benar bahwa setiap elemen dari vektor normal multivariat itu sendiri terdistribusi secara normal, dan Anda dapat menyimpulkan cara dan variansnya. Namun, tidak benar bahwa dua variabel acak Guassian didistribusikan bersama secara normal. Berikut ini sebuah contoh:
Sunting: Menanggapi konsensus bahwa variabel acak yang merupakan titik massa dapat dianggap sebagai variabel terdistribusi normal dengan , saya mengubah contoh saya.σ2=0
Mari dan membiarkan di mana adalah variabel acak. Yaitu, masing-masing dengan probabilitas .X∼N(0,1) Y=X⋅(2B−1) B Bernoulli(1/2) Y=±X 1/2
Kami pertama kali menunjukkan bahwa memiliki distribusi normal standar.Y Dengan hukum probabilitas total ,
Lanjut,
di mana adalah CDF normal standar . Demikian pula,Φ
Karena itu,
jadi, CDF dari adalah , dengan demikian .Y Φ(⋅) Y∼N(0,1)
Sekarang kami menunjukkan bahwa tidak terdistribusi secara normal.X,Y Sebagaimana ditunjukkan oleh @ cardinal, satu karakterisasi dari multivariate normal adalah bahwa setiap kombinasi linear dari elemen-elemennya terdistribusi secara normal. tidak memiliki properti ini, sejakX,Y
Oleh karena itu adalah campuran dari variabel acak dan massa titik pada 0, sehingga tidak dapat didistribusikan secara normal.Y+X 50/50 N(0,4)
sumber
Posting berikut berisi garis besar bukti, hanya untuk memberikan ide-ide utama dan membantu Anda memulai.
Misalkan menjadi dua variabel acak Gaussian independen dan misalkan menjadiz=(Z1,Z2) x=(X1,X2)
Setiap , tetapi karena keduanya merupakan kombinasi linear dari r.vs independen yang sama, keduanya saling bergantung.Xi∼N(μi,σ2i)
Definisi Sepasang r.vs dikatakan bivariat yang terdistribusi normal jika dapat ditulis sebagai kombinasi linier dari r.vs normal yang independen .x=(X1,X2) x=Az z=(Z1,Z2)
Lemma Jika adalah Gaussian bivariat, maka kombinasi linear lainnya adalah variabel acak normal.x=(X1,X2)
Bukti . Sepele, dilewati untuk tidak menyinggung siapapun.
Properti Jika tidak berkorelasi, maka mereka independen dan sebaliknya.X1,X2
DistribusiX1|X2
Asumsikan adalah Gaussian r.vs yang sama seperti sebelumnya, tetapi anggaplah mereka memiliki varian positif dan rata-rata nol untuk kesederhanaan.X1,X2
Jika adalah subruang yang direntang oleh , misalkan dan .S X2 XS1=ρσX1σX2X2 XS⊥1=X1−XS1
Dekomposisi berlaku dengan
Lalu
Dua variabel acak Gaussian univariat adalah Gaussian bersama jika kondisi dan juga Gaussian.X,Y X|Y Y|X
sumber