Apakah mungkin untuk memiliki sepasang variabel acak Gaussian yang distribusi bersamanya bukan Gaussian?

91

Seseorang bertanya kepada saya pertanyaan ini dalam wawancara kerja dan saya menjawab bahwa distribusi bersama mereka selalu Gaussian. Saya pikir saya selalu bisa menulis Gaussian bivariat dengan sarana dan varians serta kovarian mereka. Saya bertanya-tanya apakah mungkin ada kasus di mana probabilitas gabungan dari dua Gaussians bukan Gaussian?

MarkSAlen
sumber
4
Contoh lain dari Wikipedia . Tentu saja, jika variabel independen dan sedikit Gaussian, maka mereka bersama-sama Gaussian.

Jawaban:

138

Distribusi normal bivariat adalah pengecualian , bukan aturannya!

Penting untuk mengetahui bahwa "hampir semua" distribusi bersama dengan marginal normal bukan distribusi normal bivariat. Artinya, sudut pandang umum bahwa distribusi bersama dengan marginal normal yang bukan normal bivariat entah bagaimana "patologis", agak salah arah.

Tentu saja, multivarian normal sangat penting karena kestabilannya di bawah transformasi linear, dan karenanya menerima banyak perhatian dalam aplikasi.

Contohnya

Berguna untuk memulai dengan beberapa contoh. Gambar di bawah ini berisi peta panas enam distribusi bivariat, yang semuanya memiliki margin normal standar. Yang kiri dan tengah di baris atas adalah normals bivariat, sisanya tidak (seperti yang seharusnya terlihat). Mereka dijelaskan lebih lanjut di bawah ini.

Contoh distribusi bivariat dengan marginal normal standar.

Tulang telanjang copulas

Sifat ketergantungan sering dianalisis secara efisien menggunakan kopula . Sebuah kerja penghubung bivariat adalah hanya sebuah nama indah untuk distribusi probabilitas pada unit persegi dengan seragam marginal.[0,1]2

Misalkan adalah kopula bivariat. Kemudian, segera dari yang di atas, kita tahu bahwa , dan , misalnya.C ( u , v ) 0 C ( u , 1 ) = u C ( 1 , v ) = vC(u,v)C(u,v)0C(u,1)=uC(1,v)=v

Kita dapat membuat variabel acak bivariat pada bidang Euclidean dengan margin yang ditentukan sebelumnya dengan transformasi sederhana dari kopula bivariat. Biarkan dan menjadi distribusi marginal yang ditentukan untuk sepasang variabel acak . Kemudian, jika adalah kopula bivariat, adalah fungsi distribusi bivariat dengan marginal dan . Untuk melihat fakta terakhir ini, perlu diketahui bahwa Argumen yang sama berfungsi untuk .F 2 ( X , Y ) C ( u , v ) F ( x , y ) = C ( F 1 ( x ) , F 2 ( y ) ) F 1 F 2F1F2(X,Y)C(u,v)

F(x,y)=C(F1(x),F2(y))
F1F2
P(Xx)=P(Xx,Y<)=C(F1(x),F2())=C(F1(x),1)=F1(x).
F2

Untuk terus menerus dan , teorema Sklar ini menegaskan sebuah converse menyiratkan keunikan. Yaitu, mengingat distribusi bivariat dengan marginal kontinu , , kopula yang sesuai adalah unik (pada ruang rentang yang sesuai).F1F2F(x,y)F1F2

Normal bivariat luar biasa

Teorema Sklar memberi tahu kita (pada dasarnya) bahwa hanya ada satu kopula yang menghasilkan distribusi normal bivariat. Ini, tepatnya dinamai, Gaussian copula yang memiliki kepadatan pada mana pembilangnya adalah distribusi normal bivariat dengan korelasi dievaluasi pada dan .[0,1]2

cρ(u,v):=2uvCρ(u,v)=φ2,ρ(Φ1(u),Φ1(v))φ(Φ1(u))φ(Φ1(v)),
ρΦ1(u)Φ1(v)

Tetapi, ada banyak kopula lain dan semuanya akan memberikan distribusi bivariat dengan marginal normal yang bukan normal bivariat dengan menggunakan transformasi yang dijelaskan pada bagian sebelumnya.

Beberapa detail pada contoh

Perhatikan bahwa jika adalah copula acak dengan kepadatan , kepadatan bivariat yang sesuai dengan standar marginal normal di bawah transformasi adalah C(u,v)c(u,v)F(x,y)=C(Φ(x),Φ(y))

f(x,y)=φ(x)φ(y)c(Φ(x),Φ(y)).

Perhatikan bahwa dengan menerapkan Gaussian copula dalam persamaan di atas, kami memulihkan kepadatan normal bivariat. Tetapi, untuk pilihan , kami tidak akan melakukannya.c(u,v)

Contoh-contoh dalam gambar dibangun sebagai berikut (melintasi setiap baris, satu kolom pada satu waktu):

  1. Bivariat normal dengan komponen independen.
  2. Bivariat normal dengan .ρ=0.4
  3. The contoh yang diberikan dalam jawaban ini dari Dilip Sarwate . Dapat dengan mudah dilihat diinduksi oleh copula dengan densitas .C(u,v)c(u,v)=2(1(0u1/2,0v1/2)+1(1/2<u1,1/2<v1))
  4. Dihasilkan dari Frank copula dengan parameter .θ=2
  5. Dihasilkan dari copula Clayton dengan parameter .θ=1
  6. Dihasilkan dari modifikasi asimetris dari Clayton copula dengan parameter .θ=3
kardinal
sumber
7
+1 untuk pernyataan bahwa kepadatan normal bivariat adalah kasus luar biasa!
Dilip Sarwate
Mungkin saya kehilangan sesuatu, tetapi jika kita mulai dari , distribusi gabungan secara otomatis ditentukan, terlepas dari konstruksi kopula apa pun, dan jika kita menerapkan non- Konstruksi Gaussian copula ke CDF mereka, memang benar bahwa kita akan mendapatkan CDF non-Gaussian , tetapi fungsi ini secara umum tidak akan menjadi CDF dari pasangan variabel acak kita mulai dengan, benar ? X1,X2N(0,1)(X1,X2)F(x1,x2)X,X2
RandomGuy
Contoh cara mensimulasikan seperti pada panel kanan bawah: library(copula) kcf <- khoudrajiCopula(copula2 = claytonCopula(6), shapes = fixParam(c(.4, 1), c(FALSE, TRUE))) # force normal margins evil <- mvdc(kcf, c("norm", "norm"), list(list(mean = 0, sd =1), list(mean = 0, sd = 1))) contour(evil, dMvdc, xlim = c(-3, 3), ylim=c(-3, 3))
setengah lulus
1
@RandomGuy, Anda melewatkan asumsi yang tidak disebutkan bahwa . Jika Anda menganggap mereka independen, maka ya, Anda sudah tahu distribusi bersama. Tanpa asumsi independensi, mengetahui distribusi marjinal tidak memberikan informasi yang cukup untuk menentukan distribusi bersama. X1,X2independentN(0,1)
MentatOfDune
25

Memang benar bahwa setiap elemen dari vektor normal multivariat itu sendiri terdistribusi secara normal, dan Anda dapat menyimpulkan cara dan variansnya. Namun, tidak benar bahwa dua variabel acak Guassian didistribusikan bersama secara normal. Berikut ini sebuah contoh:

Sunting: Menanggapi konsensus bahwa variabel acak yang merupakan titik massa dapat dianggap sebagai variabel terdistribusi normal dengan , saya mengubah contoh saya.σ2=0


Mari dan membiarkan di mana adalah variabel acak. Yaitu, masing-masing dengan probabilitas .XN(0,1)Y=X(2B1)BBernoulli(1/2)Y=±X1/2

Kami pertama kali menunjukkan bahwa memiliki distribusi normal standar. YDengan hukum probabilitas total ,

P(Yy)=12(P(Yy|B=1)+P(Yy|B=0))

Lanjut,

P(Yy|B=0)=P(Xy)=1P(Xy)=1Φ(y)=Φ(y)

di mana adalah CDF normal standar . Demikian pula,Φ

P(Yy|B=1)=P(Xy)=Φ(y)

Karena itu,

P(Yy)=12(Φ(y)+Φ(y))=Φ(y)

jadi, CDF dari adalah , dengan demikian .YΦ()YN(0,1)

Sekarang kami menunjukkan bahwa tidak terdistribusi secara normal. X,YSebagaimana ditunjukkan oleh @ cardinal, satu karakterisasi dari multivariate normal adalah bahwa setiap kombinasi linear dari elemen-elemennya terdistribusi secara normal. tidak memiliki properti ini, sejakX,Y

Y+X={2Xif B=10if B=0.

Oleh karena itu adalah campuran dari variabel acak dan massa titik pada 0, sehingga tidak dapat didistribusikan secara normal.Y+X50/50N(0,4)

Makro
sumber
4
Saya tidak setuju dengan jawaban ini. Massa titik degenerasi at biasanya dianggap sebagai variabel acak Gaussian degenerasi dengan varians nol. Juga, tidak terus menerus bersama meskipun mereka sedikit terus menerus Untuk contoh dari dua variabel acak kontinu bersama yang secara marginal Gaussian tetapi tidak bersama-sama Gaussian, lihat, misalnya, bagian terakhir dari jawaban ini . 1μ(X,X)
Dilip Sarwate
4
@DilipSarwate, pertanyaannya adalah untuk memberikan contoh (jika ada) dari dua variabel yang terdistribusi normal tetapi distribusi bersama mereka tidak multivariat normal. Ini sebuah contoh. Sebagian besar definisi standar dari distribusi normal (mis. Wikipedia en.wikipedia.org/wiki/Normal_distribution ) memerlukan varians yang benar-benar positif, sehingga tidak termasuk titik massa sebagai bagian dari keluarga distribusi normal.
Makro
4
Karakterisasi standar dari Gaussian multivarian adalah bahwa adalah Gaussian multivarian jika dan hanya jika adalah Gaussian untuk semua . Sebagai @Dilip mengisyaratkan, ada baiknya mempertimbangkan apakah ini benar untuk contoh Anda. XRnaTXaRn
kardinal
6
Karena Anda tampaknya tidak suka banding ke rasionalitas ;-), bagaimana dengan banding ke otoritas? (Itu lelucon, jika itu tidak terlihat.) Saya kebetulan kebetulan ini murni karena saya mencari sesuatu yang lain: Contoh 2.4 , halaman 22 dari GAF Seber dan AJ Lee, Analisis Regresi Linier , 2. ed., Wiley. Itu mengutip: "Biarkan dan letakkan ... Dengan demikian memiliki distribusi normal multivariat." YN(μ,σ2)Y=(Y,Y)Y
kardinal
5
Diskusi adalah tentang definisi. Jelas, jika matriks kovarians menurut definisi diharuskan menjadi Makro non-tunggal memberikan contoh, tetapi ini bukan contoh menurut definisi yang lebih liberal yang dirujuk oleh @ cardinal juga. Salah satu alasan bagus untuk lebih menyukai definisi yang lebih liberal adalah bahwa semua transformasi linear dari variabel normal adalah normal. Secara khusus, dalam regresi linier dengan kesalahan normal residual memiliki distribusi normal bersama tetapi matriks kovarians singular.
NRH
5

Posting berikut berisi garis besar bukti, hanya untuk memberikan ide-ide utama dan membantu Anda memulai.

Misalkan menjadi dua variabel acak Gaussian independen dan misalkan menjadi z=(Z1,Z2)x=(X1,X2)

x=(X1X2)=(α11Z1+α12Z2α21Z1+α22Z2)=(α11α12α21α22)(Z1Z2)=Az.

Setiap , tetapi karena keduanya merupakan kombinasi linear dari r.vs independen yang sama, keduanya saling bergantung.XiN(μi,σi2)

Definisi Sepasang r.vs dikatakan bivariat yang terdistribusi normal jika dapat ditulis sebagai kombinasi linier dari r.vs normal yang independen .x=(X1,X2)x=Azz=(Z1,Z2)

Lemma Jika adalah Gaussian bivariat, maka kombinasi linear lainnya adalah variabel acak normal.x=(X1,X2)

Bukti . Sepele, dilewati untuk tidak menyinggung siapapun.

Properti Jika tidak berkorelasi, maka mereka independen dan sebaliknya.X1,X2

DistribusiX1|X2

Asumsikan adalah Gaussian r.vs yang sama seperti sebelumnya, tetapi anggaplah mereka memiliki varian positif dan rata-rata nol untuk kesederhanaan.X1,X2

Jika adalah subruang yang direntang oleh , misalkan dan .SX2X1S=ρσX1σX2X2X1S=X1X1S

X1 dan adalah kombinasi linear dari , jadi juga. Mereka bersama-sama Gaussian, tidak berkorelasi (membuktikannya) dan independen.X2zX2,X1S

Dekomposisi berlaku dengan

X1=X1S+X1S
E[X1|X2]=ρσX1σX2X2=X1S

V[X1|X2]=V[X1S]=E[X1ρσX1σX2X2]2=(1ρ)2σX12.

Lalu

X1|X2N(X1S,(1ρ)2σX12).

Dua variabel acak Gaussian univariat adalah Gaussian bersama jika kondisi dan juga Gaussian.X,YX|YY|X

tambahan
sumber
2
Tidak jelas bagaimana pengamatan ini menjawab pertanyaan. Karena aturan produk secara praktis adalah definisi distribusi bersyarat, itu tidak khusus untuk distribusi binormal. Pernyataan selanjutnya "maka dalam urutan ..." tidak memberikan alasan: persis mengapa distribusi bersyarat juga harus normal?
whuber
Whuber, saya menjawab pertanyaan utama: "Saya ingin tahu apakah mungkin ada kasus di mana probabilitas gabungan dari dua Gaussians bukan Gaussian?". Jadi, jawabannya adalah: ketika kondisi tidak normal. - Ancillary
tambahan
2
Bisakah Anda menyelesaikan demonstrasi itu? Saat ini hanya pernyataan dari Anda, tanpa bukti. Sama sekali tidak jelas bahwa itu benar. Ini juga tidak lengkap, karena Anda perlu membangun keberadaan: yaitu, Anda harus menunjukkan bahwa distribusi bersama sebenarnya mungkin memiliki marjinal normal tetapi yang setidaknya satu kondisional tidak normal. Sekarang sebenarnya itu sepele, karena Anda dapat dengan bebas mengubah setiap distribusi kondisional dari binormal pada serangkaian ukuran nol tanpa mengubah marjinalnya - tetapi kemungkinan itu tampaknya akan bertentangan dengan pernyataan Anda.
whuber
Hai @whuber, saya harap ini lebih membantu. Apakah Anda memiliki saran atau suntingan untuk dilakukan? Saya menulis ini dengan sangat cepat karena saat ini saya tidak punya banyak waktu luang :-) tapi saya akan menghargai saran atau perbaikan yang dapat Anda lakukan. Terbaik
tambahan
(1) Apa yang Anda coba buktikan? (2) Karena pertanyaannya muncul ketika distribusi dengan marginal Gaussian tidak bersama - sama Gaussian, saya tidak melihat bagaimana argumen ini mengarah pada sesuatu yang relevan.
whuber