Turunkan distribusi bersyarat dari distribusi normal multivariat

114

Kami memiliki vektor normal multivariat . Pertimbangkan mempartisi \ boldsymbol \ mu dan {\ boldsymbol Y} menjadi \ boldsymbol \ mu = \ begin {bmatrix} \ boldsymbol \ mu_1 \\ \ boldsymbol \ mu_2 \ end {bmatrix} {\ boldsymbol Y} = \ begin {bmatrix} { \ boldsymbol y} _1 \\ {\ boldsymbol y} _2 \ end {bmatrix}YN(μ,Σ)μY

μ=[μ1μ2]
Y=[y1y2]

dengan partisi yang sama dari Σ ke

[Σ11Σ12Σ21Σ22]
Kemudian, (y1|y2=a) , distribusi kondisional dari partisi pertama yang diberikan kedua, adalah N(μ¯,Σ¯) , dengan mean
μ¯=μ1+Σ12Σ221(aμ2)
dan matriks kovarians
Σ¯=Σ11Σ12Σ221Σ21

Sebenarnya hasil ini disediakan di Wikipedia juga, tetapi saya tidak tahu bagaimana μ¯ dan Σ¯ diturunkan. Hasil ini sangat penting, karena merupakan formula statistik penting untuk memperoleh filter Kalman . Adakah yang bisa memberi saya langkah derivasi untuk memperoleh μ¯ dan Σ¯ ? Terima kasih banyak!

Babi terbang
sumber
24
Idenya adalah menggunakan definisi kepadatan bersyarat . Anda tahu bahwa gabungan adalah normal bivariat dan marginal adalah normal maka Anda hanya perlu mengganti nilai dan melakukan aljabar yang tidak menyenangkan. Catatan ini mungkin bisa membantu. Ini bukti lengkapnya. fY1,Y2fY2f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2
1
Tautan kedua Anda menjawab pertanyaan (+1). Mengapa tidak menjawabnya sebagai @Procrastinator?
gui11aume
1
Saya belum menyadarinya, tapi saya pikir saya secara implisit menggunakan persamaan ini dalam PCA bersyarat. PCA bersyarat membutuhkan transformasi yang secara efektif menghitung matriks kovarians bersyarat yang diberikan beberapa pilihan A.(IA(AA)1A)Σ
Yohanes
@Procrastinator - pendekatan Anda sebenarnya membutuhkan pengetahuan tentang identitas matriks Woodbury, dan pengetahuan tentang pembalikan matriks blok-bijaksana. Ini menghasilkan aljabar matriks rumit yang tidak perlu.
probabilityislogic
2
@probabilityislogic Sebenarnya hasilnya terbukti di tautan yang saya berikan. Tapi itu terhormat jika Anda merasa lebih rumit daripada metode lain. Selain itu, saya tidak berusaha memberikan solusi optimal dalam komentar saya . Juga, komentar saya sebelumnya untuk jawaban Makro (yang saya pilih seperti yang Anda lihat).

Jawaban:

111

Anda dapat membuktikannya dengan secara eksplisit menghitung kepadatan bersyarat dengan kekuatan kasar, seperti pada tautan Procrastinator (+1) di komentar. Tetapi, ada juga teorema yang mengatakan bahwa semua distribusi bersyarat dari distribusi normal multivariat adalah normal. Karena itu, yang tersisa hanyalah menghitung vektor rata-rata dan matriks kovarian. Saya ingat kami menurunkan ini dalam kelas deret waktu di perguruan tinggi dengan secara cerdik mendefinisikan variabel ketiga dan menggunakan propertinya untuk memperoleh hasil lebih sederhana daripada solusi brute force dalam tautan (selama Anda merasa nyaman dengan aljabar matriks). Saya pergi dari memori tetapi itu adalah sesuatu seperti ini:


Biarkan menjadi partisi pertama dan yang kedua. Sekarang tentukan mana . Sekarang kita bisa menulisx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Karena itu dan tidak berkorelasi dan, karena keduanya secara normal normal, keduanya independen . Sekarang, jelas , oleh karena itu ia mengikuti bahwazx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

yang membuktikan bagian pertama. Untuk matriks kovarians, perhatikan itu

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Sekarang kita hampir selesai:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

yang membuktikan bagian kedua.

Catatan: Bagi mereka yang tidak terlalu mengenal aljabar matriks yang digunakan di sini, ini adalah sumber yang bagus .

Sunting: Satu properti yang digunakan di sini ini tidak ada dalam buku masak matriks (tangkapan bagus @FlyingPig) adalah properti 6 di halaman wikipedia tentang matriks kovarians: yaitu untuk dua vektor acak , Untuk skalar, tentu saja, tetapi untuk vektor mereka berbeda sejauh matriks disusun secara berbeda.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)
Makro
sumber
Terima kasih untuk metode brilian ini! Ada satu aljabar matriks yang sepertinya tidak saya kenal, di mana saya bisa menemukan rumus untuk membuka ? Saya belum menemukannya di tautan yang Anda kirim. var(x1+Ax2)
Babi terbang
@Flyingpig, sama-sama. Saya percaya ini adalah hasil dari persamaan , dikombinasikan dengan properti tambahan dari varian jumlah vektor acak yang tidak ditulis dalam Matrix Cookbook - Saya telah menambahkan fakta ini ke jawaban saya - terima kasih telah menangkap bahwa! (291),(292)
Makro
13
Ini adalah jawaban yang sangat bagus (+1), tetapi dapat ditingkatkan dalam hal pemesanan pendekatan. Kita mulai dengan mengatakan kita menginginkan kombinasi linear dari seluruh vektor yang independen / tidak berkorelasi dengan . Ini karena kita dapat menggunakan fakta bahwa yang berarti dan . Ini pada gilirannya mengarah ke ekspresi untuk dan . Ini berarti kita harus mengambil . Sekarang kita membutuhkan . Jika tidak dapat dibalik maka kita milikiz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
probabilityislogic
1
@jakeoung - ini tidak membuktikan bahwa , itu menyetelnya ke nilai ini, sehingga kami mendapatkan ekspresi yang berisi variabel yang ingin kami ketahui. C1=I
probabilityislogic
1
@ Jayake Saya juga tidak mengerti pernyataan itu. Saya mengerti dengan cara ini: Jika , maka . Jadi nilai entah bagaimana merupakan skala arbitrer. Jadi kami menetapkan untuk kesederhanaan. cov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Ken T
6

Jawaban Macro sangat bagus, tetapi di sini ada cara yang bahkan lebih sederhana yang tidak mengharuskan Anda untuk menggunakan teorema luar yang menyatakan distribusi bersyarat. Ini melibatkan penulisan jarak Mahanalobis dalam bentuk yang memisahkan variabel argumen untuk pernyataan pengkondisian, dan kemudian memfaktorkan kepadatan normal sesuai.


Menulis ulang jarak Mahanalobis untuk vektor bersyarat: Derivasi ini menggunakan rumus inversi matriks yang menggunakan komplemen Schur . Kami pertama-tama menggunakan rumus inversi blockwise untuk menulis matriks invers-variance sebagai:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

dimana:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Menggunakan rumus ini sekarang kita dapat menulis jarak Mahanalobis sebagai:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

dimana:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Perhatikan bahwa hasil ini adalah hasil umum yang tidak menganggap normalitas vektor acak. Ini memberikan cara yang berguna untuk membingkai ulang jarak Mahanalobis sehingga merupakan bentuk kuadrat sehubungan dengan hanya satu vektor dalam dekomposisi (dengan yang lain diserap ke dalam vektor rata-rata dan matriks varian).


Turunkan distribusi bersyarat: Sekarang kita memiliki bentuk di atas untuk jarak Mahanalobis, sisanya mudah. Kita punya:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Ini menetapkan bahwa distribusi kondisional juga multivariat normal, dengan vektor mean kondisional yang ditentukan dan matriks varians kondisional.

Ben
sumber