Estimator Kemungkinan Maksimum - Gaussian Multivarian

20

Konteks

Multivariate Gaussian sering muncul dalam Pembelajaran Mesin dan hasil berikut digunakan di banyak buku dan kursus ML tanpa derivasi.

Data yang diberikan dalam bentuk matriks X dimensi m×p , jika kita mengasumsikan bahwa data mengikuti distribusi Gaussian p variatif dengan rata-rata parameter μ ( p×1 ) dan matriks kovarian Σ ( p×p ) Estimator Kemungkinan Maksimum adalah diberikan oleh:

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Saya memahami bahwa pengetahuan tentang Gaussian multivarian merupakan prasyarat untuk banyak program ML, tetapi akan sangat membantu untuk memiliki derivasi lengkap dalam jawaban yang lengkap sekali dan untuk semua karena saya merasa banyak pelajar mandiri memantul di sekitar statistik. stackexchange dan situs web math.stackexchange mencari jawaban.


Pertanyaan

Berapakah derivasi penuh Estimator Kemungkinan Maksimum untuk Gaussian multivarian


Contoh:

Catatan kuliah ini (halaman 11) tentang Analisis Diskriminan Linier, atau yang ini memanfaatkan hasil dan mengasumsikan pengetahuan sebelumnya.

Ada juga beberapa posting yang sebagian dijawab atau ditutup:

Xavier Bourret Sicotte
sumber

Jawaban:

24

Memperoleh Estimator Kemungkinan Maksimum

Asumsikan bahwa kita memiliki vektor acak, masing-masing ukuran p : X ( 1 ) , X ( 2 ) , . . . , X ( m ) di mana setiap vektor acak dapat diartikan sebagai pengamatan (titik data) di seluruh variabel p . Jika setiap X ( i ) iid sebagai vektor Gaussian multivarian:mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Di mana parameter tidak diketahui. Untuk mendapatkan estimasi mereka, kita dapat menggunakan metode kemungkinan maksimum dan memaksimalkan fungsi kemungkinan log.μ,Σ

Perhatikan bahwa dengan kemerdekaan vektor acak, kepadatan gabungan dari data adalah produk dari kepadatan individu, yaitu m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ) . Mengambil logaritma memberikan fungsi log-likelihood{X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

berasal μμ^

Untuk mengambil turunan sehubungan dengan dan menyamakan dengan nol, kami akan menggunakan identitas kalkulus matriks berikut:μ

jikaw tidak bergantung padaAdanAadalah simetris.wTAww=2AwwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Yang sering disebut sampel mean vector.

berasal ΣΣ^

Turunkan MLE untuk matriks kovarians membutuhkan lebih banyak pekerjaan dan penggunaan aljabar linear dan properti kalkulus berikut:

  • Jejak tidak berubah di bawah permutasi siklik dari produk matriks: tr[ACB]=tr[CAB]=tr[BCA]
  • Karena adalah skalar, kita dapat mengambil jejaknya dan mendapatkan nilai yang sama: x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

Menggabungkan sifat-sifat ini memungkinkan kita untuk menghitung

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Yang merupakan produk luar dari vektor dengan dirinya sendiri.x

Kita sekarang dapat menulis kembali fungsi log-likelihood dan menghitung turunan wrt (catatan C konstan)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Menyamakan dengan nol dan menyelesaikan untuk Σ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Sumber

Xavier Bourret Sicotte
sumber
Bukti alternatif, bentuk yang lebih ringkas, atau interpretasi intuitif dipersilakan!
Xavier Bourret Sicotte
Dalam derivasi untuk , mengapa Σ harus positif pasti? Apakah itu cukup terlihat bahwa Σ dibalik? Untuk matriks A yang dapat dibalik , A x = 0 hanya ketika x = 0 ? μΣΣAAx=0x=0
Tom Bennett
Untuk memperjelas, adalah m × m matriks yang mungkin memiliki diagonal terbatas dan komponen non-diagonal menunjukkan korelasi antara vektor, yang benar? Jika itu masalahnya, dalam arti apa vektor-vektor ini independen? Juga, mengapa fungsi probabilitas gabungan sama dengan kemungkinan? Bukankah kepadatan bersama, f ( x , y ) , harus sama dengan kemungkinan dikalikan dengan yang sebelumnya, yaitu f ( x | y ) f ( y ) ? Σm×mf(x,y)f(x|y)f(y)
Mathews24
1
@ TomBennett, matriks sigma adalah definitif positif berdasarkan definisi - lihat stats.stackexchange.com/questions/52976/... untuk buktinya. Identitas kalkulus matriks membutuhkan matriks untuk menjadi simetris, bukan pasti positif. Tetapi karena matriks positif pasti selalu simetris yang berfungsi
Xavier Bourret Sicotte
1
Ya memang - independensi antar pengamatan memungkinkan untuk mendapatkan kemungkinan - kata-katanya mungkin cukup jelas - ini adalah versi multivariat dari kemungkinan tersebut. Sebelumnya masih tidak relevan terlepas
Xavier Bourret Sicotte
5

Σ^Σ

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Σ^=1mSμ.

Λ=Σ1/Σ1/Σ

Eric Kightley
sumber