Dalam bab 9 buku Pengenalan pola dan pembelajaran mesin, ada bagian ini tentang model campuran Gaussian:
Sejujurnya saya tidak begitu mengerti mengapa ini akan menciptakan singularitas. Adakah yang bisa menjelaskan hal ini kepada saya? Maaf, saya hanya sarjana dan pemula dalam pembelajaran mesin, jadi pertanyaan saya mungkin terdengar sedikit konyol, tapi tolong bantu saya. Terima kasih banyak
gaussian-mixture
Dang Manh Truong
sumber
sumber
Jawaban:
Jika kita ingin mencocokkan Gaussian ke satu titik data menggunakan kemungkinan maksimum, kita akan mendapatkan Gaussian yang sangat runcing yang "runtuh" ke titik itu. Variansnya nol ketika hanya ada satu titik, yang dalam kasus multi-variate Gaussian, mengarah ke matriks kovarians singular, sehingga disebut masalah singularitas.
Ketika varians menjadi nol, kemungkinan komponen Gaussian (rumus 9.15) berubah hingga tak terbatas dan model menjadi terlalu pas. Ini tidak terjadi ketika kami hanya memasukkan satu Gaussian ke sejumlah poin karena variansnya tidak boleh nol. Tapi itu bisa terjadi ketika kita memiliki campuran Gaussians, seperti diilustrasikan pada halaman PRML yang sama.
Pembaruan :
Buku ini menyarankan dua metode untuk mengatasi masalah singularitas, yaitu
1) mengatur ulang mean dan varians ketika singularitas terjadi
2) menggunakan MAP, bukan MLE dengan menambahkan sebelumnya.
sumber
Saya juga agak bingung dengan bagian ini, dan inilah interpretasi saya. Ambil case 1D untuk kesederhanaan.
Ketika satu Gaussian "runtuh" pada titik data , yaitu, μ = x i , kemungkinan keseluruhan menjadi:xi μ=xi
Anda melihat sebagai , istilah di p kiri ( x i ) → ∞ , yang seperti kasus patologis dalam GMM, tetapi istilah di sebelah kanan, yang merupakan kemungkinan titik data lainnya p ( x ∖ i ) , masih mengandung istilah seperti eσ→0 p(xi)→∞ p(x∖i) yang→0secara eksponensial secepatσ→0, sehingga efek keseluruhan pada kemungkinannya adalah nol.e−(xn−μ)22σ2 →0 σ→0
Poin utama di sini adalah bahwa ketika memasang Gaussian tunggal, semua titik data harus berbagi satu set parameter , tidak seperti dalam kasus campuran di mana satu komponen dapat "fokus" pada satu titik data tanpa penalti terhadap kemungkinan data keseluruhan .μ,σ
sumber
Jawaban ini akan memberikan wawasan tentang apa yang terjadi yang mengarah ke matriks kovarian singular selama pemasangan GMM ke dataset, mengapa ini terjadi serta apa yang bisa kita lakukan untuk mencegahnya.
Oleh karena itu, sebaiknya kita mulai dengan merekapitulasi langkah-langkah selama pemasangan Model Campuran Gaussian ke dataset.
0. Tentukan berapa banyak sumber / kluster (c) yang Anda inginkan agar sesuai dengan data Anda
1. Inisialisasi parameter berarti
di manaN(x|μ,Σ)menjelaskan mulitvariate Gaussian dengan: N(xi,μc,Σc)=1
ricmemberi kita untuk setiap datapointxiukuran:Probabilitythatxibelongstoclas
Untuk setiap cluster c: Hitung total berat
Harap diingat bahwa Anda harus menggunakan cara yang diperbarui dalam formula terakhir ini. Ulangi langkah E dan M secara berulang sampai fungsi log-likelihood dari model kami bertemu di mana log likelihood dihitung dengan: lnp(X|π,μ,Σ)=Σ N i = 1 ln(Σ K
Akibatnya seperti yang disebutkan di atas, ini adalah matriks tunggal dan akan menyebabkan kesalahan selama perhitungan gaussian multivariat. Jadi bagaimana kita bisa mencegah situasi seperti itu. Nah, kita telah melihat bahwa matriks kovarians adalah singular jika itu adalah
sumber
Imho, semua jawaban ketinggalan fakta mendasar. Jika seseorang melihat ruang parameter untuk model campuran Gaussian, ruang ini tunggal di sepanjang subruang di mana ada kurang dari jumlah penuh komponen dalam campuran. Itu berarti bahwa turunannya secara otomatis nol dan biasanya seluruh subruang akan muncul sebagai mle. Secara lebih filosofis, subruang dari kovarian pangkat kurang dari adalah batas ruang parameter dan seseorang harus selalu curiga ketika mle terjadi pada batas-biasanya menunjukkan bahwa ada ruang parameter lebih besar yang bersembunyi di mana orang dapat menemukan 'nyata' mle. Ada sebuah buku yang disebut "Statistik Aljabar" oleh Drton, Sturmfeld, dan Sullivant. Masalah ini dibahas dalam buku itu secara terperinci. Jika Anda benar-benar penasaran, Anda harus melihatnya.
sumber
Untuk Gaussian tunggal, nilai rata-rata mungkin sama dengan salah satu poin data (xn misalnya) dan kemudian ada istilah berikut dalam fungsi kemungkinan:
Namun untuk titik dataxm berbeda dengan rerata σj , kami akan memiliki
sumber