Mendapat algoritma K-means sebagai batas Maksimalisasi Ekspektasi untuk Campuran Gaussian

Christopher Bishop mendefinisikan nilai yang diharapkan dari fungsi kemungkinan log data lengkap (yaitu dengan asumsi bahwa kita diberikan data yang dapat diamati X serta data laten Z) sebagai berikut:

\begin{matrix} (1) & E_{Z} [\ln p (X, Z ∣ μ, Σ, π)] = \sum_{n = 1}^{N} \sum_{k = 1}^{K} γ (z_{n k}) {\ln π_{k} + \ln N (x_{n} ∣ μ_{k}, Σ_{k})} \end{matrix}

$\mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1$

di mana didefinisikan sebagai: $\gamma(z_{nk})$

\begin{matrix} (2) & \frac{π_{k} N (x_{n} ∣ μ_{k}, Σ_{k})}{\sum_{j = 1}^{K} π_{j} N (x_{n} ∣ μ_{j}, Σ_{j})} \end{matrix}

$\frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2$

Idenya, seperti dijelaskan, adalah untuk mempertimbangkan Gaussian Mixture Model di mana matriks kovarians dari komponen campuran diberikan oleh $\epsilon \textbf{I}$ , di mana $\epsilon$ adalah parameter varians yang dibagi oleh semua komponen, seperti bahwa:

\begin{matrix} (3) & p (x ∣ μ_{k}, Σ_{k}) = \frac{1}{(2 π ϵ)^{\frac{M}{2}}} \exp {- \frac{1}{2 ϵ} ‖ x - μ_{k} ‖^{2}} \end{matrix}

$p(\textbf x \mid \boldsymbol \mu_k, \boldsymbol \Sigma_k) = \frac{1}{(2 \pi \epsilon)^\frac{M}{2}} \exp\big\{{-\frac{1}{2 \epsilon} \|\textbf x - \boldsymbol \mu_k\|^2}\big\} \tag 3$

dan karenanya, $\gamma(z_{nk})$ sekarang didefinisikan sebagai:

\begin{matrix} (4) & \frac{π_{k} \exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- ‖ x_{n} - μ_{j} ‖^{2} / 2 ϵ}} \end{matrix}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}} \tag 4$

The Argumen sekarang adalah sebagai berikut:

jika kita mempertimbangkan batas , kita melihat bahwa dalam penyebut istilah untuk adalah yang terkecil, akan menjadi nol paling lambat, dan karenanya tanggung jawab untuk titik data semua pergi ke nol kecuali untuk istilah j, di mana tanggung jawab akan disatukan. Dengan demikian, dalam batas ini, kami memperoleh penugasan yang sulit dari titik data ke cluster, seperti pada algoritma berarti, sehingga $\epsilon \to 0$ $\| \textbf x_n - \boldsymbol \mu_j\|^2$ $\gamma(z_{nk})$ $\textbf x_n$ $\gamma(z_{nk})$ $K$ $\gamma(z_{nk}) \to r_{nk}$

di mana didefinisikan sebagai: $r_{nk}$

\begin{matrix} (5) & f (n) = {\begin{cases} 1 & if k = arg {min}_{j} ‖ x_{n} - μ_{j} ‖^{2} \\ 0 & otherwise \end{cases} \end{matrix}

$\begin{equation*} f(n) = \begin{cases} 1 & \text{if } k = \text{arg } \text{min}_j \|\textbf x_n - \boldsymbol \mu_j\|^2\\ 0 & \text{otherwise}\\ \tag 5 \end{cases} \end{equation*}$

Pertanyaan saya adalah bagaimana argumen di atas berlaku? Yaitu, apa artinya suatu istilah untuk menjadi nol ? Dan bagaimana cara mengambil batas di eqn menghasilkan tanggung jawab biner? $\textbf{most slowly}$ $\epsilon \to 0$ $4$

self-study maximum-likelihood expected-value convergence expectation-maximization BitRiver
sumber

Ketika menjadi nol, beralih ke nol untuk semua tetapi pada kecepatan yang berbeda tergantung pada , yang terkecil lalu kumpulkan seluruh berat dalam batas.

ϵ

$\epsilon$

\exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ} = \exp {- δ_{n} / ϵ}

$\exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}=\exp\{-\delta_n/\epsilon\}$

n

$n$

δ_{n}

$\delta_n$

δ_{n}

$\delta_n$

Xi'an

(penjelasan lebih lanjut) Jika Anda menggunakan sebagai yang terkecil , Anda dapat menulis ulang semua istilah sebagai , yang berarti semua istilah menjadi nol dengan kecuali satu, yang .

δ^{*}

$\delta^*$

δ_{n}

$\delta_n$

\exp {(δ^{*} - δ_{n}) / ϵ}

$\exp\{(\delta^*-\delta_n)/\epsilon\}$

ϵ

$\epsilon$

δ^{*} - δ_{n} = 0

$\delta^*-\delta_n=0$

Xi'an

@ Xi'an Apakah Anda ingin memberikan lebih banyak elaborasi? Apa maksud Anda "terkecil lalu kumpulkan seluruh berat dalam batas"? Dan bagaimana istilah yang = 0 dievaluasi menjadi satu? Maksudku, pembilangnya 0, kan?

δ_{n}

$\delta_n$

δ^{*} - δ_{n}

$\delta^* - \delta_n$

BitRiver

Mari kita menulis Kemudian Jika kita menggunakan kita memiliki mana kecuali untuk mana

‖ x_{n} - μ_{k} ‖^{2} = δ_{k} .

$\|\textbf x_n - \boldsymbol \mu_k\|^2=\delta_k\,.$

\frac{π_{k} \exp {- ‖ x_{n} - μ_{k} ‖^{2} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- ‖ x_{n} - μ_{j} ‖^{2} / 2 ϵ}} = \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}}

$\frac{\pi_k \exp\{ - \| \textbf x_n - \boldsymbol \mu_k\|^2 / 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \| \textbf x_n - \boldsymbol \mu_j\|^2 / 2 \epsilon\}}=\frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}$

δ^{*} = min_{n} δ_{n},

$\delta^*=\min_n\delta_n\,,$

\begin{aligned} \frac{π_{k} \exp {- δ_{k} / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {- δ_{j} / 2 ϵ}} & = \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} \end{aligned}

$\begin{align*} \frac{\pi_k \exp\{ - \delta_k/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{ - \delta_j/ 2 \epsilon\}}&=\frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}} \end{align*}$

δ^{*} - δ_{k} < 0

$\delta^*-\delta_k<0$

k = k^{*}

$k=k^*$

δ^{*} - δ_{k^{*}} = 0

$\delta^*-\delta_{k^*}=0$ . Jadi, untuk semua , sejak, untuk , sementara

k \neq k^{*}

$k\ne k^*$

lim_{ϵ \to 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0} \frac{π_{k} \exp {(δ^{*} - δ_{k}) / 2 ϵ}}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 0

$\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_k \exp\{(\delta^*- \delta_k)/ 2 \epsilon\}}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=0$

a > 0

$a>0$

lim_{ϵ \to 0} \exp {- a / ϵ} = 0

$\lim_{\epsilon\to 0}\exp\{-a/\epsilon \}=0$

lim_{ϵ \to 0} \frac{π_{k^{*}} \exp {(δ^{*} - δ_{k^{*}}) / 2 ϵ}}{\sum_{j = 1}^{K} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = lim_{ϵ \to 0} \frac{π_{k^{*}} \times 1}{π_{k^{*}} + \sum_{j \neq k^{*}} π_{j} \exp {(δ^{*} - δ_{j}) / 2 ϵ}} = 1

$\lim_{\epsilon\to 0} \frac{\pi_{k^*} \exp\{(\delta^*- \delta_{k^*})/ 2 \epsilon\}}{\sum_{j=1}^K \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=\lim_{\epsilon\to 0} \frac{\pi_{k^*} \times 1}{\pi_{k^*}+\sum_{j\ne k^*} \pi_j \exp\{(\delta^* - \delta_j)/ 2 \epsilon\}}=1$

Xi'an
sumber

Mendapat algoritma K-means sebagai batas Maksimalisasi Ekspektasi untuk Campuran Gaussian

Jawaban: