Divergensi Jensen-Shannon untuk distribusi normal bivariat

8

Diberi dua distribusi normal bivariat $P \equiv \mathcal{N}(\mu_p, \Sigma_p)$ dan $Q \equiv \mathcal{N}(\mu_q, \Sigma_q)$ , Saya mencoba menghitung perbedaan Jensen-Shannon di antara mereka, didefinisikan (untuk kasus diskrit) sebagai: $JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))$ di mana adalah divergensi Kullback-Leibler, dan Saya telah menemukan cara untuk menghitung dalam hal parameter distribusi, dan dengan demikian . $KLD$ $M=\frac{1}{2}(P+Q)$
$KLD$ $JSD$

Keraguan saya adalah:

Untuk menghitung $M$ , saya baru saja melakukan $M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))$ . Apakah ini benar?
Saya telah membaca di [ 1 ] bahwa $JSD$ dibatasi, tetapi itu tampaknya tidak benar ketika saya menghitungnya seperti yang dijelaskan di atas untuk distribusi normal. Apakah itu berarti saya salah menghitung, melanggar asumsi, atau hal lain yang tidak saya mengerti?

normal-distribution distance-functions information-theory jorges
sumber

8

Ukuran titik tengah adalah distribusi campuran dari dua normals multivarian, sehingga tidak memiliki bentuk yang Anda berikan di pos asli. Biarkan menjadi fungsi kerapatan probabilitas dari vektor acak dan menjadi pdf dari . Maka pdf dari ukuran titik tengah adalah $\newcommand{\bx}{\mathbf{x}} \newcommand{\KL}{\mathrm{KL}}M$ $\varphi_p(\bx)$ $\mathcal{N}(\mu_p, \Sigma_p)$ $\varphi_q(\bx)$ $\mathcal{N}(\mu_q, \Sigma_q)$

φ_{m} (x) = \frac{1}{2} φ_{p} (x) + \frac{1}{2} φ_{q} (x) .

$\varphi_m(\bx) = \frac{1}{2} \varphi_p(\bx) + \frac{1}{2} \varphi_q(\bx) \> .$

Divergensi Jensen-Shannon adalah di mana menunjukkan (diferensial) entropi yang sesuai dengan ukuran .

J S D = \frac{1}{2} (K L (P ‖ M) + K L (Q ‖ M)) = h (M) - \frac{1}{2} (h (P) + h (Q)),

$\mathrm{JSD} = \frac{1}{2} (\KL(P\,\|M)+ \KL(Q\|M)) = h(M) - \frac{1}{2} (h(P) + h(Q)) \>,$

h (P)

$h(P)$

P

$P$

Dengan demikian, perhitungan Anda berkurang untuk menghitung entropi diferensial. Untuk multivarian normal , jawabannya dikenal sebagai dan buktinya dapat ditemukan di sejumlah sumber, misalnya, Cover dan Thomas (1991), hlm. 230-231. Perlu ditunjukkan bahwa entropi dari suatu multivariat normal adalah invarian terhadap mean, seperti yang ditunjukkan oleh ungkapan di atas. Namun, ini hampir pasti tidak terbawa ke kasus campuran normal. (Pikirkan tentang memilih satu normal luas berpusat pada nol dan normal terkonsentrasi lain di mana yang terakhir didorong jauh dari asal.) $\mathcal{N}(\mu, \Sigma)$

\frac{1}{2} \log_{2} ((2 π e)^{n} | Σ |)

$\frac{1}{2} \log_2\big((2\pi e)^n |\Sigma|\big)$

Untuk ukuran titik tengah, segalanya tampak lebih rumit. Yang saya tahu, tidak ada ekspresi bentuk-tertutup untuk entropi diferensial . Pencarian di Google menghasilkan beberapa klik potensial, tetapi yang teratas tampaknya tidak memberikan formulir tertutup dalam kasus umum. Anda mungkin terjebak dengan perkiraan jumlah ini dalam beberapa cara. $h(M)$

Perhatikan juga bahwa kertas yang Anda rujuk tidak membatasi perlakuan hanya pada distribusi diskrit. Mereka memperlakukan kasus secara umum sehingga masalah Anda termasuk dalam kerangka kerja mereka. Lihat bagian tengah kolom dua di halaman 1859. Di sinilah juga ditunjukkan bahwa divergensi dibatasi. Ini berlaku untuk kasus dua langkah umum dan tidak terbatas pada kasus dua distribusi diskrit.

Divergensi Jensen-Shannon telah muncul beberapa kali baru-baru ini dalam pertanyaan lain di situs ini. Lihat di sini dan di sini .

Tambahan : Perhatikan bahwa campuran normals tidak sama dengan kombinasi linear normals. Cara paling sederhana untuk melihat ini adalah dengan mempertimbangkan kasus satu dimensi. Biarkan dan dan biarkan mereka independen satu sama lain. Kemudian campuran dari dua normals menggunakan bobot untuk memiliki distribusi $X_1 \sim \mathcal{N}(-\mu, 1)$ $X_2 \sim \mathcal{N}(\mu, 1)$ $(\alpha, 1-\alpha)$ $\alpha \in (0,1)$

φ_{m} (x) = α \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x + μ)^{2}}{2}} + (1 - α) \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2}} .

$\varphi_m(x) = \alpha \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x+\mu)^2}{2}} + (1-\alpha) \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2}} \> .$

Distribusi dari kombinasi linear dari dan menggunakan bobot yang sama seperti sebelumnya adalah, melalui stabil properti dari distribusi normal adalah mana . $X_1$ $X_2$

φ_{ℓ} (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - (1 - 2 α) μ)^{2}}{2 σ^{2}}},

$\varphi_{\ell}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-(1-2\alpha)\mu)^2}{2\sigma^2}} \>,$

σ^{2} = α^{2} + (1 - α)^{2}

$\sigma^2 = \alpha^2 + (1-\alpha)^2$

Kedua distribusi ini sangat berbeda, meskipun mereka memiliki rata-rata yang sama. Ini bukan kecelakaan dan mengikuti dari linearitas harapan.

Untuk memahami distribusi campuran, bayangkan Anda harus pergi ke konsultan statistik sehingga dia bisa menghasilkan nilai dari distribusi ini untuk Anda. Dia memegang satu realisasi di satu telapak tangan dan satu realisasi di telapak lainnya (meskipun Anda tidak tahu di mana dari kedua telapak tangan masing-masing). Sekarang, asistennya membalik koin bias dengan probabilitas keluar dari pandangan Anda dan kemudian datang dan membisikkan hasilnya ke telinga ahli statistik. Dia membuka salah satu telapak tangannya dan menunjukkan realisasinya, tetapi tidak memberi tahu Anda hasil dari flip koin. Proses ini menghasilkan distribusi campuran. $X_1$ $X_2$ $\alpha$

Di sisi lain, kombinasi linear dapat dipahami dalam konteks yang sama. Konsultan statistik hanya mengambil realisasi, mengalikan yang pertama dengan dan yang kedua dengan , menambahkan hasilnya dan menunjukkannya kepada Anda. $\alpha$ $(1-\alpha)$

kardinal
sumber

Terima kasih atas jawaban anda. Jadi, masalah saya terletak pada (bagaimana saya menghitung) distribusi titik tengah. Maafkan ketidaktahuan saya jika saya mengajukan pertanyaan yang jelas, tetapi bagaimana distribusi titik tengah berbeda dengan jumlah variabel acak yang didistribusikan secara normal ? Apakah itu karena kita berada dalam kasus bi-variate?

jorges

2

@ jorges Jumlahnya akan normal dan karena itu simetris tentang satu mode. Ketika dua cara terpisah cukup jauh (dibandingkan dengan SD mereka), distribusi campuran adalah bimodal . Dalam keadaan tidak ada campuran normal kecuali dalam kasus degenerasi (sarana yang sama dan SD yang sama). Ini juga terlihat dari rumus untuk : rata-rata eksponensial ini tidak dapat ditulis sebagai eksponensial dari bentuk kuadratik.

φ_{m}

$\varphi_m$

Whuber

@whuber dan kardinal: Walaupun secara intuitif saya mengerti apa yang Anda katakan, saya tampaknya memiliki masalah serius dengan konsep. Saya bukan benar-benar ahli statistik, dan saya pikir saya mencampur "jumlah variabel acak" dengan "distribusi campuran". Saya tidak benar-benar mempermasalahkan apa yang Anda dan kardinal merespons, tetapi mencoba memahami perbedaan dan kapan menggunakannya, karena saya mungkin membuat kesalahan serupa di tempat lain. Saya akan kembali untuk membaca dan melihat apakah saya dapat menjernihkan diri. Terima kasih atas jawaban anda

jorges

2

Jawaban kardinal benar. Anda mencoba untuk mendapatkan solusi bentuk tertutup untuk divergensi dua Gaussians Jensen-Shannon; tidak ada solusi semacam itu.

Namun, Anda dapat menghitung Jensen-Shannon dengan presisi sewenang-wenang dengan menggunakan Monte Carlo sampling. Yang Anda butuhkan adalah cara untuk menghitung , dan dengan ekstensi . Divergensi Kullback-Leibler didefinisikan sebagai: $KLD(P|M)$ $KLD(Q|M)$

K L D (P | M) = \int P (x) l o g (\frac{P (x)}{M (x)}) d x

$KLD(P|M) = \int P(x) log\big(\frac{P(x)}{M(x)}\big) dx$

Perkiraan Monte Carlo untuk hal ini adalah:

K L D_{a p p r o x} (P | M) = \frac{1}{n} \sum_{i}^{n} l o g (\frac{P (x_{i})}{M (x_{i})})

$KLD_{approx}(P|M) = \frac{1}{n} \sum^n_i log\big(\frac{P(x_i)}{M(x_i)}\big)$

di mana telah diambil sampelnya dari , yang mudah karena merupakan Gaussian dalam kasus Anda. Sebagai , . dapat dihitung sebagai . $x_i$ $P(x)$ $n \to \infty$ $KLD_{approx}(P|M) \to KLD(P|M)$ $M(x_i)$ $M(x_i) = \frac{1}{2}P(x_i) + \frac{1}{2}Q(x_i)$

FrankD
sumber

HI @ FrankD - Saya mencoba menerapkan saran Anda di sini: stats.stackexchange.com/questions/345915/... meskipun saya tidak berpikir itu yang Anda maksud. Pointer dipersilahkan.

Astrid

Divergensi Jensen-Shannon untuk distribusi normal bivariat

Jawaban: