Bagaimana cara mengambil turunan dari kepadatan normal multivariat?

Katakanlah saya memiliki kepadatan multivarian normal . Saya ingin mendapatkan turunan kedua (parsial) wrt . Tidak yakin bagaimana cara mengambil turunan dari sebuah matriks. $N(\mu, \Sigma)$ $\mu$

Wiki mengatakan ambil elemen turunan dengan elemen di dalam matriks.

Saya bekerja dengan aproksimasi Laplace Mode adalah .

\log P_{N} (θ) = \log P_{N} - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ}) .

$\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.$

\hat{θ} = μ

$\hat\theta=\mu$

Saya diberi bagaimana ini bisa terjadi?

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log hal (\hat{θ} | y),

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),$

Apa yang telah saya lakukan:

\log P (θ | y) = - \frac{k}{2} \log 2 π - \frac{1}{2} \log | Σ | - \frac{1}{2} {(θ - \hat{θ})}^{T} Σ^{- 1} (θ - \hat{θ})

$\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta)$

Jadi, saya mengambil turunan wrt ke , pertama, ada transpos, kedua, itu adalah matriks. Jadi saya terjebak. $\theta$

Catatan: Jika profesor saya menemukan ini, saya merujuk pada kuliah.

self-study normal-distribution matrix pengguna1061210
sumber

bagian dari masalah Anda mungkin ekspresi Anda untuk log-kemungkinan memiliki kesalahan - Anda memiliki

di mana Anda harus memiliki

. Selain itu, apa pun maksud Anda

| Σ |

$|\Sigma|$

\log (| Σ |)

$\log(|\Sigma|)$

Σ^{- 1} = - \frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y)

${\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y)$

Makro

Ya kamu benar, maaf. Mengapa ada tanda negatif di depan turunan parsial?

user1061210

Saya hanya mengklarifikasi tentang tanda negatif karena, turunan kedua negatif adalah informasi nelayan yang diamati, yang biasanya menarik. Juga, dengan perhitungan saya sendiri, saya menemukan bahwa

\frac{\partial^{2}}{\partial θ^{2}} \log p (θ | y) = - Σ^{- 1}

$\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\theta|y) = -\Sigma^{-1}$

Makro

Jadi, bagaimana prosedur umum untuk fungsi diskrit / kontinu? Ambil log, tulis dalam bentuk ekspansi Taylor, bedakan dua kali wrt

. Info Fisher umumnya tidak benar pada kebanyakan kepadatan lainnya, bukan?

θ

$\theta$

user1061210

@user Seperti yang saya tunjukkan, turunan kedua dari logaritma harus memiliki nilai eigen yang tidak positif. Ya, ada hubungan antara varian dan turunan parsial negatif kedua, seperti yang diungkapkan teori estimasi kemungkinan maksimum, informasi Fisher, dll. - Makro telah merujuk hal itu sebelumnya dalam komentar ini.

whuber

Jawaban:

Dalam bab 2 dari Matrix Cookbook ada ulasan bagus tentang hal-hal kalkulus matriks yang memberikan banyak identitas berguna yang membantu dengan masalah yang akan dihadapi seseorang dalam melakukan probabilitas dan statistik, termasuk aturan untuk membantu membedakan kemungkinan multisariat Gaussian Gaussian.

Jika Anda memiliki vektor acak yang normal multivariat dengan vektor rata-rata dan matriks kovarian , maka gunakan persamaan (86) dalam buku masak matriks untuk menemukan bahwa gradien log kemungkinan log berkenaan dengan adalah ${\boldsymbol y}$ ${\boldsymbol \mu}$ ${\boldsymbol \Sigma}$ ${\bf L}$ ${\boldsymbol \mu}$

\begin{aligned} \frac{\partial L}{\partial μ} & = - \frac{1}{2} (\frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial μ}) \\ = - \frac{1}{2} (- 2 Σ^{- 1} (y - μ)) \\ = Σ^{- 1} (y - μ) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \mu}} &= -\frac{1}{2} \left( \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) }{\partial {\boldsymbol \mu}} \right) \nonumber \\ &= -\frac{1}{2} \left( -2 {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu}\right) \right) \nonumber \\ &= {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \end{align}$

Saya akan menyerahkan kepada Anda untuk membedakan ini lagi dan menemukan jawabannya adalah . $-{\boldsymbol \Sigma}^{-1}$

Sebagai "kredit ekstra", gunakan persamaan (57) dan (61) untuk menemukan bahwa gradien sehubungan dengan adalah ${\boldsymbol \Sigma}$

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (\frac{\partial \log (| Σ |)}{\partial Σ} + \frac{\partial {(y - μ)}^{'} Σ^{- 1} (y - μ)}{\partial Σ}) \\ = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( \frac{ \partial \log(|{\boldsymbol \Sigma}|)}{\partial{\boldsymbol \Sigma}} + \frac{\partial \left( {\boldsymbol y} - {\boldsymbol \mu}\right)' {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y}- {\boldsymbol \mu}\right) }{\partial {\boldsymbol \Sigma}} \right)\\ &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) \end{align}$

Saya telah meninggalkan banyak langkah, tetapi saya membuat derivasi ini hanya dengan menggunakan identitas yang ditemukan dalam buku masak matriks, jadi saya akan menyerahkan kepada Anda untuk mengisi kekosongan.

Saya telah menggunakan persamaan skor ini untuk estimasi kemungkinan maksimum, jadi saya tahu mereka benar :)

Makro
sumber

Referensi hebat - akan merekomendasikannya sendiri. Bukan referensi pedagogis yang baik untuk seseorang yang tidak tahu aljabar matriks. Tantangan sebenarnya datang dari benar-benar berolahraga

. Rasa sakit yang nyata.

Σ

$\Sigma$

probabilityislogic

Sumber bagus lain tentang matriks kalkulus adalah Magnus & Neudecker, amazon.com/...

StasK

Nomor referensi persamaan telah diubah (mungkin karena edisi baru). Persamaan referensi baru adalah 86.

goelakash

Saya mungkin tidak di sini, tetapi saya rasa formula ini tidak benar. Saya telah menggunakan ini dengan contoh nyata dan melihat perbedaan mereka yang terbatas. Tampaknya rumus untuk

memberikan nilai yang benar untuk entri diagonal. Namun, entri off-diagonal adalah setengah dari yang seharusnya.

\frac{\partial L}{\partial Σ}

$\frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}}$

jjet

Anda perlu memastikan bahwa Anda benar mengurus elemen diulang dalam , jika tidak, anda derivatif sedang akan salah. Sebagai contoh, (141) Matrix Cookbook memberikan simetris turunan berikut $\mathbf{\Sigma}$ $\mathbf{\Sigma}$

\begin{aligned} \frac{\partial \log | Σ |}{\partial Σ} & = 2 Σ^{- 1} - (Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \log|\mathbf{\Sigma}|}{\partial \mathbf{\Sigma}}&=2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) \end{align}$

Dan (14) Diferensiasi fungsi matriks kovarian memberikan

\begin{aligned} \frac{\partial trace (Σ^{- 1} x x^{⊤})}{\partial Σ} & = - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I) \end{aligned}

$\begin{align} \frac{\partial \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)}{\partial \mathbf{\Sigma}}&=-2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I) \end{align}$

where $\circ$ denotes the Hadmard product and for convenience we have defined $\mathbf{x}:=\mathbf{y}-\mathbf{\mu}$ .

Note in particular this is not the same as when symmetricity of $\mathbf{\Sigma}$ is not imposed. As a result we have that

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{\partial}{\partial Σ} \frac{1}{2} (D \log | 2 π | + \log | Σ | + x^{⊤} Σ^{- 1} x)) \\ = - \frac{\partial}{\partial Σ} \frac{1}{2} (\log | Σ | + trace (Σ^{- 1} x x^{⊤})) \\ = - \frac{1}{2} (2 Σ^{- 1} - (Σ^{- 1} \circ I) - 2 Σ^{- 1} x x^{⊤} Σ^{- 1} + (Σ^{- 1} x x^{⊤} Σ^{- 1} \circ I)) \end{aligned}

$\begin{align} \frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}&=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left(D\log|2\pi|+ \log|\mathbf{\Sigma}| + \mathbf{x}^{\top}\mathbf{\Sigma}^{-1}\mathbf{x})\right)\\ &=-\frac{\partial }{\partial \mathbf{\Sigma}}\frac{1}{2}\left( \log|\mathbf{\Sigma}| + \textrm{trace}(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top)\right)\\ &=-\frac{1}{2}\left( 2\mathbf{\Sigma}^{-1}-(\mathbf{\Sigma}^{-1}\circ I) -2\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}+(\mathbf{\Sigma}^{-1}\mathbf{x}\mathbf{x}^\top\mathbf{\Sigma}^{-1}\circ I)\right) \end{align}$

where $D$ denotes the dimension of $\mathbf{x}$ , $\mathbf{y}$ and $\mathbf{\mu}$ and the derivative of $D\log|2\pi|$ is 0

This ensures the $i,j^{th}$ element of $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}}$ corresponds to $\frac{\partial \mathbf{L}}{\partial \mathbf{\Sigma}_{ij}}$ .

Lawrence Middleton
sumber

I tried to computationally verify @Macro's answer but found what appears to be a minor error in the covariance solution. He obtained

\begin{aligned} \frac{\partial L}{\partial Σ} & = - \frac{1}{2} (Σ^{- 1} - Σ^{- 1} (y - μ) {(y - μ)}^{'} Σ^{- 1}) = A \end{aligned}

$\begin{align} \frac{ \partial {\bf L} }{ \partial {\boldsymbol \Sigma}} &= -\frac{1}{2} \left( {\boldsymbol \Sigma}^{-1} - {\boldsymbol \Sigma}^{-1} \left( {\boldsymbol y} - {\boldsymbol \mu} \right) \left( {\boldsymbol y} - {\boldsymbol \mu} \right)' {\boldsymbol \Sigma}^{-1} \right) ={\bf A} \end{align}$ However, it appears that the correct solution is actually

B = 2 A - diag (A)

${\bf B}=2{\bf A} - \text{diag}({\bf A})$ The following R script provides a simple example in which the finite difference is calculated for each element of

Σ

${\boldsymbol \Sigma}$ . It demonstrates that

A

${\bf A}$ provides the correct answer only for diagonal elements while

B

${\bf B}$ is correct for every entry.

library(mvtnorm)

set.seed(1)

# Generate some parameters
p <- 4
mu <- rnorm(p)
Sigma <- rWishart(1, p, diag(p))[, , 1]

# Generate an observation from the distribution as a reference point
x <- rmvnorm(1, mu, Sigma)[1, ]

# Calculate the density at x
f <- dmvnorm(x, mu, Sigma)

# Choose a sufficiently small step-size
h <- .00001

# Calculate the density at x at each shifted Sigma_ij
f.shift <- matrix(NA, p, p)
for(i in 1:p) {
  for(j in 1:p) {
    zero.one.mat <- matrix(0, p, p)
    zero.one.mat[i, j] <- 1
    zero.one.mat[j, i] <- 1

    Sigma.shift <- Sigma + h * zero.one.mat
    f.shift[i, j] <- dmvnorm(x, mu, Sigma.shift)
  }
}

# Caluclate the finite difference at each shifted Sigma_ij
fin.diff <- (f.shift - f) / h

# Calculate the solution proposed by @Macro and the true solution
A <- -1/2 * (solve(Sigma) - solve(Sigma) %*% (x - mu) %*% t(x - mu) %*% solve(Sigma))
B <- 2 * A - diag(diag(A))

# Verify that the true solution is approximately equal to the finite difference
fin.diff
A * f
B * f

jjet
sumber

Thank you for your comment. I believe you interpret the notation differently than everyone else has, because you simultaneously change pairs of matching off-diagonal elements of

Σ

$\Sigma$ , thereby doubling the effect of the change. In effect you are computing a multiple of a directional derivative. There does appear to be a small problem with Macro's solution insofar as a transpose ought to be taken--but that would change nothing in the application to symmetric matrices.

whuber