Mengapa inversi dari matriks kovarians menghasilkan korelasi parsial antara variabel acak?

Saya mendengar bahwa korelasi parsial antara variabel acak dapat ditemukan dengan membalikkan matriks kovarians dan mengambil sel yang sesuai dari matriks presisi yang dihasilkan (fakta ini disebutkan dalam http://en.wikipedia.org/wiki/Partial_correlation , tetapi tanpa bukti) .

Mengapa demikian?

covariance covariance-matrix linear-algebra partial-correlation matrix-inverse michal
sumber

Jika Anda bermaksud mendapatkan korelasi parsial dalam sel yang dikendalikan untuk semua variabel lain, maka paragraf terakhir di sini mungkin menjelaskan.

ttnphns

Jawaban:

Ketika variabel acak multivarian memiliki matriks kovarians nondegenerate , himpunan semua kombinasi linear nyata dari membentuk ruang vektor nyata -dimensi dengan basis $(X_1,X_2,\ldots,X_n)$ $\mathbb{C} = (\gamma_{ij}) = (\text{Cov}(X_i,X_j))$ $X_i$ $n$ dan produk dalam non-degenerasi yang diberikan oleh $E=(X_1,X_2,\ldots, X_n)$

⟨ X_{i}, X_{j} ⟩ = γ_{i j} .

$\langle X_i,X_j \rangle = \gamma_{ij}\ .$

Its ganda dasar sehubungan dengan produk dalam ini , , didefinisikan secara unik oleh hubungan $E^{*} = (X_1^{*},X_2^{*}, \ldots, X_n^{*})$

⟨ X_{i}^{*}, X_{j} ⟩ = δ_{i j},

$\langle X_i^{*}, X_j \rangle = \delta_{ij}\ ,$

delta Kronecker (sama dengan ketika dan sebaliknya). $1$ $i=j$ $0$

Dasar ganda menarik di sini karena korelasi parsial dan diperoleh sebagai korelasi antara bagian yang tersisa setelah memproyeksikannya ke ruang yang direntang oleh semua vektor lain (sebut saja " residual", ) dan bagian sebanding , yang sisa . Namun adalah vektor yang ortogonal untuk semua vektor selain dan memiliki produk dalam yang positif dengan dari mana $X_i$ $X_j$ $X_i$ $X_{i\circ}$ $X_j$ $X_{j\circ}$ $X_i^{*}$ $X_i$ $X_i$ harus berupa kelipatan tidak negatif, dan juga untuk . Karena itu marilah kita menulis $X_{i\circ}$ $X_i^{*}$ $X_j$

X_{i \circ} = λ_{i} X_{i}^{*}, X_{j \circ} = λ_{j} X_{j}^{*}

$X_{i\circ} = \lambda_i X_i^{*},\ X_{j\circ} = \lambda_j X_j^{*}$

untuk bilangan real positif dan . $\lambda_i$ $\lambda_j$

Korelasi parsial adalah produk titik yang dinormalisasi dari residu, yang tidak berubah dengan men-rescaling:

ρ_{i j \circ} = \frac{⟨ X_{i \circ}, X_{j \circ} ⟩}{\sqrt{⟨ X_{i \circ}, X_{i \circ} ⟩ ⟨ X_{j \circ}, X_{j \circ} ⟩}} = \frac{λ_{i} λ_{j} ⟨ X_{i}^{*}, X_{j}^{*} ⟩}{\sqrt{λ_{i}^{2} ⟨ X_{i}^{*}, X_{i}^{*} ⟩ λ_{j}^{2} ⟨ X_{j}^{*}, X_{j}^{*} ⟩}} = \frac{⟨ X_{i}^{*}, X_{j}^{*} ⟩}{\sqrt{⟨ X_{i}^{*}, X_{i}^{*} ⟩ ⟨ X_{j}^{*}, X_{j}^{*} ⟩}} .

$\rho_{ij\circ} = \frac{\langle X_{i\circ}, X_{j\circ} \rangle}{\sqrt{\langle X_{i\circ}, X_{i\circ} \rangle\langle X_{j\circ}, X_{j\circ} \rangle}} = \frac{\lambda_i\lambda_j\langle X_{i}^{*}, X_{j}^{*} \rangle}{\sqrt{\lambda_i^2\langle X_{i}^{*}, X_{i}^{*} \rangle\lambda_j^2\langle X_{j}^{*}, X_{j}^{*} \rangle}} = \frac{\langle X_{i}^{*}, X_{j}^{*} \rangle}{\sqrt{\langle X_{i}^{*}, X_{i}^{*} \rangle\langle X_{j}^{*}, X_{j}^{*} \rangle}}\ .$

(Dalam kedua kasus, korelasi parsial akan menjadi nol setiap kali residunya ortogonal, terlepas dari apakah itu nol atau tidak.)

Kita perlu menemukan produk dalam dari elemen berbasis ganda. Untuk tujuan ini, perluas elemen basis ganda dalam hal basis asli : $E$

X_{i}^{*} = \sum_{j = 1}^{n} β_{i j} X_{j} .

$X_i^{*} = \sum_{j=1}^n \beta_{ij} X_j\ .$

Kemudian dengan definisi

δ_{i k} = ⟨ X_{i}^{*}, X_{k} ⟩ = \sum_{j = 1}^{n} β_{i j} ⟨ X_{j}, X_{k} ⟩ = \sum_{j = 1}^{n} β_{i j} γ_{j k} .

$\delta_{ik} = \langle X_i^{*}, X_k \rangle = \sum_{j=1}^n \beta_{ij}\langle X_j, X_k \rangle = \sum_{j=1}^n \beta_{ij}\gamma_{jk}\ .$

Dalam notasi matriks dengan matriks identitas dan matriks perubahan-basis, ini menyatakan $\mathbb{I} = (\delta_{ij})$ $\mathbb{B} = (\beta_{ij})$

I = B C .

$\mathbb{I} = \mathbb{BC}\ .$

Yaitu, , yang persis seperti yang ditegaskan oleh artikel Wikipedia. Rumus sebelumnya untuk korelasi parsial memberi $\mathbb{B} = \mathbb{C}^{-1}$

ρ_{i j \cdot} = \frac{β_{i j}}{\sqrt{β_{i i} β_{j j}}} = \frac{C_{i j}^{- 1}}{\sqrt{C_{i i}^{- 1} C_{j j}^{- 1}}} .

$\rho_{ij\cdot} = \frac{\beta_{ij}}{\sqrt{\beta_{ii} \beta_{jj}}} = \frac{\mathbb{C}^{-1}_{ij}}{\sqrt{\mathbb{C}^{-1}_{ii} \mathbb{C}^{-1}_{jj}}}\ .$

whuber
sumber

v_{1}, . . ., v_{n}

$v_1, ..., v_n$

V

$V$

V

$V$

R

$R$

ϕ : V \to R

$\phi:V\to R$

V^{*}

$V^*$

V^{*}

$V^*$

V

$V$

V

$V$

γ

$\gamma$

g : V \to V^{*}

$g:V\to V^*$

g (v) (w) = γ (v, w) .

$g(v)(w)=\gamma(v,w).$

γ

$\gamma$

g

$g$

V

$V$

V^{*}

$V^*$

γ

$\gamma$

@mpetto Titik-titik itu sulit dilihat. Saya telah menggantinya dengan lingkaran terbuka kecil untuk membuat notasi lebih mudah dibaca. Terima kasih telah menunjukkan ini.

Whuber

Jawaban Plane @Andy Ron Christensen untuk Pertanyaan Kompleks mungkin adalah jenis hal yang Anda cari. Sayangnya, pendekatannya membuat (IMHO) ketergantungan yang tidak semestinya pada argumen dan perhitungan koordinat. Dalam pengantar asli (lihat hal. Xiii), Christensen menjelaskan itu karena alasan pedagogis.

whuber

@whuber, Buktimu luar biasa. Saya bertanya-tanya apakah ada buku atau artikel yang berisi bukti seperti itu sehingga saya bisa mengutip.

Harry

Berikut ini adalah bukti dengan perhitungan matriks saja.

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = - \frac{p_{i j}}{\sqrt{p_{i i} p_{j j}}}

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = - \frac{p_{ij}}{\sqrt{p_{ii}p_{jj}}}$

Untuk mendapatkan tanda minus ini, berikut adalah bukti berbeda yang saya temukan di "Graphical Models Lauriten 1995 Page 130". Ini hanya dilakukan oleh beberapa perhitungan matriks.

{(\begin{matrix} A & B \\ C & D \end{matrix})}^{- 1} = (\begin{matrix} E^{- 1} & - E^{- 1} G \\ - F E^{- 1} & D^{- 1} + F E^{- 1} G \end{matrix})

$\begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} = \begin{pmatrix} E^{-1} & -E^{-1}G \\ -FE^{-1} & D^{-1}+FE^{-1}G \end{pmatrix}$

E = A - B D^{- 1} C

$E = A - BD^{-1}C$

F = D^{- 1} C

$F = D^{-1}C$

G = B D^{- 1}

$G = BD^{-1}$

Ω = (\begin{matrix} Ω_{11} & Ω_{12} \\ Ω_{21} & Ω_{22} \end{matrix})

$\Omega = \begin{pmatrix} \Omega_{11} & \Omega_{12} \\ \Omega_{21} & \Omega_{22} \end{pmatrix}$

Ω_{11}

$\Omega_{11}$

(X_{i}, X_{j})

$(X_i, X_j)$

Ω_{22}

$\Omega_{22}$

V ∖ {X_{i}, X_{j}}

$\mathbf{V} \setminus \{X_i, X_j \}$

$P = \Omega^{-1}$ $P$

P = (\begin{matrix} P_{11} & P_{12} \\ P_{21} & P_{22} \end{matrix})

$P = \begin{pmatrix} P_{11} & P_{12} \\ P_{21} & P_{22} \end{pmatrix}$

P_{11}^{- 1} = Ω_{11} - Ω_{12} Ω_{22}^{- 1} Ω_{21}

$P_{11}^{-1} = \Omega_{11} - \Omega_{12}\Omega_{22}^{-1}\Omega_{21}$

$\Omega_{11} - \Omega_{12}\Omega_{22}^{-1}\Omega_{21}$ $(X_i, X_j) | \mathbf{V} \setminus \{X_i, X_j\}$

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = \frac{[P_{11}^{- 1}]_{12}}{\sqrt{[P_{11}^{- 1}]_{11} [P_{11}^{- 1}]_{22}}} .

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = \frac{[P_{11}^{-1}]_{12}}{\sqrt{[P_{11}^{-1}]_{11}[P_{11}^{-1}]_{22}}}.$

(k, l)

$(k,l)$

M

$M$

[M]_{k l}

$[M]_{kl}$

(\begin{matrix} [P_{11}^{- 1}]_{11} & [P_{11}^{- 1}]_{12} \\ [P_{11}^{- 1}]_{21} & [P_{11}^{- 1}]_{22} \end{matrix}) = P_{11}^{- 1} = \frac{1}{det P_{11}} (\begin{matrix} [P_{11}]_{22} & - [P_{11}]_{12} \\ - [P_{11}]_{21} & [P_{11}]_{11} \end{matrix})

$\begin{pmatrix} [P_{11}^{-1}]_{11} & [P_{11}^{-1}]_{12} \\ [P_{11}^{-1}]_{21} & [P_{11}^{-1}]_{22} \\ \end{pmatrix} = P_{11}^{-1} = \frac{1}{\text{det} P_{11}} \begin{pmatrix} [P_{11}]_{22} & -[P_{11}]_{12} \\ -[P_{11}]_{21} & [P_{11}]_{11} \\ \end{pmatrix}$

ρ_{X_{i} X_{j} \cdot V ∖ {X_{i}, X_{j}}} = \frac{[P_{11}^{- 1}]_{12}}{\sqrt{[P_{11}^{- 1}]_{11} [P_{11}^{- 1}]_{22}}} = \frac{- \frac{1}{det P_{11}} [P_{11}]_{12}}{\sqrt{\frac{1}{det P_{11}} [P_{11}]_{22} \frac{1}{det P_{11}} [P_{11}]_{11}}} = \frac{- [P_{11}]_{12}}{\sqrt{[P_{11}]_{22} [P_{11}]_{11}}}

$\rho_{X_iX_j\cdot \mathbf{V} \setminus \{X_i,X_j\}} = \frac{[P_{11}^{-1}]_{12}}{\sqrt{[P_{11}^{-1}]_{11}[P_{11}^{-1}]_{22}}} = \frac{- \frac{1}{\text{det}P_{11}}[P_{11}]_{12}}{\sqrt{\frac{1}{\text{det}P_{11}}[P_{11}]_{22}\frac{1}{\text{det}P_{11}}[P_{11}]_{11}}} = \frac{-[P_{11}]_{12}}{\sqrt{[P_{11}]_{22}[P_{11}]_{11}}}$

Po C.
sumber

Jika kita membiarkan i=j, lalu rho_ii V\{X_i, X_i} = -1, Bagaimana kita menafsirkan elemen-elemen diagonal dalam matriks presisi?

Jason

Poin bagus. Rumus seharusnya hanya valid untuk i = / = j. Dari buktinya, tanda minus berasal dari inversi matriks 2-oleh-2. Itu tidak akan terjadi jika i = j.

Po C.

Jadi angka diagonal tidak dapat dikaitkan dengan korelasi parsial. Apa yang mereka wakili? Mereka bukan hanya kebalikan dari varian, bukan?

Jason

Formula ini berlaku untuk i = / = j. Tidak ada artinya untuk i = j.

Po C.

$X_i$ $X_j$ $n - 1$ $X_i$ $X_j$ $n - 2$ $\epsilon_i$ $\epsilon_j$ $\rho$ $\epsilon_i$ $\epsilon_j$ $-\rho$

Ini menjelaskan kebingungan dalam komentar di atas, serta di Wikipedia. Definisi kedua digunakan secara universal dari apa yang bisa saya katakan, jadi harus ada tanda negatif.

Saya awalnya mengirim suntingan ke jawaban lain, tetapi membuat kesalahan - maaf tentang itu!

Johnny Ho
sumber