Mahalanobis berjarak antara dua distribusi bivariat dengan kovarian yang berbeda

Pertanyaannya cukup banyak terkandung dalam judul. Berapa jarak Mahalanobis untuk dua distribusi matriks kovarian yang berbeda? Apa yang saya temukan sampai sekarang mengasumsikan kovarian yang sama untuk kedua distribusi, yaitu, semacam ini:

Δ^{T} Σ^{- 1} Δ

$\Delta^T \Sigma^{-1} \Delta$

Bagaimana jika saya memiliki dua berbeda ? $\Sigma$

Catatan: - Masalahnya adalah ini: ada dua distribusi bivariat yang memiliki dimensi yang sama tetapi yang dirotasi dan diterjemahkan satu sama lain (maaf saya berasal dari latar belakang matematika murni, bukan statistik satu). Saya perlu mengukur tingkat tumpang tindih / jarak mereka.

* Pembaruan: * Apa yang mungkin atau mungkin tidak tersirat dalam apa yang saya tanyakan adalah bahwa saya perlu jarak antara sarana dari dua distribusi. Saya tahu di mana sarana berada, tetapi karena dua distribusi diputar sehubungan dengan satu sama lain, saya perlu menetapkan bobot yang berbeda untuk orientasi yang berbeda dan karena itu jarak Euclidean sederhana antara sarana tidak bekerja. Sekarang, seperti yang telah saya pahami, jarak Mahalanobis tidak dapat digunakan untuk mengukur informasi ini jika distribusinya berbeda (tampaknya ia bekerja dengan dua distribusi normal multivariat kovarian identik, tetapi tidak dalam kasus umum). Apakah ada ukuran yang baik yang menyandikan keinginan ini untuk menyandikan orientasi dengan bobot yang berbeda?

normal-distribution multivariate-analysis distance-functions Kristian D'Amato
sumber

Jarak Mahalanobis tidak masuk akal ketika distribusi berbeda. (Ini seperti mengatakan "Peter hidup dalam sebuah bidang dan Paul hidup dalam sebuah pesawat Euclidean; bagaimana kita menghitung jarak di antara mereka?") Mungkin Anda dapat mendukung satu langkah dan membantu kami memahami motivasi untuk pertanyaan: apa sebenarnya yang Anda lakukan ingin capai di sini? Apa konteks statistiknya?

whuber

Baiklah, saya sangat curiga. Alasan mengapa saya bertanya adalah karena saya telah melihat persamaan berikut yang digunakan untuk menghitung jarak 'Mahalanobis', atau begitulah diklaimnya: I ' Saya tidak terlalu yakin itu jarak Mahalanobis; Saya hanya mencerminkan apa yang diklaim. Apakah jarak Bhattacharya akan bekerja lebih baik di tempatnya?

Δ^{T} \(Σ_{1} Σ_{2} {\)}^{- 1} Δ

$\Delta^T $\Sigma_1 \Sigma_2$^{-1} \Delta$

Kristian D'Amato

@ k-damato Mahalanobis distance mengukur jarak antara titik, bukan distribusi.

vqv

Baiklah, jadi apakah ada yang mengenali persamaan di atas sebagai sesuatu yang bermakna? Delta adalah vektor perpindahan.

Kristian D'Amato

@Kristian Saya telah menggabungkan dua akun duplikat Anda. Silakan gunakan akun terdaftar Anda, mulai sekarang.

chl

Jawaban:

Ada banyak pengertian jarak antara distribusi probabilitas. Yang mana untuk digunakan tergantung pada tujuan Anda. Total variasi jarak adalah cara alami untuk mengukur tumpang tindih antar distribusi. Jika Anda bekerja dengan Normals multivarian, Divergence Kullback-Leibler secara matematis nyaman. Meskipun sebenarnya bukan jarak (karena gagal menjadi simetris dan gagal mematuhi ketidaksetaraan segitiga), itu melampaui batas variasi total - lihat Ketimpangan dari Pinsker .

vqv
sumber

beberapa diskusi baru-baru ini di sini telah berfokus pada modifikasi pada divergensi KL yang menghasilkan metrik yang tepat. Jika Anda tertarik, lihat di sini dan di sini .

kardinal

Intro As @vqv menyebutkan variasi total dan Kullback Leibler adalah dua jarak yang menarik. Yang pertama bermakna karena dapat langsung berhubungan dengan kesalahan tipe pertama dan kedua dalam pengujian hipotesis. Masalah dengan Total variasi jarak adalah sulit untuk dihitung. Jarak Kullback Leibler lebih mudah untuk dihitung dan saya akan membahasnya nanti. Ini tidak simetris tetapi dapat dibuat simetris (entah bagaimana sedikit buatan).

Jawaban Sesuatu yang saya sebutkan di sini adalah bahwa jika adalah rasio kemungkinan log antara dua ukuran gaussian Anda (katakan bahwa untuk memiliki ukuran kesalahan rata-rata dan kovarians ) yang juga menarik perhatian (dalam kasus gaussian saya menemukannya cukup sentral sebenarnya) adalah $\mathcal{L}$ $P_0,P_1$ $i=0,1$ $P_i$ $\mu_i$ $C_i$

‖ L ‖_{L_{2} (P_{1 / 2})}^{2}

$\|\mathcal{L}\|^2_{L_2(P_{1/2})}$

untuk dipilih dengan baik . $P_{1/2}$

Dengan kata sederhana :

mungkin ada rotasi "arah" menarik yang berbeda, yang diperoleh dengan menggunakan rumus Anda dengan salah satu dari matriks kovarians "interpolasi" ( atau ) didefinisikan di akhir posting ini (nomor adalah yang Anda usulkan dalam komentar Anda untuk pertanyaan Anda). $\Sigma=C_{i,1/2}$ $i=1,2,3,4$ $5$ $5$
karena dua distribusi Anda memiliki kovarian yang berbeda, tidak cukup untuk membandingkan cara , Anda juga perlu membandingkan kovarian.

Biarkan saya menjelaskan kepada Anda mengapa ini adalah perasaan saya, bagaimana Anda dapat menghitung ini dalam kasus dan bagaimana memilih . $C_1\neq C_0$ $P_{1/2}$

linier Jika . $C_1=C_0=\Sigma$

σ = Δ Σ^{- 1} Δ = ‖ 2 L ‖_{L_{2} (P_{1 / 2})}^{2}

$\sigma= \Delta \Sigma^{-1} \Delta=\|2\mathcal{L}\|^2_{L_2(P_{1/2})}$

di mana adalah "interpolasi" antara dan (gaussian dengan covariance dan mean ). Perhatikan bahwa dalam kasus ini, jarak Hellinger, jarak variasi total semua dapat ditulis menggunakan . $P_{1/2}$ $P_1$ $P_0$ $\Sigma$ $(\mu_1+\mu_0)/2$ $\sigma$

Cara menghitung dalam kasus umum $\mathcal{L}$ Sebuah pertanyaan alami yang muncul dari pertanyaan Anda (dan pertanyaan saya ) adalah "interpolasi" alami antara dan saat . Di sini kata natural mungkin spesifik untuk pengguna tetapi misalnya itu mungkin terkait dengan interpolasi terbaik untuk memiliki batas atas yang ketat dengan jarak lain (misalnya jarak sini ) $P_1$ $P_0$ $C_1\neq C_0$ $L_1$

Menulis ( ) dapat membantu melihat di mana tugas interpolasi, tetapi:

L = ϕ (C_{i}^{- 1 / 2} (x - μ_{i})) - ϕ (C_{j}^{- 1 / 2} (x - μ_{j})) - \frac{1}{2} \log (C_{i} C_{j}^{-})

$\mathcal{L}= \phi (C^{-1/2}_i(x-\mu_i))-\phi (C^{-1/2}_j(x-\mu_j))-\frac{1}{2}\log \left ( C_iC_j^{-}\right )$

i = 0, j = 1

$i=0,j=1$

L (x) = - \frac{1}{2} ⟨ A_{i j} (x - s_{i j}), x - s_{i j} ⟩_{R^{p}} + ⟨ G_{i j}, x - s_{i j} ⟩_{R^{p}} - c_{i j}, [1]

$\mathcal{L}(x)=-\frac{1}{2}\langle A_{ij}(x-s_{ij}),x-s_{ij}\rangle_{\mathbb{R}^p}+\langle G_{ij},x-s_{ij}\rangle_{\mathbb{R}^p}-c_{ij}, \;[1]$

dengan

A_{i j} = C_{i}^{-} - C_{j}^{-}, G_{i j} = S_{i j} m_{i j}, S_{i j} = \frac{C_{i}^{-} + C_{j}^{-}}{2},

$A_{ij}=C_i^{-}-C_j^{-},\;\; G_{ij}=S_{ij}m_{ij},\;\; S_{ij}=\frac{C_i^{-}+C_j^{-}}{2},$

c_{i j} = \frac{1}{8} ⟨ A_{i j} m_{i j}, m_{i j} ⟩_{R^{p}} + \frac{1}{2} \log | det (C_{j}^{-} C_{i}) |

$c_{ij}=\frac{1}{8}\langle A_{ij} m_{ij},m_{ij}\rangle_{\mathbb{R}^p}+\frac{1}{2}\log|\det(C_j^{-}C_i)|$

dan

m_{i j} = μ_{i} - μ_{j} a n d s_{i j} = \frac{μ_{i} + μ_{j}}{2}

$m_{ij}=\mu_i-\mu_j \;\; and\;\; s_{ij}=\frac{\mu_i+\mu_j}{2}$

lebih relevan untuk tujuan komputasi. Untuk setiap gaussian dengan mean dan kovarian perhitungan dari Persamaan sedikit teknis tapi cukup. Anda mungkin juga menggunakannya untuk menghitung jarak leibler Kulback. $P_{1/2}$ $s_{01}$ $C$ $\|\mathcal{L}\|^2_{L_2(P_{1/2})}$ $1$

Interpolasi apa yang harus kita pilih (yaitu bagaimana memilih ) $P_{1/2}$ Jelas dipahami dari Persamaan bahwa ada banyak kandidat berbeda untuk (interpolasi) dalam kasus "kuadratik". Dua kandidat yang saya temukan "paling alami" (subyektif :)) muncul dari mendefinisikan untuk distribusi gaussian dengan rata-rata : $1$ $P_{1/2}$ $t\in [0,1]$ $P_t$ $t\mu_1+(1-t)\mu_0$

$P^1_t$ sebagai distribusi (di mana diambil dari ) yang memiliki kovarian ). $ξ_{t} = t ξ_{1} + (1 - t) ξ_{0}$ $\xi_t=t\xi_1+(1-t)\xi_0$ $\xi_i$ $P_i$ $i=0,1$ $C_{t,1}=(tC_1^{1/2}+(1-t)C_0^{1/2})^2$
$P^2_t$ dengan kovarians terbalik $C_{t,2}^{-1}=tC_{1}^{-1}+(1-t)C_0^{-1}$
$P^3_t$ dengan kovarians $C_{t,3}=tC_1+(1-t)C_0$
$P^4_t$ dengan kovarians terbalik $C_{t,4}^{-1}=(tC^{-1/2}_1+(1-t)C^{-1/2}_0)^{2}$

EDIT: Yang Anda ajukan dalam komentar untuk pertanyaan Anda bisa , mengapa tidak ... $C_{t,5}=C_1^{t}C_0^{1-t}$

Saya punya pilihan favorit saya yang bukan yang pertama :) tidak punya banyak waktu untuk membahasnya di sini. Mungkin saya akan mengedit jawaban ini nanti ...

robin girard
sumber

Ini sudah tua, tetapi bagi orang lain yang membaca ini, matriks kovarians mencerminkan rotasi dari distribusi gaussian dan rerata mencerminkan terjemahan atau posisi sentral dari distribusi. Untuk mengevaluasi jarak mahab, cukup D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Sekarang jika Anda mencurigai bahwa dua distribusi bivariat adalah sama, tetapi Anda menduga bahwa keduanya telah dirotasi, maka hitunglah dua pasang vektor eigen dan nilai eigen untuk setiap distribusi. Vektor eigen menunjuk ke arah penyebaran data bivariat sepanjang sumbu utama dan minor dan nilai eigen menunjukkan panjang penyebaran ini. Jika nilai eigennya sama, maka kedua distribusi itu sama tetapi diputar. Ambil acos dari produk titik antara vektor eigen untuk mendapatkan sudut rotasi.

pembuat badai
sumber