Pertanyaannya cukup banyak terkandung dalam judul. Berapa jarak Mahalanobis untuk dua distribusi matriks kovarian yang berbeda? Apa yang saya temukan sampai sekarang mengasumsikan kovarian yang sama untuk kedua distribusi, yaitu, semacam ini:
Bagaimana jika saya memiliki dua berbeda ?
Catatan: - Masalahnya adalah ini: ada dua distribusi bivariat yang memiliki dimensi yang sama tetapi yang dirotasi dan diterjemahkan satu sama lain (maaf saya berasal dari latar belakang matematika murni, bukan statistik satu). Saya perlu mengukur tingkat tumpang tindih / jarak mereka.
* Pembaruan: * Apa yang mungkin atau mungkin tidak tersirat dalam apa yang saya tanyakan adalah bahwa saya perlu jarak antara sarana dari dua distribusi. Saya tahu di mana sarana berada, tetapi karena dua distribusi diputar sehubungan dengan satu sama lain, saya perlu menetapkan bobot yang berbeda untuk orientasi yang berbeda dan karena itu jarak Euclidean sederhana antara sarana tidak bekerja. Sekarang, seperti yang telah saya pahami, jarak Mahalanobis tidak dapat digunakan untuk mengukur informasi ini jika distribusinya berbeda (tampaknya ia bekerja dengan dua distribusi normal multivariat kovarian identik, tetapi tidak dalam kasus umum). Apakah ada ukuran yang baik yang menyandikan keinginan ini untuk menyandikan orientasi dengan bobot yang berbeda?
sumber
Jawaban:
Ada banyak pengertian jarak antara distribusi probabilitas. Yang mana untuk digunakan tergantung pada tujuan Anda. Total variasi jarak adalah cara alami untuk mengukur tumpang tindih antar distribusi. Jika Anda bekerja dengan Normals multivarian, Divergence Kullback-Leibler secara matematis nyaman. Meskipun sebenarnya bukan jarak (karena gagal menjadi simetris dan gagal mematuhi ketidaksetaraan segitiga), itu melampaui batas variasi total - lihat Ketimpangan dari Pinsker .
sumber
Intro As @vqv menyebutkan variasi total dan Kullback Leibler adalah dua jarak yang menarik. Yang pertama bermakna karena dapat langsung berhubungan dengan kesalahan tipe pertama dan kedua dalam pengujian hipotesis. Masalah dengan Total variasi jarak adalah sulit untuk dihitung. Jarak Kullback Leibler lebih mudah untuk dihitung dan saya akan membahasnya nanti. Ini tidak simetris tetapi dapat dibuat simetris (entah bagaimana sedikit buatan).
Jawaban Sesuatu yang saya sebutkan di sini adalah bahwa jika adalah rasio kemungkinan log antara dua ukuran gaussian Anda (katakan bahwa untuk memiliki ukuran kesalahan rata-rata dan kovarians ) yang juga menarik perhatian (dalam kasus gaussian saya menemukannya cukup sentral sebenarnya) adalahL P0,P1 i=0,1 Pi μi Ci
untuk dipilih dengan baik .P1/2
Dengan kata sederhana :
Biarkan saya menjelaskan kepada Anda mengapa ini adalah perasaan saya, bagaimana Anda dapat menghitung ini dalam kasus dan bagaimana memilih .C1≠C0 P1/2
linier Jika .C1=C0=Σ
di mana adalah "interpolasi" antara dan (gaussian dengan covariance dan mean ). Perhatikan bahwa dalam kasus ini, jarak Hellinger, jarak variasi total semua dapat ditulis menggunakan .P1/2 P1 P0 Σ (μ1+μ0)/2 σ
Cara menghitung dalam kasus umumL Sebuah pertanyaan alami yang muncul dari pertanyaan Anda (dan pertanyaan saya ) adalah "interpolasi" alami antara dan saat . Di sini kata natural mungkin spesifik untuk pengguna tetapi misalnya itu mungkin terkait dengan interpolasi terbaik untuk memiliki batas atas yang ketat dengan jarak lain (misalnya jarak sini )P1 P0 C1≠C0 L1
Menulis ( ) dapat membantu melihat di mana tugas interpolasi, tetapi:
dengan
dan
lebih relevan untuk tujuan komputasi. Untuk setiap gaussian dengan mean dan kovarian perhitungan dari Persamaan sedikit teknis tapi cukup. Anda mungkin juga menggunakannya untuk menghitung jarak leibler Kulback.P1/2 s01 C ∥L∥2L2(P1/2) 1
Interpolasi apa yang harus kita pilih (yaitu bagaimana memilih )P1/2
Jelas dipahami dari Persamaan bahwa ada banyak kandidat berbeda untuk (interpolasi) dalam kasus "kuadratik". Dua kandidat yang saya temukan "paling alami" (subyektif :)) muncul dari mendefinisikan untuk distribusi gaussian dengan rata-rata :1 P1/2 t∈[0,1] Pt tμ1+(1−t)μ0
EDIT: Yang Anda ajukan dalam komentar untuk pertanyaan Anda bisa , mengapa tidak ...Ct,5=Ct1C1−t0
Saya punya pilihan favorit saya yang bukan yang pertama :) tidak punya banyak waktu untuk membahasnya di sini. Mungkin saya akan mengedit jawaban ini nanti ...
sumber
Ini sudah tua, tetapi bagi orang lain yang membaca ini, matriks kovarians mencerminkan rotasi dari distribusi gaussian dan rerata mencerminkan terjemahan atau posisi sentral dari distribusi. Untuk mengevaluasi jarak mahab, cukup D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Sekarang jika Anda mencurigai bahwa dua distribusi bivariat adalah sama, tetapi Anda menduga bahwa keduanya telah dirotasi, maka hitunglah dua pasang vektor eigen dan nilai eigen untuk setiap distribusi. Vektor eigen menunjuk ke arah penyebaran data bivariat sepanjang sumbu utama dan minor dan nilai eigen menunjukkan panjang penyebaran ini. Jika nilai eigennya sama, maka kedua distribusi itu sama tetapi diputar. Ambil acos dari produk titik antara vektor eigen untuk mendapatkan sudut rotasi.
sumber