Berikut adalah sebar beberapa data multivarian (dalam dua dimensi):
Apa yang bisa kita lakukan ketika kapak ditinggalkan?
Memperkenalkan koordinat yang disarankan oleh data itu sendiri.
The asal akan berada pada pusat dari titik-titik (titik rata-rata mereka). The pertama sumbu koordinat (biru pada gambar berikutnya) akan memperpanjang sepanjang "tulang" dari titik-titik, yang (menurut definisi) adalah setiap arah di mana varians adalah yang terbesar. The sumbu koordinat kedua (merah pada gambar) akan memperpanjang tegak lurus dengan yang pertama. (Dalam lebih dari dua dimensi, itu akan dipilih ke arah tegak lurus di mana varians sebesar mungkin, dan sebagainya.)
Kami membutuhkan skala . Deviasi standar di sepanjang masing-masing sumbu akan bekerja dengan baik untuk membangun unit di sepanjang sumbu. Ingat aturan 68-95-99.7: sekitar dua pertiga (68%) poin harus berada dalam satu unit asal (sepanjang sumbu); sekitar 95% harus dalam dua unit. Itu membuatnya mudah untuk mengamati unit yang benar. Untuk referensi, angka ini termasuk lingkaran unit di unit ini:
Itu tidak benar-benar terlihat seperti lingkaran, bukan? Itu karena gambar ini terdistorsi (dibuktikan dengan jarak yang berbeda di antara angka-angka pada kedua sumbu). Mari menggambar ulang dengan sumbu dalam orientasi yang tepat - kiri ke kanan dan bawah ke atas - dan dengan rasio aspek unit sehingga satu unit secara horizontal benar-benar sama dengan satu unit secara vertikal:
Anda mengukur jarak Mahalanobis di gambar ini daripada di aslinya.
Apa yang terjadi disini? Kami membiarkan data memberi tahu kami bagaimana membangun sistem koordinat untuk melakukan pengukuran di sebar. Hanya itu saja. Meskipun kami memiliki beberapa pilihan untuk dibuat di sepanjang jalan (kami selalu dapat membalikkan salah satu atau kedua sumbu; dan dalam situasi yang jarang terjadi arah di sepanjang "duri" - arah utama - tidak unik), mereka tidak mengubah jarak. dalam plot terakhir.
Komentar teknis
(Bukan untuk nenek, yang mungkin mulai kehilangan minat begitu nomor muncul kembali di plot, tetapi untuk mengatasi pertanyaan yang tersisa yang diajukan.)
Vektor satuan sepanjang sumbu baru adalah vektor eigen (baik dari matriks kovarians atau kebalikannya).
Kami mencatat bahwa tidak merinci elips untuk membuat lingkaran membagi jarak sepanjang setiap vektor eigen dengan standar deviasi: akar kuadrat dari kovarians. Membiarkan berarti fungsi kovarians, jarak baru (Mahalanobis) antara dua titik dan adalah jarak dari ke dibagi dengan akar kuadrat dari . Operasi aljabar yang sesuai, sekarang berpikir tentang dalam hal representasi sebagai matriks dan dan dalam hal representasi mereka sebagai vektor, ditulis . Ini bekerjaCxyxyC(x−y,x−y)Cxy(x−y)′C−1(x−y)−−−−−−−−−−−−−−−√terlepas dari dasar apa yang digunakan untuk mewakili vektor dan matriks. Secara khusus, ini adalah rumus yang benar untuk jarak Mahalanobis dalam koordinat asli.
Jumlah di mana sumbu diperluas pada langkah terakhir adalah (akar kuadrat dari) nilai eigen dari matriks kovarians terbalik. Secara ekuivalen, sumbu menyusut oleh nilai akar (dari) matriks kovarian. Jadi, semakin banyak pencar, semakin banyak penyusutan yang dibutuhkan untuk mengubah elips itu menjadi lingkaran.
Meskipun prosedur ini selalu berfungsi dengan dataset apa pun, tampilannya bagus (cloud berbentuk sepak bola klasik) untuk data yang kira-kira multivariat Normal. Dalam kasus lain, titik rata-rata mungkin bukan representasi pusat data yang baik atau "duri" (tren umum dalam data) tidak akan diidentifikasi secara akurat menggunakan varians sebagai ukuran penyebaran.
Pergeseran asal koordinat, rotasi, dan perluasan sumbu secara kolektif membentuk transformasi afin. Terlepas dari perubahan awal itu, ini adalah perubahan basis dari yang asli (menggunakan vektor satuan yang menunjuk ke arah koordinat positif) ke yang baru (menggunakan pilihan vektor eigen satuan).
Ada hubungan yang kuat dengan Principal Components Analysis (PCA) . Itu saja berjalan jauh menuju menjelaskan "dari mana asalnya" dan "mengapa" pertanyaan - jika Anda belum yakin dengan keanggunan dan utilitas membiarkan data menentukan koordinat yang Anda gunakan untuk menggambarkan mereka dan mengukur mereka perbedaan.
Untuk distribusi Normal multivarian (di mana kita dapat melakukan konstruksi yang sama menggunakan properti dari probabilitas kepadatan dan bukan properti analog dari cloud titik), jarak Mahalanobis (ke asal baru) muncul di tempat " " dalam ekspresi yang mencirikan kepadatan probabilitas dari distribusi Normal standar. Dengan demikian, dalam koordinat baru, distribusi Normal multivarian terlihat Normal standarxexp(−12x2)ketika diproyeksikan ke garis apa pun melalui titik asal. Secara khusus, ini adalah standar Normal di setiap koordinat baru. Dari sudut pandang ini, satu-satunya pengertian substansial di mana distribusi Normal multivariat berbeda satu sama lain adalah dalam hal berapa banyak dimensi yang mereka gunakan. (Perhatikan bahwa jumlah dimensi ini mungkin, dan kadang-kadang, kurang dari jumlah nominal dimensi.)
Nenek saya memasak. Anda mungkin juga. Memasak adalah cara yang enak untuk mengajarkan statistik.
Kue Labu Habanero luar biasa! Pikirkan betapa indahnya kayu manis dan jahe dalam suguhan Natal, kemudian sadari betapa panasnya mereka sendiri.
Bahan-bahannya adalah:
Bayangkan sumbu koordinat Anda untuk domain Anda menjadi volume bahan. Gula. Tepung. Garam. Bubuk soda kue. Variasi sepanjang arah itu, semuanya sama, hampir tidak memiliki dampak terhadap kualitas rasa sebagai variasi dalam jumlah habanero peppers. Perubahan 10% tepung atau mentega akan membuatnya kurang enak, tetapi tidak mematikan. Menambahkan sedikit habanero akan membuat Anda jatuh dari tebing rasa dari makanan pencandu kecanduan ke kontes rasa sakit berbasis testosteron.
Mahalanobis tidak terlalu jauh dalam "volume bahan" seperti jarak dari "rasa terbaik". Bahan-bahan yang benar-benar "kuat", bahan yang sangat sensitif terhadap variasi, adalah bahan yang harus Anda kontrol dengan sangat hati-hati.
Jika Anda berpikir tentang distribusi Gaussian vs. distribusi Standard Normal , apa bedanya? Pusat dan skala berdasarkan kecenderungan pusat (rata-rata) dan kecenderungan variasi (standar deviasi). Salah satunya adalah transformasi koordinat yang lain. Mahalanobis adalah transformasi itu. Ini menunjukkan kepada Anda seperti apa dunia jika distribusi minat Anda ditampilkan kembali sebagai standar normal alih-alih Gaussian.
sumber
Sebagai titik awal, saya akan melihat jarak Mahalanobis sebagai deformasi yang cocok dari jarak Euclidean biasa antara vektor dan dalam . Sepotong informasi tambahan di sini adalah bahwa dan sebenarnya vektor acak , yaitu 2 realisasi berbeda dari vektor variabel acak, terletak di latar belakang diskusi kita. Pertanyaan yang coba ditangani oleh Mahalanobis adalah sebagai berikut:d(x,y)=⟨x,y⟩−−−−−√ x y Rn x y X
"Bagaimana saya bisa mengukur" ketidaksamaan "antara dan , mengetahui bahwa mereka adalah realisasi dari variabel acak multivariat yang sama?" yx y
Mengumpulkan ide-ide di atas kita alami secara alami
sumber
Mari kita perhatikan kasus dua variabel. Melihat gambar bivariat normal ini (terima kasih @whuber), Anda tidak dapat dengan mudah mengklaim bahwa AB lebih besar dari AC. Ada kovarians positif; kedua variabel tersebut saling terkait satu sama lain.
Anda dapat menerapkan pengukuran Euclidean sederhana (garis lurus seperti AB dan AC) hanya jika variabelnya
Pada dasarnya, ukuran jarak Mahalanobis melakukan hal berikut: itu mengubah variabel menjadi variabel tidak berkorelasi dengan varian sama dengan 1, dan kemudian menghitung jarak Euclidean sederhana.
sumber
Saya akan mencoba menjelaskan Anda sesederhana mungkin:
Jarak Mahalanobis mengukur jarak suatu titik x dari suatu distribusi data. Distribusi data dicirikan oleh mean dan matriks kovarian, dengan demikian dihipotesiskan sebagai gaussian multivariat.
Ini digunakan dalam pengenalan pola sebagai ukuran kesamaan antara pola (distribusi data contoh pelatihan kelas) dan contoh uji. Matriks kovarians memberikan bentuk bagaimana data didistribusikan dalam ruang fitur.
Angka tersebut menunjukkan tiga kelas yang berbeda dan garis merah menunjukkan jarak Mahalanobis yang sama untuk setiap kelas. Semua titik yang terletak di garis merah memiliki jarak yang sama dari mean kelas, karena digunakan matriks kovarians.
Fitur kuncinya adalah penggunaan kovarians sebagai faktor normalisasi.
sumber
Saya ingin menambahkan sedikit informasi teknis ke jawaban Whuber yang luar biasa. Informasi ini mungkin tidak menarik bagi nenek, tetapi mungkin cucunya akan merasa terbantu. Berikut ini adalah penjelasan dari bawah ke atas dari aljabar linier yang relevan.
sumber
Saya mungkin agak terlambat untuk menjawab pertanyaan ini. Makalah ini di sini adalah awal yang baik untuk memahami jarak Mahalanobis. Mereka memberikan contoh lengkap dengan nilai numerik. Apa yang saya suka tentang itu adalah representasi geometris dari masalah yang disajikan.
sumber
Hanya untuk menambah penjelasan yang sangat baik di atas, jarak Mahalanobis muncul secara alami dalam regresi linier (multivarian). Ini adalah konsekuensi sederhana dari beberapa koneksi antara jarak Mahalanobis dan distribusi Gaussian yang dibahas dalam jawaban lain, tapi saya pikir itu tetap perlu dieja.
Dengan independensi, kemungkinan dari diberikan diberikan oleh jumlah Oleh karena itu, mana faktor tidak memengaruhi argmin.logp(y∣x;β) y=(y1,…,yN) x=(x1,…,xN)
Singkatnya, koefisien yang meminimalkan kemungkinan log-negatif (yaitu memaksimalkan kemungkinan) data yang diamati juga meminimalkan risiko empiris data dengan fungsi kehilangan yang diberikan oleh jarak Mahalanobis.β0,β1
sumber
Jarak Mahalanobis adalah jarak euclidian (jarak alami) yang memperhitungkan kovarians data. Ini memberikan bobot lebih besar untuk komponen berisik dan sangat berguna untuk memeriksa kesamaan antara dua set data.
Seperti yang dapat Anda lihat dalam contoh Anda di sini ketika variabel dikorelasikan, distribusi digeser menjadi satu arah. Anda mungkin ingin menghapus efek ini. Jika Anda mempertimbangkan korelasi dalam jarak Anda, Anda dapat menghapus efek shift.
sumber