Untuk pengelompokan hierarkis saya sering melihat dua "metrik" berikut (mereka tidak berbicara) untuk mengukur jarak antara dua variabel acak dan :
Apakah juga satu memenuhi ketidaksetaraan segitiga? Jika demikian, bagaimana saya harus membuktikannya selain hanya melakukan perhitungan bruteforce? Jika itu bukan metrik, apa contoh penghitung sederhana?
Jawaban:
The ketidaksamaan segitiga pada Anda akan menghasilkan:d1
Tampaknya ini merupakan ketidaksetaraan yang mudah untuk dikalahkan. Kita dapat membuat sisi kanan sekecil mungkin (tepatnya satu) dengan membuat dan independen. Lalu bisakah kita menemukan yang melebihi sisi kiri?Z YX Z Y
Jika dan dan memiliki varian yang identik, maka dan demikian pula dengan , jadi sisi kiri jauh di atas satu dan ketidaksetaraan dilanggar. Contoh pelanggaran ini di R, di mana dan adalah komponen normal multivarian:X Z CY=X+Z X Z Cor(Y,Z)Cor(X,Y)=2√2≈0.707 Cor(Y,Z) ZX Z
Meskipun perhatikan konstruksi ini tidak berfungsi dengan Anda :d2
Daripada meluncurkan serangan teoretis pada , pada tahap ini saya hanya merasa lebih mudah untuk bermain-main dengan matriks kovarians dalam R sampai sebuah contoh bagus muncul. Mengizinkan , dan memberi:V a r ( X ) = 2 V a r ( Z ) = 1 C o v ( X , Z ) = 1d2 Var(X)=2 Var(Z)=1 Cov(X,Z)=1
Sigma
Kami juga dapat menyelidiki kovarian:
C o v ( Y , Z ) =
Korelasi kuadrat adalah: Cor(X,Y)2=Cov(X,Y)2
Kemudian sedangkan dan sehingga ketimpangan segitiga dilanggar oleh margin yang substansial.d 2 ( X , Y ) = 0,1 d 2 ( Y , Z ) = 0,2d2(X,Z)=0.5 d2(X,Y)=0.1 d2(Y,Z)=0.2
sumber
Mari kita memiliki tiga vektor (bisa variabel atau individu) , , dan . Dan kami distandarisasi masing-masing untuk z-skor (rata-rata = 0, varians = 1).Y ZX Y Z
Kemudian menurut teorema cosinus ("hukum cosinus") kuadrat jarak euclidean antara dua vektor standar (katakanlah, X dan Y) adalah , di mana , persamaan cosinus, adalah Pearson karena z-standardisasi vektor. Kami dapat dengan aman menghilangkan pengganda konstan dari pertimbangan kami.d2XY=2(n−1)(1−cosXY) cosXY rXY 2(n−1)
Jadi, muncul bahwa jarak yang dinyatakan dalam pertanyaan sebagaiakan menjadi jarak euclide kuadrat jika rumusnya tidak mengabaikan tanda koefisien korelasi.d1(X,Y)=1−|Cor(X,Y)|
Jika matriksS terjadi gramian (semidefinit positif) kemudian akar kuadrat dari jarak "d1" adalah jarak euclidean, yang tentu saja adalah metrik. Dengan matriks tidak besaritu sering merupakan kasus atau dekat kasus ketika jarak tidak jauh dari konvergen yang baik di ruang euclidean. Karena metrik adalah kelas yang lebih luas daripada euclidean, matriks jarak "sqrt (d1)" yang diberikan mungkin berharap akan sering muncul metrik.|r| |r|
Adapun "d1" per se, yang "seperti" jarak euclide kuadrat , sudah pasti non-metrik. Bahkan jarak euclidean kuadrat sejati bukanlah metrik: kadang-kadang melanggar prinsip segitiga ketimpangan. [Dalam analisis kluster, jarak euclidean kuadrat cukup sering digunakan; Namun, sebagian besar kasus tersebut menyiratkan sebenarnya membangun analisis pada jarak nonsquared, yang kuadrat menjadi input yang mudah untuk perhitungan.] Untuk melihatnya (tentang kuadrat euclidean ), mari kita gambar tiga vektor kita.d
Vektor adalah satuan panjang (karena terstandarisasi). Cosinus dari sudut ( , , ) masing- adalah , , . Sudut-sudut ini menyebarkan jarak euclidean yang sesuai antara vektor: , , . Untuk kesederhanaan, ketiga vektor semuanya berada pada bidang yang sama (dan sudut antara dan adalah jumlah dari dua vektor lainnya, ). Ini adalah posisi di mana pelanggaran ketimpangan segitiga oleh jarak kuadrat paling menonjol.α β α+β rXY rXZ rYZ dXY dXZ dYZ X Z α+β
Karena, seperti yang dapat Anda lihat dengan mata, area kotak hijau unggul jumlah dari dua kotak merah: .d2YZ>d2XY+d2XZ
Karena itu mengenai
jarak kita bisa mengatakan itu bukan metrik. Karena bahkan ketika semua s awalnya positif jaraknya adalah euclidean yang itu sendiri bukan metrik.r d2
Bagaimana dengan jarak kedua?
Karena korelasi dalam kasus vektor standar adalah , adalah . (Memang, adalah regresi linier, kuantitas yang merupakan kuadrat korelasi variabel dependen dengan sesuatu yang ortogonal dengan prediktornya.) Dalam hal ini gambar sinus vektor, dan buatlah kuadratnya (karena kita berbicara tentang jarak yang ):r cos 1−r2 sin2 1−r2 sin2
SSerror/SStotal
Meskipun secara visual tidak terlalu jelas, kotak hijau lagi lebih besar dari jumlah area merah .sin2YZ sin2XY+sin2XZ
Itu bisa dibuktikan. Di pesawat, . Segi kedua sisi karena kami tertarik pada .sin(α+β)=sinαcosβ+cosαsinβ sin2
Dalam ungkapan terakhir, dua istilah penting ditampilkan dalam tanda kurung. Jika yang kedua dari keduanya (atau bisa) lebih besar dari yang pertama maka , dan jarak "d2" melanggar ketimpangan segitiga. Dan demikian pada gambar kami di mana sekitar 40 derajat dan sekitar 30 derajat (istilah 1 adalah dan istilah 2 adalah ). "D2" bukan metrik.αsin2(α+β)>sin2α+sin2β α β
.1033
.2132
Akar kuadrat dari jarak "d2" - ukuran ketidaksamaan sinus - adalah metrik (saya percaya). Anda dapat bermain dengan berbagai sudut dan di lingkaran saya untuk memastikan. Apakah "d2" akan menunjukkan metrik dalam pengaturan non-collinear (yaitu tiga vektor tidak pada pesawat) juga - Saya tidak bisa mengatakan pada saat ini, meskipun saya ragu-ragu mengira itu akan terjadi.βα β
sumber
Lihat juga pracetak ini yang saya tulis: http://arxiv.org/abs/1208.3145 . Saya masih perlu waktu dan mengirimkannya dengan benar. Abstrak:
Hasilnya untuk pertanyaan Anda adalah bahwa d1 , d2 memang bukan metrik dan bahwa akar kuadrat dari d2 sebenarnya adalah metrik yang tepat.
sumber
Tidak.
Contoh kontra paling sederhana:
untuk jaraknya tidak ditentukan sama sekali, apa pun Anda .YX=(0,0) Y
Setiap seri konstan memiliki standar deviasi , dan dengan demikian menyebabkan pembagian dengan nol dalam definisi ...C o rσ=0 Cor
Paling-paling itu adalah metrik pada subset ruang data, tidak termasuk seri konstan.
sumber