Saya sedang menjalankan simulasi cepat untuk membandingkan metode pengelompokan yang berbeda, dan saat ini mengalami kesulitan mencoba untuk mengevaluasi solusi cluster.
Saya tahu berbagai metrik validasi (banyak ditemukan di cluster.stats () di R), tetapi saya menganggap itu paling baik digunakan jika perkiraan jumlah cluster sebenarnya sama dengan jumlah sebenarnya dari cluster. Saya ingin mempertahankan kemampuan untuk mengukur seberapa baik kinerja suatu solusi clustering ketika itu tidak menentukan jumlah cluster yang benar dalam simulasi asli (yaitu, seberapa baik data model solusi tiga cluster yang disimulasikan untuk memiliki 4-cluster larutan). Sekadar informasi Anda, cluster disimulasikan untuk memiliki matriks kovarian yang identik.
Saya pikir perbedaan KL antara dua campuran Gaussians akan berguna untuk diterapkan, tetapi tidak ada solusi bentuk tertutup ( Hershey dan Olson (2007) ) dan menerapkan simulasi Monte Carlo mulai mahal secara komputasi.
Apakah ada solusi lain yang mungkin mudah diimplementasikan (bahkan jika hanya perkiraan)?
Jawaban:
Misalkan kita memiliki dua campuran Gaussian di : Panggil kepadatan mereka dan , masing-masing, dan menunjukkan kepadatan komponen mereka , oleh , .Rd
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj). p(⋅) q(⋅) Pi Qj pi(x)=N(x;μi,Σi) qj(x)=N(x;mj,Sj)
Jarak-jarak berikut tersedia dalam bentuk tertutup:
Perbedaan rata-rata maksimum (MMD) dengan kernel Gaussian RBF. Ini adalah jarak yang keren, belum terkenal di antara komunitas statistik, yang membutuhkan sedikit matematika untuk didefinisikan.
Membiarkan tentukan ruang Hilbert sebagai kernel Hilbert mereproduksi sesuai dengan : .k(x,y):=exp(−12σ2∥x−y∥2), H k k(x,y)=⟨φ(x),φ(y)⟩H
Tentukan kernel peta rata - rata sebagaiK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
MMD kemudianMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Untuk campuran dan , perhatikan bahwa dan demikian pula untuk dan .P Q K(P,Q)=∑i,jαiβjK(Pi,Qj) K(P,P) K(Q,Q)
Ternyata, menggunakan trik serupa seperti untuk , bahwa adalahL2 K(N(μ,Σ),N(μ′,Σ′)) (2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Sebagai , jelas ini menyatu dengan kelipatan dari jarak . Anda biasanya ingin menggunakan berbeda , meskipun, satu pada skala variasi data.σ→0 L2 σ
Formulir tertutup juga tersedia untuk kernel polinomial dalam MMD; Lihatk
Untuk banyak properti bagus dari jarak ini, lihat
Divergensi Jensen-Rényi kuadratik. Entropi Rényi- didefinisikan sebagai Batasnya sebagai adalah entropi Shannon. Divergensi Jensen-Rényi adalah mana menunjukkan campuran yang sama antara dan . Ternyata, ketika dan ketika dan adalah campuran Gaussian (seperti di sini), Anda dapat menghitung formulir tertutup untuk . Ini dilakukan olehα Hα(p)=11−αlog(∫p(x)αdx). α→1 JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2 p+q2 p q α=2 P Q JR2
sumber
Jika cluster Anda sebenarnya bukan campuran Gaussian tetapi dibentuk secara sewenang-wenang, hasil Anda mungkin sebenarnya jauh lebih baik ketika Anda menghasilkan lebih banyak cluster, kemudian menggabungkannya lagi setelahnya.
Dalam banyak kasus, seseorang hanya memilih k menjadi tinggi sewenang-wenang, misalnya 1000 untuk kumpulan data besar; khususnya ketika Anda tidak benar-benar tertarik pada model, tetapi hanya ingin mengurangi kerumitan set data melalui kuantisasi vektor.
sumber
Berikut ini adalah generalisasi dari Mahalanobis D ke GMM menggunakan metode Fisher Kernel dan teknik lainnya:
Tipping, Michael E. "Mendapatkan fungsi jarak analitik kluster dari model campuran Gaussian." (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Lihat juga: Apakah ada versi multi-Gaussian untuk jarak Mahalanobis?
sumber