Saya memiliki dua set data (sumber dan data target) yang mengikuti distribusi yang berbeda. Saya menggunakan MMD - yang merupakan distribusi jarak non-parametrik - untuk menghitung distribusi marginal antara sumber dan data target.
sumber data, Xs
data target, Xt
Matriks adaptasi A
* Data yang diproyeksikan, Zs = A '* Xs dan Zt = A' Xt
* MMD => Jarak (P (Xs), P (Xt)) = | mean (A'Xs) - mean (A ' Xt) |
Itu berarti: jarak distribusi antara sumber dan data target di ruang asli setara dengan jarak antara sarana sumber yang diproyeksikan dan data target di ruang tertanam.
Saya punya pertanyaan tentang konsep MMD.
Dalam rumus MMD, Mengapa dengan jarak komputasi di ruang laten, kita bisa mengukur jarak distribusi di ruang asli?
Terima kasih
Jawaban:
Mungkin membantu untuk memberikan sedikit lebih banyak gambaran tentang MMD.
Secara umum, MMD didefinisikan oleh gagasan untuk merepresentasikan jarak antar distribusi sebagai jarak antara rata - rata embedding fitur. Artinya, katakanlah kita memiliki distribusi dan lebih dari satu set . MMD didefinisikan oleh peta fitur , di mana adalah apa yang disebut ruang reproduksi kernel Hilbert. Secara umum, MMD adalahP Q X φ:X→H H MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Sebagai satu contoh, kita mungkin memiliki dan . Dalam hal ini: sehingga MMD ini hanya jarak antara rata-rata dari dua distribusi. Distribusi yang cocok seperti ini akan cocok dengan kemampuan mereka, meskipun mereka mungkin berbeda dalam variansnya atau dengan cara lain.X=H=Rd φ(x)=x MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Kasus Anda sedikit berbeda: kami memiliki dan , dengan , di mana adalah matriks . Jadi kita memiliki MMD ini adalah perbedaan antara dua proyeksi yang berbeda dari rata-rata. Jika atau pemetaan sebaliknya tidak dapat dibalik,X=Rd H=Rp φ(x)=A′x A d×p MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp. p<d A′ daripada yang sebelumnya: itu tidak membedakan antara beberapa distribusi yang sebelumnya tidak.
Anda juga dapat membangun jarak yang lebih kuat. Misalnya, jika dan Anda menggunakan , maka MMD menjadi , dan dapat membedakan tidak hanya distribusi dengan cara yang berbeda tetapi dengan varian yang berbeda juga.X=R φ(x)=(x,x2) (EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Dan Anda bisa mendapatkan yang lebih kuat dari itu: jika memetakan ke ruang Hilbert kernel mereproduksi umum, maka Anda dapat menerapkan trik kernel untuk menghitung MMD, dan ternyata banyak kernel, termasuk kernel Gaussian, mengarah ke MMD menjadi nol jika dan hanya distribusinya yang identik.φ
Secara khusus, membiarkan , Anda mendapatkan yang dapat Anda perkirakan secara langsung dengan sampel.k(x,y)=⟨φ(x),φ(y)⟩H MMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Pembaruan: dari sinilah "maksimum" dari namanya berasal.
Peta fitur memetakan ke dalam ruang Hilbert yang direproduksi. Ini adalah ruang fungsi , dan memenuhi properti kunci (disebut properti reproduksi ): untuk setiap .φ:X→H ⟨ f , φ ( x ) ⟩ H = f ( x ) f ∈ H⟨f,φ(x)⟩H=f(x) f∈H
Dalam contoh paling sederhana, dengan , kita melihat setiap sebagai fungsi yang berhubungan dengan beberapa , oleh . Maka properti reproduksi harus masuk akal.X=H=Rd φ(x)=x f∈H w∈Rd f(x)=w′x ⟨f,φ(x)⟩H=⟨w,x⟩Rd
Dalam pengaturan yang lebih kompleks, seperti kernel Gaussian, adalah fungsi yang jauh lebih rumit, tetapi properti reproduksi masih bertahan.f
Sekarang, kita dapat memberikan karakterisasi alternatif MMD: Baris kedua adalah fakta umum tentang norma di ruang Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)]. supf:∥f∥≤1⟨f,g⟩H=∥g∥ dicapai oleh . Yang keempat tergantung pada kondisi teknis yang dikenal sebagai integrasi Bochner tetapi benar misalnya untuk kernel atau distribusi terbatas dengan dukungan terikat. Kemudian pada akhirnya kami menggunakan properti reproduksi.f=g/∥g∥
Baris terakhir ini adalah mengapa ini disebut "perbedaan rata-rata maksimum" - itu adalah maksimum, lebih dari fungsi uji dalam satuan bola , dari perbedaan rata-rata antara dua distribusi.f H
sumber
Inilah cara saya menginterpretasikan MMD. Dua distribusi serupa jika momen mereka serupa. Dengan menerapkan kernel, saya dapat mengubah variabel sehingga semua momen (pertama, kedua, ketiga dll) dihitung. Di ruang laten saya dapat menghitung perbedaan antara momen dan rata-rata. Ini memberikan ukuran kesamaan / ketidaksamaan antara dataset.
sumber