Perbedaan Berarti Maksimum (distribusi jarak)

15

Saya memiliki dua set data (sumber dan data target) yang mengikuti distribusi yang berbeda. Saya menggunakan MMD - yang merupakan distribusi jarak non-parametrik - untuk menghitung distribusi marginal antara sumber dan data target.

sumber data, Xs

data target, Xt

Matriks adaptasi A

* Data yang diproyeksikan, Zs = A '* Xs dan Zt = A' Xt

* MMD => Jarak (P (Xs), P (Xt)) = | mean (A'Xs) - mean (A ' Xt) |

Itu berarti: jarak distribusi antara sumber dan data target di ruang asli setara dengan jarak antara sarana sumber yang diproyeksikan dan data target di ruang tertanam.

Saya punya pertanyaan tentang konsep MMD.

Dalam rumus MMD, Mengapa dengan jarak komputasi di ruang laten, kita bisa mengukur jarak distribusi di ruang asli?

Terima kasih

Mahsa
sumber
Anda belum benar-benar mengajukan pertanyaan: Anda hanya memberi tahu kami bahwa Anda bingung!
whuber

Jawaban:

44

Mungkin membantu untuk memberikan sedikit lebih banyak gambaran tentang MMD.

Secara umum, MMD didefinisikan oleh gagasan untuk merepresentasikan jarak antar distribusi sebagai jarak antara rata - rata embedding fitur. Artinya, katakanlah kita memiliki distribusi dan lebih dari satu set . MMD didefinisikan oleh peta fitur , di mana adalah apa yang disebut ruang reproduksi kernel Hilbert. Secara umum, MMD adalah PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Sebagai satu contoh, kita mungkin memiliki dan . Dalam hal ini: sehingga MMD ini hanya jarak antara rata-rata dari dua distribusi. Distribusi yang cocok seperti ini akan cocok dengan kemampuan mereka, meskipun mereka mungkin berbeda dalam variansnya atau dengan cara lain.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Kasus Anda sedikit berbeda: kami memiliki dan , dengan , di mana adalah matriks . Jadi kita memiliki MMD ini adalah perbedaan antara dua proyeksi yang berbeda dari rata-rata. Jika atau pemetaan sebaliknya tidak dapat dibalik,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA daripada yang sebelumnya: itu tidak membedakan antara beberapa distribusi yang sebelumnya tidak.

Anda juga dapat membangun jarak yang lebih kuat. Misalnya, jika dan Anda menggunakan , maka MMD menjadi , dan dapat membedakan tidak hanya distribusi dengan cara yang berbeda tetapi dengan varian yang berbeda juga.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Dan Anda bisa mendapatkan yang lebih kuat dari itu: jika memetakan ke ruang Hilbert kernel mereproduksi umum, maka Anda dapat menerapkan trik kernel untuk menghitung MMD, dan ternyata banyak kernel, termasuk kernel Gaussian, mengarah ke MMD menjadi nol jika dan hanya distribusinya yang identik.φ

Secara khusus, membiarkan , Anda mendapatkan yang dapat Anda perkirakan secara langsung dengan sampel.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Pembaruan: dari sinilah "maksimum" dari namanya berasal.

Peta fitur memetakan ke dalam ruang Hilbert yang direproduksi. Ini adalah ruang fungsi , dan memenuhi properti kunci (disebut properti reproduksi ): untuk setiap .φ:XHf , φ ( x ) H = f ( x ) f Hf,φ(x)H=f(x)fH

Dalam contoh paling sederhana, dengan , kita melihat setiap sebagai fungsi yang berhubungan dengan beberapa , oleh . Maka properti reproduksi harus masuk akal.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

Dalam pengaturan yang lebih kompleks, seperti kernel Gaussian, adalah fungsi yang jauh lebih rumit, tetapi properti reproduksi masih bertahan.f

Sekarang, kita dapat memberikan karakterisasi alternatif MMD: Baris kedua adalah fakta umum tentang norma di ruang Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g dicapai oleh . Yang keempat tergantung pada kondisi teknis yang dikenal sebagai integrasi Bochner tetapi benar misalnya untuk kernel atau distribusi terbatas dengan dukungan terikat. Kemudian pada akhirnya kami menggunakan properti reproduksi.f=g/g

Baris terakhir ini adalah mengapa ini disebut "perbedaan rata-rata maksimum" - itu adalah maksimum, lebih dari fungsi uji dalam satuan bola , dari perbedaan rata-rata antara dua distribusi.fH

Dougal
sumber
Terima kasih atas penjelasan Anda, menjadi lebih jelas bagi saya; Masih saya tidak mendapatkan konsep ini, Pada awalnya, Anda berkata: "MMD didefinisikan oleh gagasan mewakili jarak antara distribusi sebagai jarak antara rata-rata fitur embeddings." Mengapa ide ini menjadi kenyataan?
Mahsa
"MMD didefinisikan oleh gagasan untuk merepresentasikan jarak antar distribusi sebagai jarak antara rata-rata embedding fitur." Mengapa ide ini menjadi kenyataan? Apakah ini terkait dengan ruang RKHS?
Mahsa
1
Itu hanya definisi: Anda dapat membandingkan distribusi dengan membandingkan artinya. Atau, Anda dapat membandingkan distribusi dengan membandingkan beberapa transformasi sarana mereka; atau dengan membandingkan cara dan varians mereka; atau dengan membandingkan rata-rata peta fitur lainnya, termasuk satu di RKHS.
Dougal
Terimakasih atas tanggapan Anda; Saya akan membaca lebih lanjut tentang peta fitur RKHS; Saya bertanya-tanya, mengapa MMD mendefinisikan jarak dalam peta fitur RKHS? Maksud saya, apa manfaat RKHS dalam definisi jarak MMD?
Mahsa
Penjelasan di sini difokuskan pada "Perbedaan Perbedaan" sebagai kebalikan dari "Perbedaan Perbedaan Maksimum". Adakah yang bisa menjelaskan bagian "Maksimalisasi"?
Jiang Xiang
5

Inilah cara saya menginterpretasikan MMD. Dua distribusi serupa jika momen mereka serupa. Dengan menerapkan kernel, saya dapat mengubah variabel sehingga semua momen (pertama, kedua, ketiga dll) dihitung. Di ruang laten saya dapat menghitung perbedaan antara momen dan rata-rata. Ini memberikan ukuran kesamaan / ketidaksamaan antara dataset.

rsambasivan
sumber