Apa kelebihan metrik Wasserstein dibandingkan dengan divergensi Kullback-Leibler?

25

Apa perbedaan praktis antara metrik Wasserstein dan divergensi Kullback-Leibler ? Metrik Wasserstein juga disebut sebagai jarak penggerak Bumi .

Dari Wikipedia:

Metrik Wasserstein (atau Vaserstein) adalah fungsi jarak yang didefinisikan antara distribusi probabilitas pada ruang metrik M.

dan

Divergensi Kullback – Leibler adalah ukuran bagaimana satu distribusi probabilitas berbeda dari distribusi probabilitas kedua yang diharapkan.

Saya telah melihat KL telah digunakan dalam implementasi pembelajaran mesin, tetapi saya baru-baru ini menemukan metrik Wasserstein. Apakah ada pedoman yang baik tentang kapan harus menggunakan satu atau yang lain?

(Saya tidak memiliki reputasi yang cukup untuk membuat tag baru dengan Wassersteinatau Earth mover's distance.)

distributions kullback-leibler metric wasserstein Thomas Fauskanger
sumber

Di mana saya menemukan metrik Wasserstein: github.com/RaRe-Technologies/movie-plots-by-genre/blob/master/…

Thomas Fauskanger

1

mengedit posting untuk menambahkan tag Wasserstein berdasarkan permintaan poster. Juga menambahkan jawaban.

Lucas Roberts

28

Ketika mempertimbangkan keunggulan metrik Wasserstein dibandingkan dengan divergensi KL, maka yang paling jelas adalah bahwa W adalah metrik sedangkan KL divergensi tidak, karena KL tidak simetris (yaitu secara umum) dan tidak memenuhi ketidaksetaraan segitiga (yaitu tidak berlaku secara umum). $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ $D_{KL}(R||P) \leq D_{KL}(Q||P) + D_{KL}(R||Q)$

Karena perbedaan praktis, maka salah satu yang paling penting adalah bahwa tidak seperti KL (dan banyak tindakan lainnya) Wasserstein memperhitungkan ruang metrik dan apa artinya ini dalam istilah yang kurang abstrak mungkin paling baik dijelaskan dengan contoh (jangan ragu untuk melewati ke gambar, kode hanya untuk memproduksinya):

# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)

fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()

Di sini ukuran antara distribusi merah dan biru sama untuk divergensi KL sedangkan jarak Wasserstein mengukur pekerjaan yang diperlukan untuk mengangkut massa probabilitas dari kondisi merah ke kondisi biru menggunakan sumbu x sebagai "jalan". Ukuran ini jelas semakin besar semakin jauh probabilitas massa (maka jarak alias penggerak bumi). Jadi yang mana yang ingin Anda gunakan tergantung pada area aplikasi Anda dan apa yang ingin Anda ukur. Sebagai catatan, alih-alih KL divergensi ada juga opsi lain seperti jarak Jensen-Shannon yang merupakan metrik yang tepat.

antike
sumber

6

Metrik Wasserstein paling sering muncul dalam masalah transportasi optimal di mana tujuannya adalah untuk memindahkan berbagai hal dari konfigurasi yang diberikan ke konfigurasi yang diinginkan dalam biaya minimum atau jarak minimum. Kullback-Leibler (KL) adalah divergensi (bukan metrik) dan sangat sering muncul dalam statistik, pembelajaran mesin, dan teori informasi.

Juga, metrik Wasserstein tidak mengharuskan kedua ukuran berada pada ruang probabilitas yang sama, sedangkan divergensi KL mengharuskan kedua ukuran tersebut harus didefinisikan pada ruang probabilitas yang sama.

Mungkin tempat termudah untuk melihat perbedaan antara jarak Wasserstein dan divergensi KL adalah dalam kasus Gaussian multivariat di mana keduanya memiliki solusi bentuk tertutup. Mari kita asumsikan bahwa distribusi ini memiliki dimensi , berarti , dan matriks kovarians , untuk . Mereka dua formula adalah: $k$ $\mu_i$ $\Sigma_i$ $i=1,2$

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2} + t r (Σ_{1} + Σ_{2} - 2 (Σ_{2}^{1 / 2} Σ_{1} Σ_{2}^{1 / 2})^{1 / 2})

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2 + \mathop{\mathrm{tr}} \bigl( \Sigma_1 + \Sigma_2 - 2 \bigl( \Sigma_2^{1/2} \Sigma_1 \Sigma_2^{1/2} \bigr)^{1/2} \bigr)$ dan Untuk mempermudah, mari kita pertimbangkan dan . Dengan asumsi penyederhanaan ini, istilah jejak di Wasserstein adalah dan istilah jejak di divergensi KL akan menjadi 0 bila dikombinasikan dengan istilah dan rasio penentu log juga

D_{KL} (N_{0}, N_{1}) = \frac{1}{2} (tr (Σ_{1}^{- 1} Σ_{0}) + (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) - k + dalam (\frac{det Σ_{1}}{det Σ_{0}})) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = \frac{1}{2}\left( \operatorname{tr} \left(\Sigma_1^{-1}\Sigma_0\right) + (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0) - k + \ln \left(\frac{\det\Sigma_1}{\det\Sigma_0}\right) \right).$

Σ_{1} = Σ_{2} = w I_{k}

$\Sigma_1=\Sigma_2=wI_k$

μ_{1} \neq μ_{2}

$\mu_1\neq\mu_2$

0

$0$

- k

$-k$

0

$0$ , jadi dua kuantitas ini menjadi: dan Perhatikan bahwa jarak Wasserstein tidak berubah jika perubahan varians (katakanlah take sebagai jumlah besar di matriks kovarians) sedangkan perbedaan KL tidak. Ini karena jarak Wasserstein adalah fungsi jarak dalam ruang dukungan gabungan dari dua ukuran probabilitas. Sebaliknya divergensi KL adalah divergensi dan divergensi ini berubah berdasarkan ruang informasi (rasio sinyal terhadap noise) dari distribusi.

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2}

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2$

D_{KL} (N_{0}, N_{1}) = (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0).$

w

$w$

Lucas Roberts
sumber

1

Metrik Wasserstein berguna dalam validasi model karena unitnya adalah respons itu sendiri. Sebagai contoh, jika Anda membandingkan dua representasi stokastik dari sistem yang sama (misalnya model pesanan rendah), dan , dan responsnya adalah unit perpindahan, metrik Wasserstein juga dalam satuan perpindahan. Jika Anda mengurangi representasi stokastik Anda menjadi deterministik, CDF distribusi masing-masing adalah fungsi langkah. Metrik Wasserstein adalah perbedaan nilainya. $P$ $Q$

Saya menemukan properti ini menjadi ekstensi yang sangat alami untuk berbicara tentang perbedaan absolut antara dua variabel acak

Justin Winokur
sumber

Apa kelebihan metrik Wasserstein dibandingkan dengan divergensi Kullback-Leibler?

Jawaban: