Apa perbedaan praktis antara metrik Wasserstein dan divergensi Kullback-Leibler ? Metrik Wasserstein juga disebut sebagai jarak penggerak Bumi .
Dari Wikipedia:
Metrik Wasserstein (atau Vaserstein) adalah fungsi jarak yang didefinisikan antara distribusi probabilitas pada ruang metrik M.
dan
Divergensi Kullback – Leibler adalah ukuran bagaimana satu distribusi probabilitas berbeda dari distribusi probabilitas kedua yang diharapkan.
Saya telah melihat KL telah digunakan dalam implementasi pembelajaran mesin, tetapi saya baru-baru ini menemukan metrik Wasserstein. Apakah ada pedoman yang baik tentang kapan harus menggunakan satu atau yang lain?
(Saya tidak memiliki reputasi yang cukup untuk membuat tag baru dengan Wasserstein
atau Earth mover's distance
.)
sumber
Jawaban:
Ketika mempertimbangkan keunggulan metrik Wasserstein dibandingkan dengan divergensi KL, maka yang paling jelas adalah bahwa W adalah metrik sedangkan KL divergensi tidak, karena KL tidak simetris (yaitu secara umum) dan tidak memenuhi ketidaksetaraan segitiga (yaitu tidak berlaku secara umum).D K L ( R | | P ) ≤ D K L ( Q | | P ) + D K L ( R | | Q )DKL.( P||Q)≠DKL(Q||P) DKL.( R | | P)≤DKL(Q||P)+DKL(R||Q)
Karena perbedaan praktis, maka salah satu yang paling penting adalah bahwa tidak seperti KL (dan banyak tindakan lainnya) Wasserstein memperhitungkan ruang metrik dan apa artinya ini dalam istilah yang kurang abstrak mungkin paling baik dijelaskan dengan contoh (jangan ragu untuk melewati ke gambar, kode hanya untuk memproduksinya):
Di sini ukuran antara distribusi merah dan biru sama untuk divergensi KL sedangkan jarak Wasserstein mengukur pekerjaan yang diperlukan untuk mengangkut massa probabilitas dari kondisi merah ke kondisi biru menggunakan sumbu x sebagai "jalan". Ukuran ini jelas semakin besar semakin jauh probabilitas massa (maka jarak alias penggerak bumi). Jadi yang mana yang ingin Anda gunakan tergantung pada area aplikasi Anda dan apa yang ingin Anda ukur. Sebagai catatan, alih-alih KL divergensi ada juga opsi lain seperti jarak Jensen-Shannon yang merupakan metrik yang tepat.
sumber
Metrik Wasserstein paling sering muncul dalam masalah transportasi optimal di mana tujuannya adalah untuk memindahkan berbagai hal dari konfigurasi yang diberikan ke konfigurasi yang diinginkan dalam biaya minimum atau jarak minimum. Kullback-Leibler (KL) adalah divergensi (bukan metrik) dan sangat sering muncul dalam statistik, pembelajaran mesin, dan teori informasi.
Juga, metrik Wasserstein tidak mengharuskan kedua ukuran berada pada ruang probabilitas yang sama, sedangkan divergensi KL mengharuskan kedua ukuran tersebut harus didefinisikan pada ruang probabilitas yang sama.
Mungkin tempat termudah untuk melihat perbedaan antara jarak Wasserstein dan divergensi KL adalah dalam kasus Gaussian multivariat di mana keduanya memiliki solusi bentuk tertutup. Mari kita asumsikan bahwa distribusi ini memiliki dimensi , berarti , dan matriks kovarians , untuk . Mereka dua formula adalah:k μsaya Σsaya i = 1 , 2
sumber
Metrik Wasserstein berguna dalam validasi model karena unitnya adalah respons itu sendiri. Sebagai contoh, jika Anda membandingkan dua representasi stokastik dari sistem yang sama (misalnya model pesanan rendah), dan , dan responsnya adalah unit perpindahan, metrik Wasserstein juga dalam satuan perpindahan. Jika Anda mengurangi representasi stokastik Anda menjadi deterministik, CDF distribusi masing-masing adalah fungsi langkah. Metrik Wasserstein adalah perbedaan nilainya.P Q
Saya menemukan properti ini menjadi ekstensi yang sangat alami untuk berbicara tentang perbedaan absolut antara dua variabel acak
sumber