Saya memiliki masalah yang mirip dengan pertanyaan yang diajukan di sini:
Bagaimana cara mengukur ketidakseragaman suatu distribusi?
Saya memiliki satu set distribusi probabilitas selama beberapa hari dalam seminggu. Saya ingin mengukur seberapa dekat masing-masing distribusi dengan (1 / 7,1 / 7, ..., 1/7).
Saat ini saya menggunakan jawaban dari pertanyaan di atas; sebuah L2-Norm, yang memiliki nilai 1 ketika distribusi memiliki massa 1 untuk satu hari, dan diminimalkan untuk (1 / 7,1 / 7, ..., 1/7). Saya skala linear ini sehingga terletak antara 0 dan 1, kemudian membalik sehingga 0 berarti tidak seragam dan 1 berarti seragam sempurna.
Ini bekerja cukup baik, tetapi saya punya satu masalah dengan itu; itu memperlakukan setiap hari kerja secara sama sebagai dimensi dalam ruang 7-Dim, sehingga tidak memperhitungkan kedekatan hari; dengan kata lain, memberikan skor yang sama dengan (1 / 2,1 / 2,0,0,0,0,0) dan (1 / 2,0,0,1 / 2,0,0,0) bahkan meskipun dalam beberapa hal yang terakhir lebih "menyebar" dan seragam, dan idealnya harus mendapatkan skor yang lebih tinggi. Jelas ada kerumitan tambahan bahwa urutan hari adalah lingkaran.
Bagaimana saya bisa mengubah heuristik ini untuk memperhitungkan hampir hari?
Jawaban:
The penggerak bumi jarak , juga dikenal sebagai Wasserstein metrik, mengukur jarak antara dua histogram. Pada dasarnya, ini menganggap satu histogram sebagai sejumlah tumpukan kotoran dan kemudian menilai berapa banyak kotoran yang perlu dipindahkan dan seberapa jauh (!) Untuk mengubah histogram ini menjadi yang lain. Anda akan mengukur jarak antara distribusi Anda dan seragam selama hari-hari dalam seminggu.
Ini tentu saja menyumbang dekat hari - lebih mudah untuk memindahkan "kotoran" dari Senin hingga Selasa daripada dari Senin hingga Kamis, sehingga (1 / 2,0,0,1 / 2,0,0,0) akan memiliki jarak penggerak bumi yang lebih rendah dari distribusi seragam daripada histogram yang terkonsentrasi pada hari Senin dan Selasa.
Apa yang tidak dilakukan adalah mempertimbangkan "sirkularitas" dalam minggu itu, yaitu bahwa hari Sabtu dan Minggu sama dekatnya seperti hari Minggu dan Senin. Untuk itu, Anda perlu mencari jarak penggerak bumi yang ditentukan pada distribusi massa probabilitas sirkuler . Ini harus dilakukan dengan menggunakan pendekatan optimasi yang sesuai.
EDIT: Dalam R,
emd
paket menghitung jarak penggerak bumi antara histogram.Anda dapat mengatasi masalah "sirkularitas" dengan cara yang cukup sederhana (meskipun ad-hoc).
Ini menangani edaran dengan mengorbankan beberapa perhitungan tambahan.
Namun, saya masih menganggap ini sebagai cara yang berpotensi bermanfaat untuk setidaknya mempertimbangkan sirkularitas dalam beberapa cara - tentu lebih baik daripada hanya menggunakan histogram tunggal dan mendefinisikan minggu sebagai pergi dari hari Minggu hingga Sabtu atau dalam beberapa cara sewenang-wenang lainnya. Plus, sementara beberapa tautan di atas mengaktifkan implementasi untuk jarak penggerak bumi melingkar, saya tidak mengetahui satu untuk R, yang mungkin merupakan bahasa yang paling banyak digunakan di sini.
sumber