Ukur keseragaman distribusi selama hari kerja

11

Saya memiliki masalah yang mirip dengan pertanyaan yang diajukan di sini:

Bagaimana cara mengukur ketidakseragaman suatu distribusi?

Saya memiliki satu set distribusi probabilitas selama beberapa hari dalam seminggu. Saya ingin mengukur seberapa dekat masing-masing distribusi dengan (1 / 7,1 / 7, ..., 1/7).

Saat ini saya menggunakan jawaban dari pertanyaan di atas; sebuah L2-Norm, yang memiliki nilai 1 ketika distribusi memiliki massa 1 untuk satu hari, dan diminimalkan untuk (1 / 7,1 / 7, ..., 1/7). Saya skala linear ini sehingga terletak antara 0 dan 1, kemudian membalik sehingga 0 berarti tidak seragam dan 1 berarti seragam sempurna.

Ini bekerja cukup baik, tetapi saya punya satu masalah dengan itu; itu memperlakukan setiap hari kerja secara sama sebagai dimensi dalam ruang 7-Dim, sehingga tidak memperhitungkan kedekatan hari; dengan kata lain, memberikan skor yang sama dengan (1 / 2,1 / 2,0,0,0,0,0) dan (1 / 2,0,0,1 / 2,0,0,0) bahkan meskipun dalam beberapa hal yang terakhir lebih "menyebar" dan seragam, dan idealnya harus mendapatkan skor yang lebih tinggi. Jelas ada kerumitan tambahan bahwa urutan hari adalah lingkaran.

Bagaimana saya bisa mengubah heuristik ini untuk memperhitungkan hampir hari?

EBartrum
sumber
1
Contoh Anda (1 / 2,1 / 2,0,0,0,0,0) dan (1 / 2,0,0,1 / 2,0,0,0) tidak seragam dengan cara yang sama , jadi tidak masalah jika Anda hanya tertarik untuk menguji ketidakseragaman. Jadi mungkin Anda ingin menguji sesuatu yang tidak dinyatakan secara eksplisit dalam pertanyaan Anda? Btw, entropi adalah ukuran keseragaman.
Tim
Terima kasih Tim, saya telah mencoba menggunakan Entropy tetapi saya menemukan heuristik yang disebutkan di atas berfungsi lebih baik untuk tujuan saya. Saya tidak yakin apa yang harus disebut properti dari distribusi probabilitas selama hari kerja yang saya minati, kecuali bahwa properti tersebut harus merangkum "penyebaran" probabilitas selama seminggu.
EBartrum

Jawaban:

15

The penggerak bumi jarak , juga dikenal sebagai Wasserstein metrik, mengukur jarak antara dua histogram. Pada dasarnya, ini menganggap satu histogram sebagai sejumlah tumpukan kotoran dan kemudian menilai berapa banyak kotoran yang perlu dipindahkan dan seberapa jauh (!) Untuk mengubah histogram ini menjadi yang lain. Anda akan mengukur jarak antara distribusi Anda dan seragam selama hari-hari dalam seminggu.

Ini tentu saja menyumbang dekat hari - lebih mudah untuk memindahkan "kotoran" dari Senin hingga Selasa daripada dari Senin hingga Kamis, sehingga (1 / 2,0,0,1 / 2,0,0,0) akan memiliki jarak penggerak bumi yang lebih rendah dari distribusi seragam daripada histogram yang terkonsentrasi pada hari Senin dan Selasa.

Apa yang tidak dilakukan adalah mempertimbangkan "sirkularitas" dalam minggu itu, yaitu bahwa hari Sabtu dan Minggu sama dekatnya seperti hari Minggu dan Senin. Untuk itu, Anda perlu mencari jarak penggerak bumi yang ditentukan pada distribusi massa probabilitas sirkuler . Ini harus dilakukan dengan menggunakan pendekatan optimasi yang sesuai.


EDIT: Dalam R, emdpaket menghitung jarak penggerak bumi antara histogram.

Anda dapat mengatasi masalah "sirkularitas" dengan cara yang cukup sederhana (meskipun ad-hoc).

  • d1
  • d2
  • d3
  • ...
  • d1,,d7

Ini menangani edaran dengan mengorbankan beberapa perhitungan tambahan.

di

Namun, saya masih menganggap ini sebagai cara yang berpotensi bermanfaat untuk setidaknya mempertimbangkan sirkularitas dalam beberapa cara - tentu lebih baik daripada hanya menggunakan histogram tunggal dan mendefinisikan minggu sebagai pergi dari hari Minggu hingga Sabtu atau dalam beberapa cara sewenang-wenang lainnya. Plus, sementara beberapa tautan di atas mengaktifkan implementasi untuk jarak penggerak bumi melingkar, saya tidak mengetahui satu untuk R, yang mungkin merupakan bahasa yang paling banyak digunakan di sini.

Stephan Kolassa
sumber
3
d1,,d7di
@JiK: poin bagus, dan satu hal yang juga terpikir oleh saya setelah saya kehilangan konektivitas kemarin. Saya mengklarifikasi jawaban saya untuk menekankan bahwa ini adalah jarak penggerak perputaran bumi yang tidak nyata.
Stephan Kolassa
1
Terima kasih banyak, pada kenyataannya saya berhasil menerapkan jarak penggerak bumi melingkar di R dengan paket emd dan fungsi emd2d, dengan mendefinisikan fungsi jarak saya sendiri, jadi tidak perlu menggunakan retasan yang Anda sebutkan. Ini persis apa yang saya cari! Satu hal sepele lainnya: Apa yang harus saya sebut? Seperti yang dikatakan Tim di atas, saya tidak seharusnya menyebut keseragaman ini. Apa nama yang cocok untuk heuristik ini?
EBartrum
1
L2