Saya mencoba membuat metrik untuk mengukur ketidaksamaan distribusi untuk percobaan yang saya jalankan. Saya memiliki variabel acak yang harus didistribusikan secara seragam dalam banyak kasus, dan saya ingin dapat mengidentifikasi (dan mungkin mengukur tingkat) contoh kumpulan data di mana variabel tidak terdistribusi secara seragam dalam margin tertentu.
Contoh tiga seri data masing-masing dengan 10 pengukuran yang mewakili frekuensi kemunculan sesuatu yang saya ukur mungkin kira-kira seperti ini:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Saya ingin dapat membedakan distribusi seperti c dari yang seperti a dan b, dan mengukur deviasi c dari distribusi yang seragam. Sama halnya, jika ada metrik untuk seberapa seragam suatu distribusi (std. Deviasi mendekati nol?), Saya mungkin dapat menggunakannya untuk membedakan yang dengan varian tinggi. Namun, data saya mungkin hanya memiliki satu atau dua outlier, seperti contoh c di atas, dan saya tidak yakin apakah itu akan mudah dideteksi dengan cara itu.
Saya dapat meretas sesuatu untuk melakukan ini dalam perangkat lunak, tetapi saya sedang mencari metode / pendekatan statistik untuk membenarkan ini secara formal. Saya mengikuti kelas bertahun-tahun yang lalu, tetapi statistik bukanlah bidang saya. Ini sepertinya sesuatu yang harus memiliki pendekatan terkenal. Maaf jika semua ini benar-benar berkepala tebal. Terima kasih sebelumnya!
Jawaban:
Jika Anda tidak hanya memiliki frekuensi tetapi jumlah sebenarnya, Anda dapat menggunakan goodness-of-fit untuk setiap seri data. Secara khusus, Anda ingin menggunakan tes untuk distribusi seragam diskrit . Ini memberi Anda tes yang baik , yang memungkinkan Anda untuk mengetahui seri data mana yang mungkin tidak dihasilkan oleh distribusi seragam, tetapi tidak memberikan ukuran keseragaman.χ2
Ada beberapa pendekatan lain yang mungkin, seperti menghitung entropi dari setiap seri - distribusi seragam memaksimalkan entropi, jadi jika entropi itu curiga rendah Anda akan menyimpulkan bahwa Anda mungkin tidak memiliki distribusi seragam. Itu berfungsi sebagai ukuran keseragaman dalam beberapa hal.
Saran lain adalah menggunakan ukuran seperti divergensi Kullback-Leibler , yang mengukur kesamaan dua distribusi.
sumber
Selain ide bagus @MansT, Anda bisa membuat langkah lain, tetapi itu tergantung pada apa yang Anda maksud dengan "ketidakseragaman". Agar sederhana, mari kita lihat 4 level. Keseragaman yang sempurna mudah untuk didefinisikan:
25 25 25 25
tetapi mana dari yang berikut ini yang lebih tidak seragam?
20 20 30 30 atau 20 20 25 35
atau apakah mereka sama-sama tidak seragam?
jika Anda berpikir mereka sama-sama tidak seragam, Anda bisa menggunakan ukuran berdasarkan jumlah nilai absolut dari penyimpangan dari normal, diskalakan dengan kemungkinan maksimum. Maka yang pertama adalah 5 + 5 + 5 + 5 = 20 dan yang kedua adalah 5 + 5 + 0 + 10 = 20. Tetapi jika Anda berpikir yang kedua lebih tidak seragam, Anda bisa menggunakan sesuatu berdasarkan penyimpangan kuadrat dalam hal mana pertama mendapat 25 + 25 + 25 + 25 = 100 dan yang kedua mendapat 25 + 25 + 0 + 100 = 150.
sumber
Berikut ini adalah heuristik sederhana: jika Anda mengasumsikan elemen dalam jumlah vektor apa pun ke (atau cukup menormalkan setiap elemen dengan jumlah untuk mencapai ini), maka keseragaman dapat diwakili oleh norma L2, yang berkisar dari 11 ke1, dengandmenjadi dimensi vektor.1d√ 1 d
Batas bawah sesuai dengan keseragaman dan batas atas kevektor1-hot.1d√ 1
Untuk skala ini ke skor antara dan 1 , Anda dapat menggunakan n ∗ √0 1 , dengannadalah norma L2.n∗d√−1d√−1 n
Contoh dimodifikasi dari Anda dengan elemen menjumlahkan ke dan semua vektor dengan dimensi yang sama untuk kesederhanaan:1
Berikut ini akan menghasilkan , 0,0051 , dan 0,4529 untuk baris:0.0028 0.0051 0.4529
sumber
Stumbled atas ini baru-baru ini, dan untuk menambah jawaban dari @ user495285, sejauh yang saya mengerti:
Saya percaya bahwa kegunaan langkah-langkah geometrik berlaku ketika setiap posisi (dimensi) dari ruang yang dijelaskan diasumsikan diukur pada skala ekuivalen, misalnya semua jumlah distribusi yang berpotensi sama. Asumsi yang sama yang mendasari perubahan basis seperti PCA / SVD mungkin serupa di sini. Tapi sekali lagi saya bukan ahli matematika, jadi saya akan membiarkan itu terbuka untuk lebih banyak informasi.
sumber