Saya mencari di web, tetapi tidak menemukan sesuatu yang bermanfaat.
Saya pada dasarnya mencari cara untuk mengukur seberapa 'nilai' didistribusikan secara merata. Seperti pada, distribusi terdistribusi 'merata' seperti X :
dan distribusi Y yang 'tidak merata' dengan mean dan standar deviasi yang kira-kira sama:
Tetapi apakah ada ukuran m, seperti m (X)> m (Y)? Jika tidak ada, apa cara terbaik untuk membuat ukuran seperti ini?
(Gambar tangkapan layar dari Khan Academy)
Jawaban:
Ukuran "kemerataan" standar, kuat, dipahami dengan baik, secara teoritis mapan, dan sering diterapkan Ripley K dan kerabat dekatnya, fungsi L. Meskipun ini biasanya digunakan untuk mengevaluasi konfigurasi titik spasial dua dimensi, analisis yang diperlukan untuk menyesuaikannya dengan satu dimensi (yang biasanya tidak diberikan dalam referensi) sederhana.
Teori
Fungsi K memperkirakan proporsi rata-rata titik dalam jarak dari titik tipikal. Untuk distribusi yang seragam pada interval [ 0 , 1 ] , proporsi sebenarnya dapat dihitung dan (asimtotik dalam ukuran sampel) sama dengan 1 - ( 1 - d ) 2 . Versi satu dimensi yang sesuai dari fungsi L mengurangi nilai ini dari K untuk menunjukkan penyimpangan dari keseragaman. Karena itu kami dapat mempertimbangkan untuk menormalkan setiap batch data untuk memiliki rentang unit dan memeriksa fungsi L untuk penyimpangan di sekitar nol.d [0,1] 1−(1−d)2
Contoh yang berhasil
Untuk menggambarkan , saya telah disimulasikan sampel independen dari ukuran 64 dari distribusi seragam dan diplot (dinormalisasi) fungsi L mereka untuk jarak pendek (dari 0 ke 1 / 3999 64 0 1/3 ), sehingga menciptakan sebuah amplop untuk memperkirakan distribusi sampling dari fungsi L. (Poin yang diplot dengan baik di dalam amplop ini tidak dapat dibedakan secara signifikan dari keseragaman.) Lebih dari ini saya telah merencanakan fungsi L untuk sampel dengan ukuran yang sama dari distribusi berbentuk-U, distribusi campuran dengan empat komponen yang jelas, dan distribusi Normal standar. Histogram sampel ini (dan distribusi induknya) ditunjukkan untuk referensi, menggunakan simbol garis untuk mencocokkan dengan fungsi L.
Paku tajam yang terpisah dari distribusi berbentuk-U (garis merah putus-putus, histogram paling kiri) membuat kluster nilai-nilai yang berjarak dekat. Ini tercermin oleh kemiringan yang sangat besar pada fungsi L pada . Fungsi L kemudian berkurang, akhirnya menjadi negatif untuk mencerminkan kesenjangan pada jarak menengah.0
Sampel dari distribusi normal (garis biru solid, histogram paling kanan) cukup dekat dengan terdistribusi secara merata. Dengan demikian, fungsi L-nya tidak berangkat dari dengan cepat. Namun, dengan jarak 0,100 0.10 atau lebih, itu telah naik cukup di atas amplop untuk memberi sinyal kecenderungan kecil untuk mengelompok. Terus naik melintasi jarak menengah menunjukkan pengelompokan tersebar dan tersebar luas (tidak terbatas pada beberapa puncak terisolasi).
Kemiringan besar awal untuk sampel dari distribusi campuran (histogram tengah) menunjukkan pengelompokan pada jarak kecil (kurang dari ). Dengan jatuh ke level negatif, itu menandakan pemisahan pada jarak menengah. Membandingkan ini dengan fungsi L distribusi berbentuk U mengungkapkan: kemiringan pada 0 , jumlah di mana kurva ini naik di atas 0 , dan tingkat di mana mereka akhirnya turun kembali ke 0 semua memberikan informasi tentang sifat dari gugus yang ada di data. Setiap karakteristik ini dapat dipilih sebagai ukuran tunggal "kerataan" yang sesuai dengan aplikasi tertentu.0.15 0 0 0
Contoh-contoh ini menunjukkan bagaimana fungsi-L dapat diperiksa untuk mengevaluasi keberangkatan data dari keseragaman ("evenness") dan bagaimana informasi kuantitatif tentang skala dan sifat keberangkatan dapat diekstraksi darinya.
(Seseorang memang dapat memplot seluruh fungsi L, meluas ke jarak penuh normalisasi , untuk menilai keberangkatan skala besar dari keseragaman. Namun, biasanya, menilai perilaku data pada jarak yang lebih kecil lebih penting.)1
Perangkat lunak
R
kode untuk menghasilkan gambar ini mengikuti. Dimulai dengan mendefinisikan fungsi untuk menghitung K dan L. Ini menciptakan kemampuan untuk mensimulasikan dari distribusi campuran. Kemudian menghasilkan data yang disimulasikan dan membuat plot.sumber
Ripley.L
.Saya berasumsi bahwa Anda ingin mengukur seberapa dekat distribusi ke seragam.
Anda dapat melihat jarak antara fungsi distribusi kumulatif dari distribusi seragam dan fungsi distribusi kumulatif empiris sampel.
Sekarang, sebagai ukuran jarak antara distribusi mari kita ambil jumlah jarak di setiap titik, yaitu
Dalam kasus yang lebih rumit, Anda perlu merevisi norma yang digunakan di atas, tetapi gagasan utamanya tetap sama. Jika Anda memerlukan prosedur pengujian, mungkin lebih baik menggunakan norma-norma untuk pengujian yang dikembangkan (yang ditunjukkan oleh @TomMinka).
sumber
Jika saya memahami pertanyaan Anda dengan benar, distribusi "paling genap" untuk Anda adalah di mana variabel acak mengambil setiap nilai yang diamati sekali - seragam dalam arti tertentu. Jika ada "kelompok" pengamatan dengan nilai yang sama, itu tidak merata. Dengan asumsi kita berbicara pengamatan terpisah, mungkin Anda bisa melihat baik perbedaan rata-rata antara titik massa probabilitas, perbedaan maksimum atau mungkin berapa banyak pengamatan memiliki perbedaan dari "rata-rata" pada ambang batas tertentu.
Jika itu benar-benar seragam dalam pengamatan, semua poin PM harus memiliki nilai yang sama, dan perbedaan antara maks dan min adalah 0. Semakin dekat perbedaan rata-rata adalah 0, semakin "bahkan" sebagian besar pengamatan adalah, semakin rendah perbedaan maksimum dan lebih sedikit "puncak" di sana juga menunjukkan bagaimana "bahkan" pengamatan empiris.
Pembaruan Tentu saja, Anda dapat menggunakan uji chi-square untuk keseragaman atau membandingkan fungsi distribusi empiris dengan seragam, tetapi dalam kasus-kasus itu, Anda akan dikenakan sanksi oleh "celah" besar dalam pengamatan, meskipun distribusi pengamatan masih "bahkan".
sumber
Ukuran yang Anda cari secara resmi disebut ketidakcocokan .
Versi satu dimensi adalah sebagai berikut:
Perbedaan itu kemudian membandingkan jumlah aktual poin dalam volume yang diberikan dengan jumlah yang diharapkan poin dalam volume itu, dengan asumsi urutanx1, ... , xN didistribusikan secara seragam di saya .
Urutan perbedaan rendah sering disebut urutan quasirandom .
Tinjauan dasar urutan perbedaan rendah dapat ditemukan di sini , dan posting blog saya " Efektivitas urutan quasirandom yang tidak masuk akal " membandingkan berbagai metode ketika diterapkan pada Integrasi Numerik, memetakan titik-titik ke permukaan bola, dan ubin kuasi berkala.
sumber
Sepertinya Anda tertarik pada perbedaan berpasangan dari nilai yang diamati secara acak dalam urutan tertentu, seperti dalam kasus pemodelan pertumbuhan atau tren. Ada sejumlah cara untuk melakukannya dalam analisis deret waktu. Pendekatan yang sangat mendasar hanyalah model linier sederhana yang melakukan regresi nilai urutan pada nilai indeksnya. Dalam kasus pertama, model linier Anda akan memberi Anda koefisien regresi tunggal 1 (prediktifR2= 1 ). Dalam kasus selanjutnya, ini akan menjadi koefisien 1,51 dan aR2 dari 0,78.
sumber