Ukur keseragaman distribusi titik dalam bujur sangkar 2D

11

Saya memiliki kotak 2D, dan saya memiliki satu set poin di dalamnya, katakanlah, 1000 poin. Saya perlu cara untuk melihat apakah distribusi titik di dalam alun-alun tersebar (atau kurang lebih terdistribusi secara merata) atau apakah mereka cenderung berkumpul bersama di beberapa tempat di dalam alun-alun.

Saya perlu cara matematika / statistik (bukan pemrograman) untuk menentukan ini. Saya mencari di Google, menemukan sesuatu seperti kebaikan, Kolmogorov, dll, dan hanya ingin tahu apakah ada pendekatan lain untuk mencapai ini. Perlu ini untuk kertas kelas.

Input: kotak 2D, dan 1000 poin. Output: ya / tidak (yes = tersebar merata, tidak = berkumpul bersama di beberapa tempat).

mobil van
sumber
1
Anda belum cukup jelas mengartikulasikan apa yang "didistribusikan secara seragam" untuk Anda. Apakah yang Anda maksud ubin kubus seragam 2D ​​yang merata atau yang lainnya? Misalnya, rantai poin yang berjarak sama rata? atau lingkaran titik? Dalam arti tertentu, angka-angka ini adalah spread yang seragam juga.
ttnphns
3
@ttnphns Dalam konteks ini, "seragam" memiliki makna konvensional yang mapan. Ini sesuai dengan proses Poisson dengan intensitas konstan. Ini sering dikenal sebagai "CSR" benar-benar spasial acak .
whuber
2
@Bisa Anda ingin meneliti "proses titik spasial." Kata kunci yang baik termasuk "fungsi Ripley K," "CSR", dan "Poisson". Referensi yang dapat diakses untuk Anda adalah O'Sullivan & Unwin, Analisis Informasi Geografis. Klasik adalah Ripley, Statistik Spasial : ini berfokus pada proses titik. Untuk aplikasi, lihat CrimeStat dengan cepat . Jika Anda merasa nyaman R, ada banyak alat untuk tugas ini .
whuber

Jawaban:

5

Saya pikir ide @John tentang uji chi = square adalah salah satu cara untuk pergi.

Anda ingin patch pada 2-d, tetapi Anda ingin mengujinya menggunakan uji chi-square 1 arah; yaitu, nilai yang diharapkan untuk sel adalah 1000N mana N adalah jumlah sel.

Tetapi mungkin saja jumlah sel yang berbeda akan memberikan kesimpulan yang berbeda.

Kemungkinan lain adalah untuk menghitung jarak rata-rata antara titik dan kemudian membandingkannya dengan hasil simulasi dari rata-rata itu. Itu menghindari masalah jumlah sel yang berubah-ubah.

EDIT (lebih banyak tentang jarak rata-rata)

Dengan 1000 poin, ada 10009992 jarak berpasangan antar titik. Ini masing-masing dapat dihitung (menggunakan, katakanlah, jarak Euclidean). Jarak ini bisa dirata-rata.

Kemudian Anda dapat menghasilkan N (sejumlah besar) set 1000 poin yang didistribusikan secara seragam. Masing-masing set N juga memiliki jarak rata-rata di antara titik-titik.

Bandingkan hasil untuk poin aktual dengan poin simulasi, baik untuk mendapatkan nilai p atau hanya untuk melihat di mana mereka jatuh.

Peter Flom - Pasang kembali Monica
sumber
Saya setuju bahwa one-sample chi-square ("perjanjian uji chi-square") adalah salah satu cara yang masuk akal. Tetapi bisakah Anda menguraikan lebih lanjut tentang proposal "jarak rata-rata" Anda? Saya tidak begitu memahaminya.
ttnphns
@ttnphns, yang digunakan dalam analisis spasial adalah tes tetangga terdekat (alias uji Clark dan Evans), atau Ripley's K. Lihat spatstat perpustakaan R atau dokumentasi CrimeStat untuk contoh. Kemungkinan lain berdasarkan simulasi adalah tes "pindai", tetapi ini tidak didasarkan pada jarak rata-rata.
Andy W
3

Kemungkinan lain adalah tes Chi-Squared. Bagi kuadrat menjadi tambalan tidak tumpang tindih yang berukuran sama, dan dan uji jumlah poin yang jatuh ke tambalan terhadap jumlah yang diharapkan di bawah hipotesis keseragaman (harapan untuk patch adalah total_points / total_patches jika semuanya berukuran sama) , dan menerapkan uji chi-squared. Untuk 1000 poin, 9 tambalan harus cukup, tetapi Anda mungkin ingin menggunakan lebih banyak rincian tergantung pada seperti apa data Anda.

Ben Allison
sumber
1
Saya pikir Anda ke sesuatu tetapi kebaikan chi-square membandingkan jumlah aktual di setiap sel terhadap jumlah yang diharapkan sel yang sama akan menjadi apa yang Anda inginkan. Menggunakan tes kontingensi TIDAK akan menguji apakah ada distribusi seragam di antara sel-sel Anda, hanya jika baris bergantung pada kolom.
Yohanes
Juga, tes chi-square hanya akan memberi tahu Anda jika mereka tidak seragam di sel yang Anda pilih. Itu tidak akan memberi tahu Anda jika mereka seragam.
John
Ya saya maksudkan penghitungan terhadap penghitungan yang diharapkan di bawah hipotesis nol keseragaman, permintaan maaf saya jika tidak jelas. Anda bisa memvisualisasikannya sebagai tabel yang membantu memahami apa yang terjadi untuk orang yang belum tahu! Dan jelas Anda terbatas pada pengujian terhadap sel yang Anda pilih daripada keseragaman dalam arti abstrak
Ben Allison
@ John, biasanya ketika seseorang melakukan "tes dispersi" ini, seseorang biasanya melakukan tes dua sisi. Jika Anda benar-benar ingin melihat apakah polanya lebih seragam daripada yang diharapkan secara kebetulan, Anda bisa melihat apakah uji chi-square jatuh di bagian kiri distribusi (pada cut-off apa pun yang Anda inginkan).
Andy W
Andy, Anda harus memberikan jawaban yang merinci uji fit dua sisi yang baik ini. Biasanya dua tes sisi hanya menguji dua alternatif berbeda untuk null tetapi masih tidak dapat menunjukkan nol. Proposal Anda menarik.
John
1

Mengapa tidak menggunakan tes Kolmogorov-Smirnov? Itulah yang akan saya lakukan, terutama mengingat ukuran sampel Anda cukup besar untuk mengimbangi kekurangan daya.

Atau, Anda bisa melakukan beberapa simulasi. Ini tidak ketat, tetapi memberikan beberapa bukti apakah data terdistribusi secara seragam.


@whuber Perpanjangan 2 dimensi dari KS sudah dikenal (lihat di sini ). Dalam hal ini, kami sedang menyelidiki apakah 1000 undian ini (koordinat (x, y)) dapat diambil dari distribusi seragam bersama 2-dimensi - setidaknya itulah yang saya baca "tersebar merata". @ John, saya mungkin telah mengekspresikan diri saya dengan canggung (baik matematika maupun bahasa Inggris bukanlah bahasa pertama saya). Yang saya maksudkan adalah bahwa nilai-p yang tepat dapat dihitung dengan menggunakan tes seperti KS, sedangkan nilai-p (atau apa pun yang Anda sebut setara) hanya cenderung asimtotik saat melakukan simulasi.

abaumann
sumber
Mengapa simulasi tidak ketat?
John
1
Bisakah Anda menjelaskan bagaimana uji KS - yang dimaksudkan untuk set bilangan real yang dianggap hasil akhir dari variabel acak kontinu - akan diterapkan pada dataset spasial ini ?
whuber
@whuber saya telah mengedit jawaban saya untuk mencoba dan memberikan jawaban atas tanggapan Anda. Terbaik.
abaumann
@ John Saya sudah mencoba menjelaskan apa yang saya maksud. Terbaik.
abaumann