Bagaimana cara menguji keseragaman dalam beberapa dimensi?

13

Menguji keseragaman adalah sesuatu yang umum, namun saya bertanya-tanya apa metode untuk melakukannya untuk awan titik multidimensi.

gui11aume
sumber
Pertanyaan menarik. Apakah Anda mempertimbangkan entri independen?
1
@Prastrastator Saya sedang memikirkan hal ini sekarang. Mencoba mencari tahu apakah mungkin untuk memiliki keseragaman tanpa kemandirian. Semua petunjuk diterima.
gui11aume
4
Ya, mungkin saja ada keseragaman tanpa kemerdekaan. Misalnya, sampel dari unit kubus dengan menghasilkan kotak seragam ϵ -kubus yang menutupi R n dan mengimbangi asalnya sesuai dengan distribusi seragam pada kubus ϵ . Pertahankan bagian tengah dari ϵ -kubus yang termasuk dalam unit cube. Jika Anda suka, subsampel dari mereka secara acak. Semua poin memiliki peluang yang sama untuk dipilih: distribusinya seragam. Hasilnya juga terlihat seragam, tetapi karena tidak ada dua titik yang dapat berada dalam jarak ϵ satu sama lain, jelas bahwa poin tersebut tidak independen. nϵRnϵϵϵ
whuber

Jawaban:

14

Metode standar menggunakan fungsi K Ripley atau sesuatu yang diturunkan darinya seperti fungsi L. Ini adalah plot yang merangkum jumlah rata-rata tetangga dari titik-titik sebagai fungsi jarak maksimum maksimum ( ). Untuk distribusi yang seragam dalam dimensi n , rata-rata itu harus berperilaku seperti ρ n : dan itu akan selalu berlaku untuk ρ kecil . Ini berangkat dari perilaku seperti itu karena pengelompokan, bentuk-bentuk lain dari non-kemerdekaan spasial, dan efek tepi (di mana sangat penting untuk menentukan wilayah yang disampel oleh titik-titik). Karena komplikasi ini - yang menjadi lebih buruk seperti nρnρnρnmeningkat - di sebagian besar aplikasi band kepercayaan didirikan untuk fungsi null K melalui simulasi dan fungsi K yang diamati overplotted untuk mendeteksi kunjungan. Dengan beberapa pemikiran dan pengalaman, kunjungan dapat ditafsirkan dalam hal kecenderungan untuk berkelompok atau tidak pada jarak tertentu.

Gambar 1

Contoh fungsi K dan fungsi L yang terkait dari Dixon (2001), ibid. Fungsi L dikonstruksi sehingga untuk distribusi yang seragam adalah garis horizontal pada nol: referensi visual yang baik. Garis putus-putus adalah pita kepercayaan untuk bidang studi khusus ini, dihitung melalui simulasi. Jejak abu-abu solid adalah fungsi L untuk data. Ekskursi positif pada jarak 0-20 m menunjukkan beberapa pengelompokan pada jarak ini.L(ρ)ρ

Saya memposting contoh yang berfungsi dalam menanggapi pertanyaan terkait di /stats//a/7984 , di mana plot berasal dari fungsi-K untuk distribusi seragam pada manifold dua dimensi yang tertanam dalam adalah diperkirakan dengan simulasi.R3

Dalam R, fungsi spatstatkest dan k3estmenghitung fungsi-K untuk dan n = 3 , masing-masing. Di lebih dari 3 dimensi Anda mungkin sendirian, tetapi algoritmenya akan persis sama. Anda dapat melakukan perhitungan dari matriks jarak sebagaimana dihitung (dengan efisiensi sedang) oleh .n=2n=3stats::dist

whuber
sumber
apakah Anda pernah menemukan hubungan antara jembatan Brown dan plot yang Anda tunjukkan dalam jawaban yang Anda tautkan?
gui11aume
13

Ternyata pertanyaannya lebih sulit dari yang saya kira. Tetap saja, saya mengerjakan pekerjaan rumah saya dan setelah melihat-lihat, saya menemukan dua metode selain fungsi Ripley untuk menguji keseragaman dalam beberapa dimensi.

Saya membuat paket R yang disebut unfyang mengimplementasikan kedua tes. Anda dapat mengunduhnya dari github di https://github.com/gui11aume/unf . Sebagian besar berada di C sehingga Anda harus mengkompilasinya pada mesin Anda R CMD INSTALL unf. Artikel-artikel yang menjadi dasar implementasi adalah dalam format pdf dalam paket.

Metode pertama berasal dari referensi yang disebutkan oleh @Procrastinator ( Pengujian keseragaman multivariat dan aplikasinya, Liang et al., 2000 ) dan memungkinkan untuk menguji keseragaman hanya pada unit hypercube. Idenya adalah untuk merancang statistik perbedaan yang secara asimptot Gaussian oleh teorema Limit Pusat. Ini memungkinkan untuk menghitung statistik , yang merupakan dasar dari tes ini.χ2

library(unf)
set.seed(123)
# Put 20 points uniformally in the 5D hypercube.
x <- matrix(runif(100), ncol=20)
liang(x) # Outputs the p-value of the test.
[1] 0.9470392

Pendekatan kedua kurang konvensional dan menggunakan pohon rentang minimum . Pekerjaan awal dilakukan oleh Friedman & Rafsky pada tahun 1979 (referensi dalam paket) untuk menguji apakah dua sampel multivariat berasal dari distribusi yang sama. Gambar di bawah ini menggambarkan prinsip tersebut.

keseragaman

Poin dari dua sampel bivariat diplot dalam warna merah atau biru, tergantung pada sampel aslinya (panel kiri). Pohon rentang minimum sampel dikumpulkan dalam dua dimensi dihitung (panel tengah). Ini adalah pohon dengan jumlah minimum panjang tepi. Pohon didekomposisi dalam sub pohon di mana semua titik memiliki label yang sama (panel kanan).

Pada gambar di bawah ini, saya menunjukkan kasus di mana titik-titik biru dikumpulkan, yang mengurangi jumlah pohon pada akhir proses, seperti yang Anda lihat di panel kanan. Friedman dan Rafsky telah menghitung distribusi asimptotik dari jumlah pohon yang diperoleh seseorang dalam proses, yang memungkinkan untuk melakukan tes.

tidak seragam

Gagasan untuk membuat tes umum untuk keseragaman sampel multivarian telah dikembangkan oleh Smith dan Jain pada tahun 1984, dan diimplementasikan oleh Ben Pfaff dalam C (referensi dalam paket). Sampel kedua dihasilkan secara seragam dalam perkiraan lambung cembung sampel pertama dan uji Friedman dan Rafsky dilakukan pada kumpulan dua sampel.

Keuntungan dari metode ini adalah ia menguji keseragaman pada setiap bentuk multivariat cembung dan tidak hanya pada hypercube. Kerugian yang kuat, adalah bahwa tes memiliki komponen acak karena sampel kedua dihasilkan secara acak. Tentu saja, seseorang dapat mengulang tes dan rata-rata hasilnya untuk mendapatkan jawaban yang dapat direproduksi, tetapi ini tidak berguna.

Melanjutkan sesi R sebelumnya, begini caranya.

pfaff(x) # Outputs the p-value of the test.
pfaff(x) # Most likely another p-value.

Jangan ragu untuk menyalin / garpu kode dari github.

gui11aume
sumber
1
Gambaran luar biasa, terima kasih! Untuk generasi mendatang, saya juga menemukan artikel ini sebagai ringkasan "praktis" yang berguna (tidak berafiliasi dengan penulis dengan cara apa pun).
MInner
3

(U,Z)UUniform(0,1)Z=U0<p<1W1pWUniform(0,1)U

nnχ2

Michael R. Chernick
sumber
1
Saya percaya ketika Anda terakhir menawarkan solusi ini, Michael, seseorang menunjukkan bahwa itu tidak layak di lebih dari sejumlah kecil dimensi, karena setidaknya Anda perlu 2nsel.
Whuber
@whuber saya tidak berpikir kita menentukan jumlah sel minimum yang diperlukan dan beberapa dimensi tidak berarti besar di sini. Bisa jadi kita hanya berurusan dengan 3 atau 4.
Michael R. Chernick
5
Jawaban Anda menjadi lebih bermanfaat bagi semua pembaca ketika Anda menggambarkan ruang lingkup dan potensi penerapannya. (Strategi alternatif, dalam semangat konsultasi statistik yang baik, adalah menggunakan komentar untuk bertanya kepada OP tentang kemungkinan jumlah dimensi dan kemudian menyesuaikan jawaban Anda untuk itu.) (+1 untuk perbaikan.)
whuber
"Kalau begitu lakukan tes untuk keseragaman." - bisakah kamu mengembangkannya? Dalam Wikipedia en.wikipedia.org/wiki/Pearson%27s_chi-squared_test hanya ada uji Chi2 tentang kebaikan, kecocokan, homogenitas, dan independensi.
Yaroslav Nikitenko