Apakah ada versi multi-sampel atau alternatif untuk Tes Kolmogorov-Smirnov?

12

Saya membandingkan distribusi ukuran pohon dalam enam pasang plot di mana satu plot menerima perlakuan dan yang lainnya sebagai kontrol. Menggunakan tes Kolmogorov-Smirnov pada setiap pasangan plot, saya menemukan bahwa berkisar dari hingga . Apakah ada metode yang tepat untuk menangani semua ulangan bersama, seperti perpanjangan multi sampel uji KS, atau adakah uji tindak lanjut yang tepat? Atau haruskah saya menyimpulkan sesuatu seperti "Distribusi ukuran berbeda secara signifikan ) dalam 2 pasang plot dan sedikit ( ) dalam satu pasangan plot."p0.00037070.75(p<0.05p=0.59

N Brouwer
sumber
2
Apa yang ingin Anda bandingkan tentang distribusi ini, bahwa mereka berbeda dalam kecenderungan pusat, atau bahwa mereka berbeda dalam bentuk? Saya cenderung menganggap KS lebih tentang bentuk / sifat distribusi, tetapi sesuatu seperti tes Friedman dapat menentukan bahwa sampel berbeda dalam kecenderungan sentral.
gung - Reinstate Monica

Jawaban:

13

Sebenarnya ada beberapa contoh Uji KS. Misalnya, sampel-r Kolmogorov-Smirnov-Test dengan yang, saya percaya, memiliki kekuatan yang baik. Pracetak kertas indah itu tersedia di sini . Saya juga tahu tentang K-Sample Analogues dari Kolmogorov-Smirnov dan Cramer-V. Tes Mises (tetapi mereka memiliki kekuatan lebih sedikit sejauh yang saya tahu).r2

Momo
sumber
5
Kerugian dari makalah "indah" karya Böhm dan Hornik itu adalah tidak ada implementasi yang tersedia untuk publik sejauh yang saya tahu. Matematikanya cukup rumit sehingga Anda tidak ingin menerapkannya sendiri. Saya mengirim surat kepada penulis dan meminta mereka tetapi mereka tidak menjawab. Perhatikan bahwa Hornik adalah anggota grup R Core Developers ... Jika seseorang mengetahui tentang suatu implementasi, silakan kirim tautan di sini!
Laryx Decidua
8

Ada paket R kSamples yang memberi Anda, antara lain, uji Anderson-Darling non-parametrik k-sample. Hipotesis nol adalah bahwa semua sampel k berasal dari distribusi yang sama yang tidak perlu ditentukan. Mungkin Anda bisa menggunakan ini.

Sedikit contoh tentang membandingkan sampel yang terdistribusi normal dan Gamma diskalakan sehingga mereka memiliki mean dan varians yang sama:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Gamma parameters shape and scale, using Wikipedia notation
gam.mean <- alpha * theta # mean of the Gamma
gam.sd <- sqrt(alpha) * theta # S.D. of the Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal with the same mean and SD as the Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "not significant, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significant, p ~ 0.00066"
Laryx Decidua
sumber
4

Beberapa pendekatan:

Gunakan nilai-p berpasangan tetapi sesuaikan untuk beberapa perbandingan menggunakan sesuatu seperti penyesuaian Bon Feroni atau False Discovery Rate (yang pertama mungkin akan sedikit lebih konservatif). Maka Anda dapat yakin bahwa apa pun yang masih berbeda secara signifikan mungkin bukan karena pengujian berulang.

Anda dapat membuat tes keseluruhan dalam rasa KS dengan menemukan jarak terbesar antara distribusi mana pun, yaitu plot semua cdf empiris dan temukan jarak terbesar dari garis paling bawah ke garis paling atas, atau mungkin jarak rata-rata atau makna lainnya. mengukur. Kemudian Anda dapat menemukan apakah itu signifikan dengan melakukan tes permutasi: kelompok semua data menjadi 1 bin besar, kemudian secara acak membaginya menjadi grup dengan ukuran sampel yang sama dengan grup asli Anda, menghitung ulang stat pada data yang diijinkan dan ulangi proses berkali-kali (999 atau lebih). Kemudian lihat bagaimana data asli Anda dibandingkan dengan set data yang diijinkan. Jika statistik data asli jatuh di tengah-tengah yang diijinkan maka tidak ada perbedaan signifikan yang ditemukan, tetapi jika berada di tepi, atau di luar yang permutasi maka ada sesuatu yang signifikan terjadi (tapi ini tidak memberitahu Anda yang berbeda). Anda mungkin harus mencoba ini dengan data simulasi di mana Anda tahu ada perbedaan yang cukup besar untuk menjadi menarik hanya untuk memeriksa kekuatan tes ini untuk menemukan perbedaan yang menarik.

Greg Snow
sumber