Perbedaan Antara uji ANOVA dan Kruskal-Wallis

20

Saya belajar R dan telah bereksperimen dengan analisis varian. Saya telah menjalankan keduanya

kruskal.test(depVar ~ indepVar, data=df)

dan

anova(lm(depVar ~ indepVar, data=dF))

Apakah ada perbedaan praktis antara kedua tes ini? Pemahaman saya adalah bahwa mereka berdua mengevaluasi hipotesis nol bahwa populasi memiliki rata-rata yang sama.

JHowIX
sumber

Jawaban:

28

Ada perbedaan dalam asumsi dan hipotesis yang diuji.

ANOVA (dan uji-t) secara eksplisit merupakan uji kesetaraan nilai sarana. Kruskal-Wallis (dan Mann-Whitney) dapat dilihat secara teknis sebagai perbandingan dari peringkat rata-rata .

Oleh karena itu, dalam hal nilai-nilai asli, Kruskal-Wallis lebih umum daripada perbandingan cara: itu menguji apakah probabilitas bahwa pengamatan acak dari masing-masing kelompok sama-sama cenderung di atas atau di bawah pengamatan acak dari kelompok lain. Kuantitas data nyata yang mendasari perbandingan itu bukanlah perbedaan dalam mean atau perbedaan dalam median, (dalam dua kasus sampel) itu sebenarnya adalah median dari semua perbedaan berpasangan - perbedaan antara sampel Hodges-Lehmann.

Namun, jika Anda memilih untuk membuat beberapa asumsi yang membatasi, maka Kruskal-Wallis dapat dilihat sebagai uji persamaan rata-rata populasi, serta kuantil (misalnya median), dan memang berbagai macam tindakan lainnya. Yaitu, jika Anda menganggap bahwa distribusi grup di bawah hipotesis nol adalah sama, dan bahwa di bawah alternatif, satu-satunya perubahan adalah pergeseran distribusi (yang disebut " alternatif pergeseran lokasi "), maka itu juga merupakan tes persamaan rata-rata populasi (dan, secara bersamaan, median, kuartil rendah, dll).

[Jika Anda membuat asumsi itu, Anda dapat memperoleh perkiraan dan interval untuk pergeseran relatif, seperti halnya Anda dapat dengan ANOVA. Yah, itu juga mungkin untuk mendapatkan interval tanpa asumsi itu, tetapi mereka lebih sulit untuk ditafsirkan.]

Jika Anda melihat jawabannya di sini , terutama menjelang akhir, ini membahas perbandingan antara uji-t dan Wilcoxon-Mann-Whitney, yang (ketika melakukan tes dua sisi setidaknya) adalah setara dengan ANOVA dan Kruskal-Wallis diterapkan pada perbandingan hanya dua sampel; itu memberikan sedikit lebih banyak detail, dan banyak dari diskusi itu mengarah ke Kruskal-Wallis vs ANOVA.

Tidak sepenuhnya jelas apa yang Anda maksudkan dengan perbedaan praktis. Anda menggunakannya secara umum dengan cara yang hampir sama. Ketika kedua set asumsi berlaku, mereka biasanya cenderung memberikan hasil yang cukup mirip, tetapi mereka tentu dapat memberikan nilai p yang cukup berbeda dalam beberapa situasi.

Sunting: Berikut adalah contoh kesamaan inferensi bahkan pada sampel kecil - inilah wilayah penerimaan bersama untuk perpindahan lokasi di antara tiga kelompok (masing-masing kedua dan ketiga dibandingkan dengan yang pertama) disampel dari distribusi normal (dengan ukuran sampel kecil) untuk kumpulan data tertentu, pada level 5%:

Daerah penerimaan untuk perbedaan lokasi di Kruskal-Wallis dan Anova

Banyak fitur menarik dapat dilihat - wilayah penerimaan yang sedikit lebih besar untuk KW dalam hal ini, dengan batasnya terdiri dari segmen garis lurus vertikal, horizontal, dan diagonal (tidak sulit untuk mengetahui mengapa). Kedua wilayah memberi tahu kami hal yang sangat mirip tentang parameter yang diminati di sini.

Glen_b -Reinstate Monica
sumber
2
+1. Saya berani mengeditnya sedikit hanya untuk menambah penekanan di mana saya pikir itu perlu. Silakan lihat sekarang, apakah Anda setuju atau tidak.
ttnphns
@ttnphns, terima kasih atas hasil editnya. Ada beberapa alasan khusus mengapa beberapa hal yang Anda ubah ada di sana, jadi saya dapat mengedit beberapa yang asli. Namun, mungkin saya harus menjelaskan mengapa saya menulisnya seperti yang saya lakukan sebelumnya. Tapi pertama-tama saya ingin berpikir dengan hati-hati tentang cara terbaik untuk menjaga sebanyak mungkin perubahan Anda.
Glen_b -Reinstate Monica
4

Ya ada. Ini anovaadalah pendekatan parametrik sedangkan pendekatan kruskal.testnon parametrik. Jadi kruskal.testtidak perlu asumsi distribusi.
Dari sudut pandang praktis, ketika data Anda miring, maka anovatidak akan menjadi pendekatan yang baik untuk digunakan. Lihat pertanyaan ini misalnya.

Stat
sumber
4
Saya akan mengatakan bahwa Kruskal-Wallis ANOVA membuat asumsi santai tentang distribusi dibandingkan dengan parametrik ANOVA: pengamatan pada setiap kelompok berasal dari populasi dengan bentuk yang serupa . Heteroskedastisitas atau distribusi sangat miring tetap bermasalah seperti dengan tes tradisional.
chl
2
Bagaimana bisa, @chl? Peringkat tidak diubah oleh kemiringan, dan KW didasarkan pada peringkat. Apa yang saya lewatkan?
Peter Flom - Reinstate Monica
6
3/π
H0
1
@ StéphaneLaurent Jika bentuknya tidak sama, itu dapat menyebabkan inferensi yang buruk. lihat contoh saya di sini
Labu
3

Δmasukkan deskripsi gambar di sini

()H0:{Δ=0}H1:{Δ0}()H0H0)()H0:{distribusinya sama}

()Δ>0Δ

xyn=1000H0

set.seed(666)
n <- 1000
x <- rnorm(n)
y <- (2*rbinom(n,1,1/2)-1)*rnorm(n,3)
plot(density(x, from=min(y), to=max(y)))
lines(density(y), col="blue")

masukkan deskripsi gambar di sini

> kruskal.test(list(x,y))

    Kruskal-Wallis rank sum test

data:  list(x, y)
Kruskal-Wallis chi-squared = 2.482, df = 1, p-value = 0.1152

Seperti yang saya klaim di awal, saya tidak yakin tentang konstruksi KW yang tepat. Mungkin jawaban saya lebih tepat untuk tes nonparametrik lain (Mann-Whitney? ..), tetapi pendekatannya harus serupa.

Stéphane Laurent
sumber
1
Kruskal-Wallis test is constructed in order to detect a difference between two distributions having the same shape and the same dispersionSeperti yang disebutkan dalam jawaban Glen, komentar dan di banyak tempat lain di situs ini, memang benar tetapi adalah bacaan yang menyempit dari apa yang dilakukan tes. same shape/dispersionsebenarnya bukan intrinsik tetapi merupakan asumsi tambahan yang digunakan dalam beberapa dan tidak digunakan dalam situasi lain.
ttnphns
PS Contoh ke-2 Anda tidak bertentangan atau membantah uji KW. H0 dari tes ini bukan distributions are equal , itu adalah kesalahan untuk berpikir begitu. H0 hanya itu, secara garis besar, dua titik "kondensasi gravitasi" tidak saling menyimpang.
ttnphns
H0
1
krusal.test()H0
1
Ya. the equality of the location parameters of the distributionadalah formulasi yang tepat (meskipun "lokasi" tidak boleh dianggap hanya sebagai rata-rata atau median, dalam kasus umum). Jika Anda mengasumsikan bentuk yang sama, maka, secara alami, H0 yang sama ini menjadi "distribusi identik".
ttnphns
0

Kruskal-Wallis adalah peringkat berdasarkan, bukan berbasis nilai. Ini dapat membuat perbedaan besar jika ada distribusi miring atau jika ada kasus yang ekstrim

Peter Flom - Pasang kembali Monica
sumber