Katakanlah kita memiliki data berikut:
set.seed(123)
data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)),
y = c(rep('A', 50), rep('B', 50)))
Yang menghasilkan boxplot berikut ( boxplot(data$x ~ data$y)
):
Sekarang katakanlah saya ingin menguji apakah dua sampel memiliki parameter lokasi yang sama (median dan / atau rata-rata). Dalam kasus saya yang sebenarnya, data jelas tidak normal , jadi saya memutuskan untuk menjalankan tes Wilcoxon-Mann-Whitney, seperti ini:
wilcox.test(data$x ~ data$y)
Namun, saya ingin hipotesis alternatif menjadi bahwa data$y
faktor "kedua" B, berasal dari distribusi dengan parameter posisi yang lebih tinggi. Saya sudah mencoba mengatur alternative
parameter ke "lebih besar" dan "kurang", tetapi ternyata hipotesis alternatif bukanlah yang saya cari. Misalnya, alternative = "greater"
beri tahu saya "hipotesis alternatif: pergeseran lokasi sebenarnya lebih besar dari 0"; alternative = "less"
memberi tahu saya "hipotesis alternatif: pergeseran lokasi sebenarnya kurang dari 0".
Bagaimana saya dapat mengubah wilcox.test()
fungsi agar memiliki hipotesis alternatif yang saya inginkan (B berasal dari distribusi dengan parameter posisi lebih tinggi daripada A)? Atau haruskah saya menggunakan tes lain saja?
sumber
rnorm()
, sehingga mereka harus normal . Saya ingin tahu apakah Anda bingung tentang sifat asumsi normalitas; mungkin membantu Anda membaca utas ini: Bagaimana jika residu terdistribusi normal tetapi Anda tidak .Jawaban:
Secara teknis, kategori referensi dan arah tes tergantung pada cara variabel faktor dikodekan. Dengan data mainan Anda:
Perhatikan bahwa statistik W adalah sama dalam kedua kasus tetapi tes menggunakan ekor yang berlawanan dari distribusi samplingnya. Sekarang mari kita lihat variabel faktor:
Kita dapat mengode ulangnya untuk menjadikan "B" sebagai level pertama:
Sekarang kita punya:
Perhatikan bahwa kami tidak mengubah data itu sendiri , seperti halnya variabel kategori dikodekan “di bawah tenda”:
Tetapi arah tes sekarang terbalik:
Statistik W berbeda tetapi nilai- p adalah sama daripada untuk
alternative="less"
tes dengan kategori dalam urutan asli. Dengan data asli, ini dapat ditafsirkan sebagai "pergeseran lokasi dari B ke A kurang dari 0" dan dengan data yang direkode ulang itu menjadi "pergeseran lokasi dari A ke B lebih besar dari 0" tetapi ini benar-benar hipotesis yang sama (tapi lihat komentar Glen_b untuk pertanyaan tentang interpretasi yang benar).Dalam kasus Anda, karena itu tampaknya tes yang Anda inginkan adalah
alternative="less"
(atau, ekuivalen,alternative="greater"
dengan data yang dikodekan ulang). Apakah itu membantu?sumber