Ini adalah pertanyaan lanjutan dari apa yang ditulis Frank Harrell di sini :
Dalam pengalaman saya, ukuran sampel yang diperlukan untuk distribusi t menjadi akurat seringkali lebih besar daripada ukuran sampel yang ada. Tes peringkat bertanda Wilcoxon sangat efisien seperti yang Anda katakan, dan itu kuat, jadi saya hampir selalu lebih suka daripada uji t
Jika saya memahaminya dengan benar - ketika membandingkan lokasi dua sampel yang tidak cocok, kami lebih suka menggunakan uji peringkat-jumlah Wilcoxon dibandingkan uji-t yang tidak berpasangan, jika ukuran sampel kami kecil.
Apakah ada situasi teoretis di mana kita lebih suka uji Wilcoxon rank-sum daripada uji-t yang tidak berpasangan, bahkan ukuran sampel dari dua kelompok kami relatif besar?
Motivasi saya untuk pertanyaan ini berasal dari pengamatan bahwa untuk uji-t sampel tunggal, menggunakannya untuk sampel yang tidak terlalu kecil dari distribusi miring akan menghasilkan kesalahan tipe I yang salah:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error
sumber
Jawaban:
Ya ada. Misalnya, sampel apa pun dari distribusi dengan varian tak terbatas akan merusak uji-t, tetapi tidak pada Wilcoxon. Mengacu pada Metode Statistik Nonparametrik (Hollander dan Wolfe), saya melihat bahwa efisiensi relatif asimptotik (ADA) dari Wilcoxon relatif terhadap uji t adalah 1,0 untuk distribusi Seragam, 1,097 (yaitu, Wilcoxon lebih baik) untuk Logistik, 1,5 untuk ganda Eksponensial (Laplace), dan 3.0 untuk Eksponensial.
Hodges dan Lehmann menunjukkan bahwa ARE minimum dari Wilcoxon relatif terhadap tes lain adalah 0,864, sehingga Anda tidak akan pernah kehilangan efisiensi lebih dari sekitar 14% menggunakannya relatif terhadap hal lain. (Tentu saja, ini adalah hasil asimptotik.) Akibatnya, penggunaan Frank Harrell dari Wilcoxon sebagai standar mungkin harus diadopsi oleh hampir semua orang, termasuk saya.
Sunting: Menanggapi pertanyaan tindak lanjut dalam komentar, bagi mereka yang lebih suka interval kepercayaan, penaksir Hodges-Lehmann adalah penaksir yang "sesuai" dengan tes Wilcoxon, dan interval kepercayaan dapat dibangun sekitar itu.
sumber
Biarkan saya membawa Anda kembali ke diskusi kami dalam komentar untuk pertanyaan Anda ini . Tes jumlah-peringkat Wilcoxon setara dengan uji Mann-Whitney U (dan perpanjangan langsung untuk lebih dari dua sampel disebut uji Kruskal-Wallis). Anda dapat melihat di Wikipedia dan juga dalam teks ini bahwa Mann-Whitney (atau Kruskal-Wallis) umumnya membandingkan bukan berarti atau median. Ini membandingkan prevalensi keseluruhan nilai: yang mana dari sampel adalah "secara stokastik lebih besar". Tes ini bebas distribusi. T-test membandingkan rata-rata. Ini mengasumsikan distribusi normal. Jadi, tes melibatkan hipotesis yang berbeda. Dalam kebanyakan kasus, kami tidak berencana untuk membandingkan secara khusus cara, melainkan, kami ingin tahu sampel mana yang lebih besar berdasarkan nilainya, dan itu menjadikan Mann-Whitney tes default untuk kami. Di sisi lain, ketika kedua distribusi simetris tugas menguji apakah satu sampel "lebih besar" dari yang lain berdegenerasi menjadi tugas membandingkan dua cara, dan kemudian, jika distribusi normal dengan varian yang sama t-test menjadi agak lebih bertenaga.
sumber