Kapan harus menggunakan uji peringkat-jumlah Wilcoxon alih-alih uji-t tidak berpasangan?

26

Ini adalah pertanyaan lanjutan dari apa yang ditulis Frank Harrell di sini :

Dalam pengalaman saya, ukuran sampel yang diperlukan untuk distribusi t menjadi akurat seringkali lebih besar daripada ukuran sampel yang ada. Tes peringkat bertanda Wilcoxon sangat efisien seperti yang Anda katakan, dan itu kuat, jadi saya hampir selalu lebih suka daripada uji t

Jika saya memahaminya dengan benar - ketika membandingkan lokasi dua sampel yang tidak cocok, kami lebih suka menggunakan uji peringkat-jumlah Wilcoxon dibandingkan uji-t yang tidak berpasangan, jika ukuran sampel kami kecil.

Apakah ada situasi teoretis di mana kita lebih suka uji Wilcoxon rank-sum daripada uji-t yang tidak berpasangan, bahkan ukuran sampel dari dua kelompok kami relatif besar?

Motivasi saya untuk pertanyaan ini berasal dari pengamatan bahwa untuk uji-t sampel tunggal, menggunakannya untuk sampel yang tidak terlalu kecil dari distribusi miring akan menghasilkan kesalahan tipe I yang salah:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error
Tal Galili
sumber
1
Bagi saya, 0,0572 tampaknya cukup dekat dengan 0,05.
mark999
Hai Mark - ketika dilakukan di bawah 100000 pengulangan hipotesis nol, kami tidak berharap untuk mendapatkan tingkat perbedaan ini dari 0,05. Secara umum kita akan mengharapkan perbedaan plus minus sesuatu seperti dua kali sqrt (0,05 * 0,95 / 100000) dari 0,05
Tal Galili
1
Saya setuju bahwa itu salah. Maksud saya, sepertinya cukup dekat untuk tujuan praktis.
mark999
1
Pertanyaan terkait: Bagaimana memilih antara uji-t atau uji non-parametrik misalnya Wilcoxon dalam sampel kecil , yang mempertimbangkan tes berpasangan dan tidak berpasangan, serta alternatif untuk Wilcoxon seperti Brunner-Munzel. Ada juga jawaban yang sangat baik oleh Frank Harrell yang menjelaskan mengapa dia merasa dibenarkan dalam pendekatannya lebih detail daripada ekstrak di atas (misalnya pentingnya invarian peringkat di bawah transformasi monotonik).
Silverfish
@ Talalili: mengapa Anda tidak berharap untuk mendapatkan tingkat perbedaan ini, mengingat Anda sedang melakukan uji-t dan asumsi normal dilanggar (saya melihat bahwa sampel Anda didistribusikan secara eksponensial)? Saya bertanya dari sudut pandang pemula, di sini. Saya hanya mencoba memahami apa yang kami harapkan, melakukan uji-t satu sampel ketika asumsi normal dilanggar. Mengapa kesalahan tipe I rata-rata harus lebih kecil dari 5%, atau lebih besar dari 5%, atau apa pun? Cara saya melihatnya, apa yang kami uji adalah dan distribusinya normal. H0:μ=50
Erosennin

Jawaban:

23

Ya ada. Misalnya, sampel apa pun dari distribusi dengan varian tak terbatas akan merusak uji-t, tetapi tidak pada Wilcoxon. Mengacu pada Metode Statistik Nonparametrik (Hollander dan Wolfe), saya melihat bahwa efisiensi relatif asimptotik (ADA) dari Wilcoxon relatif terhadap uji t adalah 1,0 untuk distribusi Seragam, 1,097 (yaitu, Wilcoxon lebih baik) untuk Logistik, 1,5 untuk ganda Eksponensial (Laplace), dan 3.0 untuk Eksponensial.

Hodges dan Lehmann menunjukkan bahwa ARE minimum dari Wilcoxon relatif terhadap tes lain adalah 0,864, sehingga Anda tidak akan pernah kehilangan efisiensi lebih dari sekitar 14% menggunakannya relatif terhadap hal lain. (Tentu saja, ini adalah hasil asimptotik.) Akibatnya, penggunaan Frank Harrell dari Wilcoxon sebagai standar mungkin harus diadopsi oleh hampir semua orang, termasuk saya.

Sunting: Menanggapi pertanyaan tindak lanjut dalam komentar, bagi mereka yang lebih suka interval kepercayaan, penaksir Hodges-Lehmann adalah penaksir yang "sesuai" dengan tes Wilcoxon, dan interval kepercayaan dapat dibangun sekitar itu.

Jbowman
sumber
1
Apakah ada cara mudah untuk mendapatkan interval kepercayaan jika tes Wilcoxon digunakan? Tampaknya mendorong orang untuk terlalu menekankan nilai-p, bahkan lebih daripada yang mereka lakukan dengan metode parametrik.
mark999
Ya, estimator Hodges-Lehmann adalah estimator yang relevan, dan saya telah mengedit isi respons sehingga pembaca di masa mendatang tidak perlu membaca komentar.
jbowman
Terima kasih jbowman. Saya tidak terbiasa dengan estimator Hodges-Lehmann, tetapi akan melihat apa yang bisa saya ketahui tentang hal itu.
mark999
3
biostat.mc.vanderbilt.edu/WilcoxonSoftware menunjukkan cara menggunakan R untuk mendapatkan estimasi Hodges-Lehmann dan interval kepercayaannya.
Frank Harrell
1
(+1) dari tradisionalis anti-peringkat yang kolot. Namun, tantangan untuk tes peringkat adalah bahwa hipotesisnya tidak jelas. Secara umum hipotesis ini tidak sama dengan uji-t. Uji-t menguji perbedaan rata-rata selalu, Wilcoxon menguji perbedaan peringkat rata-rata tertimbang. Tentu saja jika perbedaan pangkat rata-rata adalah signifikan secara statistik, kita tahu distribusinya harus berbeda, bahkan jika artinya sama. Tidak ada tes yang diaktifkan untuk mendeteksi perbedaan distribusi dalam semua kasus. Saya hanya mengatakan banyak karena saya mendukung interpretasi. (1/2)
AdamO
24

Biarkan saya membawa Anda kembali ke diskusi kami dalam komentar untuk pertanyaan Anda ini . Tes jumlah-peringkat Wilcoxon setara dengan uji Mann-Whitney U (dan perpanjangan langsung untuk lebih dari dua sampel disebut uji Kruskal-Wallis). Anda dapat melihat di Wikipedia dan juga dalam teks ini bahwa Mann-Whitney (atau Kruskal-Wallis) umumnya membandingkan bukan berarti atau median. Ini membandingkan prevalensi keseluruhan nilai: yang mana dari sampel adalah "secara stokastik lebih besar". Tes ini bebas distribusi. T-test membandingkan rata-rata. Ini mengasumsikan distribusi normal. Jadi, tes melibatkan hipotesis yang berbeda. Dalam kebanyakan kasus, kami tidak berencana untuk membandingkan secara khusus cara, melainkan, kami ingin tahu sampel mana yang lebih besar berdasarkan nilainya, dan itu menjadikan Mann-Whitney tes default untuk kami. Di sisi lain, ketika kedua distribusi simetris tugas menguji apakah satu sampel "lebih besar" dari yang lain berdegenerasi menjadi tugas membandingkan dua cara, dan kemudian, jika distribusi normal dengan varian yang sama t-test menjadi agak lebih bertenaga.

ttnphns
sumber
+1 untuk mengikat jawaban Anda kembali ke makna hipotesis yang diuji.
Josh Hemann
Dengan "sampel mana yang" lebih besar secara stokastik "", maksud Anda "sampel mana yang umumnya mengambil nilai lebih besar dibandingkan yang lain"? Jika tidak, apa maksudmu? Bisakah Anda menguraikan ini sedikit lebih jauh?
Erdogan CEVHER
1
@ Elogan, ya, kami dapat mengatakan seperti yang Anda katakan. Kata-kata yang ketat adalah ini: dalam sepasang objek yang dipilih secara acak, satu dari setiap sampel, objek dari sampel "secara stokastik lebih dominan" akan lebih tinggi (berdasarkan nilainya) daripada objek dari sampel lain dengan probabilitas> 0,5.
ttnphns