Saya memiliki grup ini di mana nilainya adalah respons terhadap item Likert 10 poin:
g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)
Oleh karena itu saya menggunakan Kruskal-Wallis untuk menentukan perbedaan antara tanggapan dalam kelompok, dan hasilnya adalah:
Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091
Namun, jika saya menjalankan tes Mann-Whitney yang tepat antara kelompok g1 dan g2 saya mendapatkan:
Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797
yang mengembalikan perbedaan signifikan pada alpha = 0,05.
Tes mana yang harus saya pilih, dan mengapa?
Jawaban:
Saya setuju dengan jawaban Michael Chernick, tetapi berpikir bahwa itu bisa dibuat sedikit lebih kuat. Abaikan batas 0,05 dalam sebagian besar keadaan. Ini hanya relevan dengan pendekatan Neyman-Pearson yang sebagian besar tidak relevan dengan penggunaan statistik inferensial di banyak bidang ilmu pengetahuan.
Kedua tes menunjukkan bahwa data Anda berisi bukti moderat terhadap hipotesis nol. Pertimbangkan bukti itu sehubungan dengan apa pun yang Anda ketahui tentang sistem dan konsekuensi yang timbul dari keputusan (atau keraguan) tentang keadaan dunia nyata. Pertanyakan kasus yang beralasan dan lanjutkan dengan cara yang mengakui kemungkinan evaluasi ulang selanjutnya.
Saya menjelaskan lebih banyak dalam makalah ini: http://www.ncbi.nlm.nih.gov/pubmed/22394284
[Addendum ditambahkan Nov 2019: Saya memiliki referensi baru yang menjelaskan masalah ini secara lebih rinci https://arxiv.org/abs/1910.02042v1 ]
sumber
Uji Mann-Whitney atau Wilcoxon membandingkan dua kelompok sedangkan uji Kruskal-Wallis membandingkan 3. Sama seperti dalam ANOVA biasa dengan tiga atau lebih kelompok prosedur yang umumnya disarankan adalah melakukan uji ANOVA F keseluruhan terlebih dahulu dan kemudian melihat perbandingan berpasangan di Jika ada perbedaan yang signifikan. Saya akan melakukan hal yang sama di sini dengan ANOVA nonparametrik. Interpetasi saya atas hasil Anda adalah bahwa ada sedikit perbedaan yang signifikan antara kelompok-kelompok di level 0,05 dan jika Anda menerimanya maka perbedaan berdasarkan uji Mann-Whitney menunjukkan bahwa itu dapat dikaitkan dengan g.1 dan g2 menjadi sangat berbeda.
Jangan terpaku pada keajaiban level signifikansi 0,05! Hanya karena uji Kruskal-Wallis memberikan nilai-p sedikit di atas 0,05, jangan menganggap itu berarti bahwa tidak ada perbedaan yang signifikan secara statistik antara kelompok. Juga fakta bahwa uji Mann-Whitney memberikan nilai-p untuk perbedaan antara g1 dan g2 sedikit di bawah 0,03 tidak membuat perbedaan di antara kedua kelompok sangat signifikan. Kedua nilai-p mendekati 0,05. Set data yang sedikit berbeda dapat dengan mudah berubah menjadi K-nilai-Kruskal sebesar itu.
Setiap pemikiran yang mungkin Anda miliki bahwa hasilnya kontradiktif harus berasal dari memikirkan pemotongan 0,05 sebagai batas hitam dan putih tanpa area abu-abu di lingkungan 0,05. Saya pikir hasil ini masuk akal dan cukup kompatibel.
sumber
Hasil uji Kruskal-Wallis dan Mann-Whitney U mungkin berbeda karena
Oleh karena itu, tidak dianjurkan untuk menggunakan uji Mann-whitney U sebagai tes post hoc setelah uji Kruskal-Wallis.
Tes lain seperti tes Dunn (umum digunakan), tes Conover-Iman dan Dwass-Steel-Citchlow-Fligner dapat digunakan sebagai tes post-hoc untuk uji kruskal-wallis.
sumber
Ini adalah jawaban untuk @vinesh serta melihat prinsip umum dalam pertanyaan awal.
Sebenarnya ada 2 masalah di sini dengan beberapa perbandingan: karena kami meningkatkan jumlah perbandingan yang dibuat, kami memiliki lebih banyak informasi yang membuatnya lebih mudah untuk melihat perbedaan nyata, tetapi peningkatan jumlah perbandingan juga membuatnya lebih mudah untuk melihat perbedaan yang tidak ada (Positif palsu, pengerukan data, menyiksa data sampai ia mengaku).
Pikirkan kelas dengan 100 siswa, masing-masing siswa diberi koin yang adil dan disuruh membalik koin 10 kali dan menggunakan hasilnya untuk menguji hipotesis nol bahwa proporsi kepala adalah 50%. Kami akan mengharapkan nilai-p berkisar antara 0 dan 1 dan kebetulan kami berharap untuk melihat sekitar 5 siswa mendapatkan nilai-p kurang dari 0,05. Bahkan kami akan sangat terkejut jika tidak satupun dari mereka memperoleh nilai p kurang dari 0,05 (kemungkinan kurang dari 1% dari hal itu terjadi). Jika kita hanya melihat beberapa nilai penting dan mengabaikan yang lain maka kita akan secara keliru menyimpulkan bahwa koin-koin itu bias, tetapi jika kita menggunakan teknik yang memperhitungkan beberapa perbandingan, maka kita kemungkinan masih akan menilai dengan benar bahwa koin itu adil. (atau setidaknya gagal untuk menolak bahwa mereka atau adil).
Di sisi lain, pertimbangkan kasus serupa di mana kami memiliki 10 siswa yang melempar dadu dan menentukan apakah nilainya ada di set {1,2,3} atau set {4,5,6} yang masing-masing akan memiliki 50% kesempatan setiap gulungan jika dadu itu adil (tetapi bisa berbeda jika dadu dicurangi). Semua 10 siswa menghitung nilai-p (nol adalah 50%) dan mendapatkan nilai antara 0,06 dan 0,25. Sekarang dalam kasus ini tidak satupun dari mereka mencapai keajaiban 5% cut-off, jadi melihat setiap hasil siswa tidak akan menghasilkan deklarasi yang tidak adil, tetapi semua nilai-p kurang dari 0,5, jika semua dadu adil maka nilai-p harus didistribusikan secara seragam dan memiliki peluang 50% berada di atas 0,5. Peluang mendapatkan 10 nilai p independen semuanya kurang dari 0,5 ketika nol benar adalah kurang dari keajaiban 0,05 dan ini menunjukkan bahwa dadu bias,
Sekarang membalik koin dan mati bergulir sedikit dibuat-buat, jadi contoh yang berbeda: Saya punya obat baru yang ingin saya uji. Anggaran saya memungkinkan saya untuk menguji obat pada 1.000 subjek (ini akan menjadi perbandingan berpasangan dengan masing-masing subjek menjadi kontrol mereka sendiri). Saya sedang mempertimbangkan 2 desain studi yang berbeda, pada awalnya saya merekrut 1.000 subjek melakukan penelitian dan melaporkan nilai-p tunggal. Dalam desain kedua saya merekrut 1.000 subjek tetapi memecahnya menjadi 100 kelompok masing-masing 10, saya melakukan studi pada masing-masing 100 kelompok 10 dan menghitung nilai p untuk setiap kelompok (100 total nilai p). Pikirkan tentang perbedaan potensial antara 2 metodologi dan bagaimana kesimpulan bisa berbeda. Pendekatan obyektif akan mengharuskan kedua desain penelitian mengarah pada kesimpulan yang sama (mengingat 1.000 pasien yang sama dan yang lainnya sama).
@mljrg, mengapa Anda memilih untuk membandingkan g1 dan g2? Jika ini adalah pertanyaan yang menarik sebelum mengumpulkan data, maka nilai p MW masuk akal dan bermakna, namun jika Anda melakukan tes KW, maka cari tahu 2 kelompok mana yang paling berbeda dan lakukan uji MW hanya pada mereka yang terlihat paling berbeda, maka asumsi untuk uji MW dilanggar dan nilai p MW tidak ada artinya dan nilai p KW adalah satu-satunya dengan makna potensial.
sumber