Jadi tes Mann Whitney U seharusnya sekitar 95% sama kuatnya dengan uji-t ketika asumsi uji-t normalitas dan varian homogen terpenuhi. Saya juga tahu bahwa tes Mann Whitney U lebih kuat daripada uji-t ketika asumsi ini tidak terpenuhi. Pertanyaan saya adalah, apakah tes Mann Whitney pada data di mana asumsi tidak puas atau hampir kuat seperti uji-t pada data di mana asumsi puas?
Saya bertanya karena saya sering melihat orang melakukan perhitungan daya berdasarkan asumsi bahwa mereka akan melakukan tes. Setelah mereka mengumpulkan data, mereka mengeksplorasi data dan memutuskan untuk menggunakan tes Mann Whitney sebagai gantinya dan tidak benar-benar meninjau kembali bagaimana mengubah tes mempengaruhi daya.
Terima kasih!
Jawaban:
1) Tes Mann-Whitney tidak dijamin lebih kuat daripada uji-t ketika asumsi uji-t tidak puas, meskipun untuk jenis pelanggaran yang cenderung kita lihat di dunia nyata, itu. Pertimbangkan distribusi Normal normal terpotong pada +/- 100 dan perbedaan antara rata-rata dua kelompok 0,01; ini bukan Normal, tetapi kedua tes akan bekerja seolah-olah itu, karena perbedaan antara kedua distribusi sangat kecil.
2) Uji-t adalah uji seragam yang paling kuat untuk perbedaan antara rata-rata dari dua varian Normal bla bla, jadi itu tidak akan dikalahkan oleh Mann-Whitney pada data semacam itu tidak peduli apa. Namun, yang terburuk yang dapat dilakukan oleh Mann-Whitney relatif terhadap uji-t adalah sekitar 0,864 dalam hal efisiensi relatif asimptotik, yaitu, akan membutuhkan 1 / 0,864x lebih banyak data untuk memberikan kekuatan yang sama (asimptotik.) ( Hollander dan Wolfe , Metode Statistik Nonparametrik.) Tidak ada jalan sebaliknya. Mereproduksi beberapa angka dari Hollander dan Wolfe, untuk distribusi yang berbeda kami mendapatkan ARE dari MW untuk uji-t:
Intinya tentu saja adalah bahwa Anda tidak dapat menembak diri sendiri dengan menggunakan uji Mann-Whitney alih-alih uji-t, tetapi kebalikannya tidak benar.
sumber
Ungkapan seperti 'sekuat' tidak benar-benar berfungsi sebagai pernyataan umum.
Daya tidak dapat dibandingkan secara khusus pada model distribusi yang berbeda. Ukuran efek yang diberikan memiliki arti yang berbeda di berbagai bagian distribusi. Bayangkan Anda memiliki distribusi yang cukup memuncak, tetapi memiliki ekor yang berat; Menurut ukuran apa kita mengatakan ukuran penyimpangan tertentu mirip dengan sesuatu dengan pusat yang lebih 'rata' dan ekor yang lebih kecil? Penyimpangan kecil mungkin sekitar mudah untuk diambil, tetapi penyimpangan besar mungkin (relatif terhadap kemungkinan distribusi lain yang kami coba untuk membandingkan daya) dengan lebih keras.
Dengan dua set distribusi normal, satu pasang dengan sd besar dan satu dengan sd kecil, mudah untuk mengatakan 'well, power hanya akan skala dengan deviasi standar; jika kita menentukan ukuran efek kita dalam hal jumlah standar deviasi, kita dapat menghubungkan dua kurva daya '.
Tetapi sekarang dengan distribusi yang berbeda bentuk , tidak ada pilihan skala yang jelas. Kita harus membuat beberapa pilihan tentang bagaimana membandingkannya. Pilihan apa yang kita buat akan menentukan bagaimana mereka "membandingkan".
Sebagai contoh, bagaimana saya membandingkan daya ketika data Cauchy dengan daya ketika data dikatakan sebagai beta berskala (2,2)? Apa ukuran efek yang sebanding? Cauchy di bawah ini memiliki lebih banyak distribusinya antara -1 dan 1 dan lebih sedikit distribusinya antara -3 dan 3 daripada yang lainnya. Rentang interkuartil mereka berbeda, misalnya. Apa dasar perbandingan kami?
Jika Anda dapat menyelesaikan teka-teki itu, sekarang pertimbangkan apakah salah satu distribusinya miring ke kiri dan yang lainnya bimodal, atau banyak sekali kemungkinan lainnya.
Anda masih dapat menghitung daya di bawah serangkaian asumsi tertentu, tetapi perbandingan satu tes di berbagai asumsi distribusi daripada dua tes di bawah asumsi distribusi yang diberikan secara konseptual sangat rumit.
sumber