Saya telah membaca di suatu tempat dalam literatur bahwa tes Shapiro-Wilk dianggap sebagai tes normalitas terbaik karena untuk tingkat signifikansi yang diberikan, , probabilitas menolak hipotesis nol jika itu salah lebih tinggi daripada dalam kasus yang lain tes normalitas.
Bisakah Anda jelaskan kepada saya, menggunakan argumen matematis jika memungkinkan, bagaimana tepatnya kerjanya dibandingkan dengan beberapa tes normalitas lainnya (katakanlah tes Anderson-Darling)?
Jawaban:
Pertama, komentar umum: Perhatikan bahwa uji Anderson-Darling adalah untuk distribusi yang benar-benar ditentukan, sedangkan Shapiro-Wilk adalah untuk normal dengan mean dan varian apa pun. Namun, seperti yang disebutkan dalam D'Agostino & Stephens Anderson-Darling beradaptasi dengan cara yang sangat mudah untuk kasus estimasi, mirip dengan (tetapi konvergen lebih cepat dan dimodifikasi dengan cara yang lebih mudah untuk ditangani daripada Tes Lilliefors untuk kasus Kolmogorov-Smirnov). Khususnya, pada normal, dengan , tabel nilai asimptotik dapat digunakan (jangan menguji goodness of fit untuk n <5).[ 1 ] n = 5 SEBUAH∗= A2( 1 + 4n- 25n2)
Sebagai pernyataan umum, ini salah.
Tes normalitas mana yang "lebih baik" tergantung pada kelas alternatif yang Anda minati. Salah satu alasan Shapiro-Wilk populer adalah bahwa ia cenderung memiliki kekuatan yang sangat baik di bawah berbagai alternatif yang bermanfaat. Itu muncul dalam banyak studi tentang kekuasaan, dan biasanya berkinerja sangat baik, tetapi itu tidak terbaik secara universal.
Sangat mudah untuk menemukan alternatif yang kurang kuat.
Sebagai contoh, terhadap alternatif berekor cahaya, seringkali memiliki daya yang lebih kecil daripada rentang yang dipelajarkan (bandingkan dengan uji normalitas data seragam , misalnya - pada , tes berdasarkan memiliki kekuatan sekitar 63% dibandingkan dengan sedikit lebih dari 38% untuk Shapiro Wilk).u = maks ( x ) - min ( x )s d( x ) n = 30 kamu
Anderson-Darling (disesuaikan untuk estimasi parameter) tidak lebih baik pada eksponensial ganda. Kecenderungan momen lebih baik terhadap beberapa alternatif kemiringan.
Saya akan menjelaskan secara umum (jika Anda ingin detail lebih spesifik, makalah asli dan beberapa makalah nanti yang membahasnya akan menjadi pilihan terbaik Anda):
Pertimbangkan tes yang lebih sederhana namun berkaitan erat, Shapiro-Francia; itu secara efektif fungsi korelasi antara statistik pesanan dan statistik pesanan yang diharapkan di bawah normalitas (dan dengan demikian, ukuran yang cukup langsung dari "seberapa lurus garis itu" dalam plot QQ normal). Seingat saya, Shapiro-Wilk lebih kuat karena ia juga memperhitungkan kovarian antara statistik pesanan, menghasilkan estimator linier terbaik dari plot QQ, yang kemudian diskalakan oleh . Ketika distribusinya jauh dari normal, rasionya tidak mendekati 1.σ s
Sebagai perbandingan, Anderson-Darling, seperti Kolmogorov-Smirnov dan Cramér-von Mises, didasarkan pada CDF empiris. Secara khusus, ini didasarkan pada penyimpangan tertimbang antara ECDF dan ECDF teoritis (bobot-untuk-varians membuatnya lebih sensitif terhadap penyimpangan di ekor).
Tes oleh Shapiro dan Chen (1995) (berdasarkan jarak antara statistik urutan) sering menunjukkan kekuatan sedikit lebih dari Shapiro-Wilk (tetapi tidak selalu); mereka sering melakukan hal yang sama.[ 2 ]
-
Gunakan Shapiro Wilk karena sering kali kuat, tersedia secara luas, dan banyak orang yang mengenalnya (menghilangkan kebutuhan untuk menjelaskan secara terperinci apa itu jika Anda menggunakannya dalam kertas) - jangan gunakan itu di bawah ilusi bahwa itu adalah "tes normalitas terbaik". Tidak ada satu tes normalitas terbaik.
[1]: D'Agostino, RB dan Stephens, MA (1986)
Teknik Kebaikan ,
Marcel Dekker, New York.
[2]: Chen, L. dan Shapiro, S. (1995)
"Sebuah tes alternatif untuk normalitas berdasarkan jarak yang dinormalisasi."
Jurnal Perhitungan dan Simulasi Statistik 53 , 269-287.
sumber
shapiro.test
dalam R akan mendapatkan kesalahan.sample size must be between 3 and 5000
Lalu, tes apa lagi yang harus digunakan?Jelas perbandingan yang Anda baca tidak termasuk
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ) karena ia memiliki kekuatan setinggi mungkin di semua alternatif. Jadi itu harus dianggap "Terbaik" jika kekuasaan adalah satu-satunya pertimbangan (Perhatikan bahwa pendapat saya jelas-jelas bias, tetapi didokumentasikan dalam tautan / dokumentasi).Namun, saya setuju dengan komentar Nick Cox bahwa tes terbaik adalah plot daripada tes formal karena pertanyaan "Cukup normal" jauh lebih penting daripada "Sangat normal". Jika Anda ingin tes yang bermakna maka saya akan menyarankan menggabungkan plot qq dengan metodologi dalam makalah ini:
Salah satu implementasi dari itu adalah
vis.test
fungsi dalam paket TeachingDemos untuk R (paket yang sama denganSnowsPenultimateNormalityTest
).sumber
Saya terlambat ke pesta, tetapi akan menjawab dengan referensi ke penelitian peer-review yang diterbitkan. Alasan mengapa saya tidak menjawab Ya / Tidak untuk pertanyaan OP adalah karena lebih rumit dari yang terlihat. Tidak ada satu tes yang akan menjadi yang paling kuat untuk sampel yang berasal dari distribusi apa pun dengan atau tanpa pencilan. Pencilan dapat sangat mengurangi daya satu pengujian dan meningkatkan untuk yang lain. Beberapa tes berfungsi lebih baik ketika sampel berasal dari distribusi simetris dll.
dan
Jika Anda benar-benar ingin memulai penelitian mereka menjadi ya / tidak, maka jawabannya adalah YA. Tes Shapiro-Wilks tampaknya sedikit lebih kuat dalam banyak kasus daripada Anderson-Darling. Mereka merekomendasikan tes Shapiro Wilk ketika Anda tidak memiliki distribusi alternatif tertentu dalam pikiran. Namun, jika Anda tertarik pada subjek ini, makalah ini layak dibaca. Setidaknya lihatlah tabelnya.
Edith Seier, Uji Normalitas: Perbandingan Daya , dalam International Encyclopedia of Statistics Science, 2014 - Sebuah survei penelitian yang dipublikasikan tentang subjek tersebut. Sekali lagi, jawabannya tergantung pada sampel dan pengetahuan Anda tentang distribusi alternatif, tetapi jawaban yang diremehkan adalah YA, Shapiro-Wilk biasanya lebih kuat, tetapi tidak selalu.
Henry C. Thode, Tes Normalitas , dalam International Encyclopedia of Statistics Science, 2014 - Deskripsi tes normalitas populer. Rekomendasinya:
Sekarang, ini semua tentang tes univariat. The Thode (2002) juga memiliki uji multivariat, data yang disensor, campuran normal, pengujian di hadapan pencilan, dan banyak lagi.
sumber
Jawaban yang lebih serius untuk melanjutkan pertanyaan ini dan terutama minat terus-menerus @ silverfish. Salah satu pendekatan untuk menjawab pertanyaan seperti ini adalah menjalankan beberapa simulasi untuk membandingkan. Di bawah ini adalah beberapa kode R yang mensimulasikan data di bawah berbagai alternatif dan melakukan beberapa tes normalitas dan membandingkan daya (dan interval kepercayaan pada daya karena daya diperkirakan melalui simulasi). Saya mengubah ukuran sampel agak karena tidak menarik ketika banyak kekuatan mendekati 100% atau 5%, saya menemukan angka bulat yang memberi kekuatan mendekati 80%. Siapa pun yang tertarik dapat dengan mudah mengambil kode ini dan memodifikasinya untuk asumsi yang berbeda, berbagai alternatif, dll.
Anda dapat melihat bahwa ada beberapa alternatif yang beberapa tesnya lebih baik dan yang lainnya lebih buruk. Pertanyaan pentingnya adalah alternatif mana yang paling realistis untuk pertanyaan / bidang ilmiah Anda. Ini benar-benar harus ditindaklanjuti dengan simulasi pengaruh jenis ketidaknormalan minat pada tes lain yang sedang dilakukan. Beberapa jenis ketidaknormalan ini sangat memengaruhi tes berbasis normal lainnya, yang lain tidak terlalu memengaruhi mereka.
sumber