Tes normalitas yang sesuai untuk sampel kecil

22

Sejauh ini, saya telah menggunakan statistik Shapiro-Wilk untuk menguji asumsi normalitas dalam sampel kecil.

Bisakah Anda merekomendasikan teknik lain?

aL3xa
sumber
1
Berikut adalah beberapa pertanyaan lain yang mungkin menarik: apakah-normalitas-pengujian-pada dasarnya-tidak berguna , untuk diskusi tentang nilai pengujian normalitas, & bagaimana-jika-residual-biasanya-didistribusikan-tetapi-y-adalah- tidak , untuk diskusi / klarifikasi pengertian di mana normalitas adalah asumsi model linier.
gung - Reinstate Monica
3
Wilk dalam Shapiro-Wilk mengacu pada Martin B. Wilk. Terlalu mudah untuk menulis "Wilks" terutama (a) jika orang lain mengatakan atau menulis itu dan Anda menyalin (b) Anda tahu tentang pekerjaan dalam statistik Samuel S. Wilks, orang yang sangat berbeda (c) Anda mendapatkan bingung tentang terminal "s" dalam bahasa Inggris, mengingat penggunaannya yang lain untuk bentuk jamak (statistik, kucing, anjing, ...) dan posesif, yang umum bahkan di antara mereka yang bahasa pertamanya adalah bahasa Inggris. Saya telah mengedit utas ini sejauh yang saya bisa; Saya tidak bisa menjangkau komentar.
Nick Cox

Jawaban:

24

The fBasics paket di R (bagian dari Rmetrics ) meliputi beberapa tes normalitas , meliputi banyak yang populer tes frequentist - Kolmogorov-Smirnov, Shapiro-Wilk, Jarque-Bera, dan D'Agostino - bersama dengan pembungkus untuk tes normalitas dalam paket nortest - Anderson-Darling, Cramer-von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi-square, dan Shapiro-Francia. Dokumentasi paket juga menyediakan semua referensi penting. Berikut ini adalah demo yang menunjukkan cara menggunakan tes dari nortest .

Salah satu pendekatan, jika Anda punya waktu, adalah menggunakan lebih dari satu tes dan memeriksa persetujuan. Tes bervariasi dalam beberapa cara, sehingga tidak sepenuhnya mudah untuk memilih "yang terbaik". Apa yang digunakan peneliti lain di bidang Anda? Ini bisa bervariasi dan mungkin yang terbaik adalah tetap dengan metode yang diterima sehingga orang lain akan menerima pekerjaan Anda. Saya sering menggunakan tes Jarque-Bera, sebagian karena alasan itu, dan Anderson-Darling untuk perbandingan.

Anda dapat melihat "Perbandingan Tes untuk Normalitas Univariat" (Seier 2002) dan "Perbandingan berbagai tes normalitas" (Yazici; Yolacan 2007) untuk perbandingan dan diskusi tentang masalah tersebut.

Ini juga mudah untuk menguji metode ini untuk perbandingan dalam R, terima kasih untuk semua fungsi distribusi . Berikut adalah contoh sederhana dengan data yang disimulasikan (saya tidak akan mencetak hasilnya untuk menghemat ruang), meskipun diperlukan eksposisi yang lebih lengkap:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Setelah Anda mendapatkan hasil dari berbagai tes pada distribusi yang berbeda, Anda dapat membandingkan mana yang paling efektif. Sebagai contoh, nilai p untuk tes Jarque-Bera di atas mengembalikan 0,276 untuk distribusi normal (menerima) dan <2,2e-16 untuk cauchy (menolak hipotesis nol).

Shane
sumber
Terima kasih Shane, jawaban yang bagus! Nah, "yang lain" dari bidang saya sering menggunakan SPSS, sehingga mereka menggunakan Kolmogorov-Smirnov (jika mereka memeriksa normalitas sama sekali), meskipun IMHO tes Lilliefors adalah pilihan yang lebih baik ketika data dikumpulkan dari sampel (ketika parameter adalah tidak diketahui). Saya diajari bahwa Shapiro-Wilk sesuai untuk sampel kecil, dan hanya ingin mendapatkan info lebih lanjut tentang "tes normalitas sampel kecil" ... BTW, saya menggunakan nortest di R! =)
aL3xa
12

Untuk normalitas, Shapiro-Wilk sebenarnya memiliki kekuatan yang baik dalam sampel yang cukup kecil.

Pesaing utama dalam studi yang saya lihat adalah Anderson-Darling yang lebih umum, yang cukup baik, tetapi saya tidak akan mengatakan itu lebih baik. Jika Anda dapat menjelaskan alternatif apa yang menarik bagi Anda, mungkin statistik yang lebih baik akan lebih jelas. [edit: jika Anda memperkirakan parameter, tes AD harus disesuaikan untuk itu.]

[Saya sangat merekomendasikan untuk tidak mempertimbangkan Jarque-Bera dalam sampel kecil (yang mungkin lebih dikenal sebagai Bowman-Shenton dalam lingkaran statistik - mereka mempelajari distribusi sampel kecil). Distribusi skewness dan kurtosis yang asimptotik tidak seperti distribusi sampel kecil - dengan cara yang sama pisang tidak terlihat seperti jeruk. Ia juga memiliki daya yang sangat rendah terhadap beberapa alternatif yang menarik - misalnya ia memiliki daya yang rendah untuk mengambil distribusi bimodal simetris yang memiliki kurtosis dekat dengan distribusi normal.]

Seringkali orang menguji kebaikan yang cocok untuk alasan yang ternyata bukan alasan yang sangat bagus, atau mereka menjawab pertanyaan selain dari yang sebenarnya ingin mereka jawab.

Misalnya, Anda hampir pasti sudah tahu data Anda tidak benar-benar normal (tidak persis), jadi tidak ada gunanya mencoba menjawab pertanyaan yang Anda tahu jawabannya - dan tes hipotesis sebenarnya tidak menjawabnya .

Mengingat Anda tahu Anda belum memiliki normalitas yang tepat, uji hipotesis normalitas Anda benar-benar memberi Anda jawaban untuk pertanyaan yang lebih dekat dengan "apakah ukuran sampel saya cukup besar untuk mengambil jumlah non-normalitas yang saya miliki", sementara pertanyaan sebenarnya yang Anda tertarik untuk menjawab biasanya lebih dekat dengan "apa dampak dari ketidaknormalan ini pada hal-hal lain yang saya minati?". Uji hipotesis mengukur ukuran sampel, sedangkan pertanyaan yang Anda minati tidak terlalu tergantung pada ukuran sampel.

Ada saat-saat ketika pengujian normalitas masuk akal, tetapi situasi itu hampir tidak pernah terjadi dengan sampel kecil.

Mengapa Anda menguji normalitas?

Glen_b -Reinstate Monica
sumber
Terima kasih atas jawaban yang bagus, dan pertanyaan yang bagus sesudahnya. Sangat penting untuk mendapatkan wawasan tentang latar belakang masalah. Nah, sering kali saya melihat orang melakukan uji-t, Pearson r atau ANOVA tanpa mengetahui bentuk distribusi (yang sering miring) - teknik parametrik "perlu" dipenuhi asumsi normalitas. Dalam psikologi (yang merupakan bidang minat saya), kami sering berurusan dengan sampel kecil, oleh karena itu saya perlu tes normalitas yang sesuai.
aL3xa
5
Tapi normalitas tidak pernah puas. Terkadang ini adalah deskripsi data yang masuk akal, tetapi sebenarnya tidak normal. Meskipun masuk akal untuk memeriksa ketidaknormalan saat Anda menganggapnya, tidak terlalu berguna untuk mengujinya (untuk alasan yang saya jelaskan di atas). Saya melakukan plot-qq, misalnya, tetapi tes hipotesis menjawab pertanyaan yang salah dalam situasi ini. t-tes dan anova biasanya bekerja dengan baik jika distribusinya tidak terlalu condong. Pendekatan yang lebih baik mungkin dengan menggunakan prosedur yang tidak menganggap normal - mungkin teknik resampling.
Glen_b -Reinstate Monica
Atau Anda dapat menggunakan tes non-parametrik, dengan biaya lebih sedikit daya. Dan tidak ada yang benar-benar puas dalam statistik, itu bukan hanya masalah normalitas. Namun, bootstrap atau jackknifing bukan solusi ketika memperkenalkan seseorang untuk menguji-t dan / atau asumsi ANOVA. Saya ragu bahwa teknik resampling menyelesaikan masalah normalitas sama sekali. Seseorang harus memeriksa normalitas baik secara grafik (plot kerapatan, boxplot, QQplot, histogram) dan "secara numerik" (tes normalitas, skewness, kurtosis, dll.). Apa yang Anda sarankan? Ini sepenuhnya di luar topik, tetapi bagaimana Anda akan memeriksa, katakanlah, asumsi normalitas ANOVA?
aL3xa
@ aL3xa Saya pikir pendekatan pengacakan lebih sesuai diberikan bidang penelitian Anda; meskipun fakta bahwa tes parametrik biasa memberikan perkiraan yang baik untuk tes permutasi yang tepat, tes non-parametrik juga menyiratkan semacam asumsi (misalnya pada bentuk distribusi). Saya bahkan bertanya-tanya bagaimana kita dapat benar-benar mendefinisikan apa yang merupakan penyimpangan dari normalitas dalam studi sampel kecil. Saya pikir Anda harus meminta diskusi lebih lanjut tentang hal ini dalam pertanyaan terpisah.
chl
10

Ada seluruh kategori Wikipedia pada tes normal termasuk:

Saya pikir AD mungkin yang terbaik dari mereka.

Rob Hyndman
sumber
1
Saya setuju. Saya melakukan tes cepat tes AD, Jarque-Bera, dan tes Spiegelhalter (1983), di bawah nol, dengan ukuran sampel 8, berulang 10.000 kali. Tes AD mempertahankan tingkat penolakan nominal, dan memberikan interval yang seragam, sedangkan uji JB mengerikan, Spiegelhalter sedang.
shabbychef
1
@shabbychef Tes Jarque-Bera bergantung pada normalitas asimtotik dari kemiringan dan kurtosis sampel, yang tidak bekerja dengan baik bahkan untuk n pada 100-an yang rendah . Tetapi untuk mendapatkan tingkat penolakan yang diinginkan, Anda dapat menyesuaikan nilai kritis misalnya berdasarkan hasil simulasi, seperti dalam Bagian 4.1 dari Thadewald, T, dan H. Buning, 2004, tes Jarque-Bera dan para pesaingnya untuk menguji normalitas - Perbandingan daya , Diskusi Paper Economics 2004/9, Sekolah Bisnis dan Ekonomi, Free University of Berlin.
Silverfish
3

Untuk kelengkapannya, para ahli ekonometrika juga menyukai tes Kiefer dan Salmon dari makalah mereka di Economics Letters tahun 1983 - ini merupakan ekspresi 'skewness dan kurtosis' yang dinormalisasi 'yang kemudian didistribusikan secara chi-square. Saya memiliki versi C ++ lama yang saya tulis saat lulus sekolah, saya bisa menerjemahkannya ke R.

Sunting: Dan inilah makalah terbaru dari Bierens (kembali) yang mendapatkan Jarque-Bera dan Kiefer-Salmon.

Sunting 2: Saya melihat kode lama, dan sepertinya itu adalah tes yang sama antara Jarque-Bera dan Kiefer-Salmon.

Dirk Eddelbuettel
sumber
2

Faktanya, tes Kiefer Salmon dan tes Jarque Bera sangat berbeda seperti yang ditunjukkan di beberapa tempat, tetapi yang terbaru di sini - Tes Momen untuk Distribusi Kesalahan Standar: Pendekatan Robust Sederhana oleh Yi-Ting Chen. Tes Kiefer Salmon dengan konstruksi kuat dalam menghadapi struktur kesalahan tipe ARCH tidak seperti tes Jarque Bera standar. Makalah karya Yi-Ting Chen mengembangkan dan membahas apa yang menurut saya mungkin merupakan tes terbaik saat ini.

Tandai Salmon
sumber
4
Chen tampaknya berfokus pada kumpulan data yang lebih besar, yang masuk akal karena momen keempat dan keenam dan lebih tinggi yang terlibat dalam tes ini akan membutuhkan waktu untuk menetap ke tingkat asimptotik. Tetapi tes distribusi biasanya digunakan untuk dataset yang lebih kecil dari 250 nilai (minimum yang dipelajari dalam makalah ini). Bahkan, sebagian besar dari mereka menjadi sangat kuat dengan jumlah data yang lebih besar sehingga mereka sedikit lebih banyak dari pada renungan dalam aplikasi semacam itu. Atau ada lebih banyak hal yang terjadi di sini daripada yang saya lihat?
whuber
0

Untuk ukuran sampel <30 subjek, Shapiro-Wilk dianggap memiliki kekuatan yang kuat - Hati-hati , saat menyesuaikan tingkat signifikansi tes, karena dapat menyebabkan kesalahan tipe II! [1]

Aliakbar Ahmadi
sumber
Dalam sampel kecil uji goodness of fit umumnya tidak dapat menolak normaility.
Michael R. Chernick
@MichaelChernick lalu apa yang terjadi pada kasus tertentu? Apa alasan di balik kecil kecil "diklasifikasikan" sebagai tidak normal?
Aliakbar Ahmadi