Saya sedang memeriksa bagian dari dataset saya yang berisi 46840 nilai ganda mulai dari 1 hingga 1690 yang dikelompokkan dalam dua grup. Untuk menganalisis perbedaan antara kelompok-kelompok ini saya mulai dengan memeriksa distribusi nilai-nilai untuk memilih tes yang tepat.
Mengikuti panduan tentang pengujian normalitas, saya melakukan qqplot, histogram & boxplot.
Ini sepertinya bukan distribusi normal. Karena panduan ini menyatakan agak benar bahwa pemeriksaan grafis murni tidak cukup, saya juga ingin menguji distribusi untuk normalitas.
Mengingat ukuran dataset dan batasan uji shapiro-wilks dalam R, bagaimana seharusnya distribusi yang diberikan diuji normalitas dan mempertimbangkan ukuran dataset, apakah ini bahkan dapat diandalkan? ( Lihat jawaban yang diterima untuk pertanyaan ini )
Edit:
Keterbatasan tes Shapiro-Wilk yang saya maksudkan adalah bahwa dataset yang akan diuji dibatasi hingga 5.000 poin. Untuk mengutip jawaban bagus lain tentang topik ini:
Masalah tambahan dengan tes Shapiro-Wilk adalah bahwa ketika Anda memberinya lebih banyak data, kemungkinan hipotesis nol ditolak menjadi lebih besar. Jadi yang terjadi adalah bahwa untuk sejumlah besar data, bahkan penyimpangan yang sangat kecil dari normalitas dapat dideteksi, yang mengarah pada penolakan peristiwa hipotesis nol tetapi untuk tujuan praktis, datanya lebih dari cukup.
[...] Untungnya shapiro.test melindungi pengguna dari efek yang dijelaskan di atas dengan membatasi ukuran data hingga 5.000.
Mengapa saya menguji distribusi normal di tempat pertama:
Beberapa tes hipotesis mengasumsikan distribusi data normal. Saya ingin tahu apakah saya bisa menggunakan tes ini atau tidak.
Jawaban:
Saya tidak mengerti mengapa Anda repot-repot. Ini jelas tidak normal - dalam hal ini, pemeriksaan grafis tampak cukup bagi saya. Anda mendapatkan banyak pengamatan dari apa yang tampak sebagai distribusi gamma bersih yang bagus. Pergi saja dengan itu. kolmogorov-smirnov jika Anda harus - Saya akan merekomendasikan distribusi referensi.
x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
hist(rgamma(46840,2.13,.0085))
boxplot(rgamma(46840,2.13,.0085))
Seperti yang selalu saya katakan, "Lihat Apakah pengujian normal 'pada dasarnya tidak berguna' ," terutama jawaban @ MånsT , yang menunjukkan bahwa analisis yang berbeda memiliki sensitivitas yang berbeda terhadap berbagai pelanggaran asumsi normalitas. Jika distribusi Anda sedekat mungkin dengan milik saya, Anda mungkin memiliki kemiringan dan kurtosis ("kelebihan kurtosis" ). Itu mungkin menjadi masalah untuk banyak tes. Jika Anda tidak bisa hanya menemukan tes dengan asumsi parametrik yang lebih tepat atau tidak sama sekali, mungkin Anda bisa mengubah data Anda, atau setidaknya melakukan analisis sensitivitas dari analisis apa pun yang ada dalam pikiran Anda.≈ 5.9 ≈ 2.9≈1.4 ≈5.9 ≈2.9
sumber