Saya telah merencanakan ini setelah saya melakukan tes normalitas Shapiro-Wilk. Tes menunjukkan bahwa ada kemungkinan bahwa populasi terdistribusi secara normal. Namun, bagaimana cara melihat "perilaku" ini di plot ini?
MEMPERBARUI
Sebuah histogram sederhana dari data:
MEMPERBARUI
Tes Shapiro-Wilk mengatakan:
Jawaban:
Tidak; itu tidak menunjukkan itu.
Tes hipotesis tidak memberi tahu Anda seberapa besar kemungkinan nol itu. Sebenarnya Anda bisa bertaruh bahwa nol ini salah.
Plot QQ tidak memberikan indikasi kuat akan ketidaknormalan (plot ini cukup lurus); mungkin ada ekor kiri yang sedikit lebih pendek dari yang Anda harapkan, tetapi itu benar-benar tidak masalah.
Histogram apa adanya mungkin juga tidak banyak bicara; itu juga mengisyaratkan ekor kiri yang sedikit lebih pendek. Tapi lihat di sini
Distribusi populasi tempat asal data Anda tidak akan menjadi normal. Namun, plot QQ menunjukkan bahwa normalitas mungkin merupakan perkiraan yang cukup baik.
Jika ukuran sampel tidak terlalu kecil, kurangnya penolakan terhadap Shapiro-Wilk mungkin akan mengatakan hal yang sama.
Perbarui: hasil edit Anda untuk menyertakan nilai p Shapiro-Wilk yang sebenarnya adalah penting karena pada kenyataannya itu akan menunjukkan Anda akan menolak nol pada tingkat signifikan yang khas. Tes itu menunjukkan data Anda tidak terdistribusi secara normal dan kemiringan ringan yang ditunjukkan oleh plot mungkin adalah apa yang diambil oleh tes. Untuk prosedur tipikal yang mungkin mengasumsikan normalitas dari variabel itu sendiri (uji-satu sampel adalah yang terlintas dalam pikiran), pada apa yang tampak sebagai ukuran sampel yang cukup besar, ketidaknormalan ringan ini hampir tidak ada konsekuensi pada semua - salah satu masalah dengan uji goodness of fit adalah mereka lebih cenderung menolak hanya ketika itu tidak masalah (ketika ukuran sampel cukup besar untuk mendeteksi beberapa non-normalitas sederhana); sama halnya mereka lebih cenderung gagal untuk menolak ketika hal itu paling penting (ketika ukuran sampel kecil).
sumber
Jika data terdistribusi secara normal, titik-titik dalam plot QQ-normal terletak pada garis diagonal lurus. Anda dapat menambahkan baris ini ke plot QQ Anda dengan perintah
qqline(x)
, di manax
vektor nilai.Contoh distribusi normal dan non-normal:
Distribusi normal
Plot QQ-normal dengan garis:
Penyimpangan dari garis lurus minimal. Ini menunjukkan distribusi normal.
Histogram:
Distribusi tidak normal (Gamma)
Plot QQ-normal:
Poin-poinnya jelas mengikuti bentuk lain dari garis lurus.
Histogram mengkonfirmasi ketidaknormalan. Distribusi tidak berbentuk lonceng tetapi condong positif (yaitu, sebagian besar titik data berada di bagian bawah). Histogram distribusi normal menunjukkan frekuensi tertinggi di pusat distribusi.
sumber
qqPlot
fungsi dalamcar
paket.Beberapa alat untuk memeriksa validitas asumsi normalitas dalam R
sumber
Meskipun memeriksa secara visual apakah intuisi Anda cocok dengan hasil beberapa tes, Anda tidak bisa berharap ini mudah setiap saat. Jika orang yang mencoba mendeteksi Higgs Boson hanya akan mempercayai hasil mereka jika mereka bisa menilai secara visual, mereka akan membutuhkan mata yang sangat tajam.
Terutama dengan dataset besar (dan dengan demikian, biasanya dengan kekuatan yang meningkat), statistik cenderung mengambil perbedaan terkecil, bahkan ketika mereka hampir tidak dapat dilihat dengan mata telanjang.
Yang dikatakan: untuk normalitas, plot QQ Anda harus menunjukkan garis lurus: Saya akan mengatakan tidak. Ada belokan yang jelas di bagian ekor, dan bahkan di dekat tengah ada keributan. Secara visual, saya mungkin masih mau mengatakan (tergantung pada tujuan memeriksa normalitas) data ini "cukup" normal.
Namun perhatikan: untuk sebagian besar tujuan di mana Anda ingin memeriksa normalitas, Anda hanya perlu normalitas rata-rata daripada normalitas pengamatan, sehingga teorema batas pusat mungkin cukup untuk menyelamatkan Anda. Selain itu: walaupun normalitas sering merupakan asumsi bahwa Anda perlu memeriksa "secara resmi", banyak tes telah terbukti sangat tidak sensitif untuk membuat asumsi ini tidak terpenuhi.
sumber
Saya suka versi keluar dari 'R' perpustakaan 'mobil' karena tidak hanya memberikan kecenderungan sentral, tetapi interval kepercayaan. Ini memberikan panduan visual untuk membantu mengkonfirmasi apakah perilaku data konsisten dengan distribusi hipotetis.
beberapa tautan:
sumber