Saya memiliki masalah dengan normalitas beberapa data yang saya miliki: Saya telah melakukan tes Kolmogorov yang mengatakan itu tidak normal dengan p = 0,0000, saya tidak mengerti: kemiringan distribusi saya = - .497, dan kurtosis = -0,024
Ini adalah plot distribusi saya yang terlihat sangat normal ...
(Saya memiliki tiga skor, dan masing-masing skor ini tidak normal dengan nilai p signifikan untuk tes Kolmogorov ... Saya benar-benar tidak mengerti)
Jawaban:
Anda tidak memiliki dasar untuk menyatakan data Anda normal. Bahkan jika skewness dan kelebihan kurtosis Anda berdua sama- sama 0, itu tidak berarti data Anda normal. Sementara skewness dan kurtosis jauh dari nilai yang diharapkan menunjukkan non-normal, sebaliknya tidak berlaku. Ada distribusi tidak normal yang memiliki kemiringan dan kurtosis yang sama dengan normal. Contoh dibahas di sini , kepadatannya direproduksi di bawah ini:
Seperti yang Anda lihat, ini jelas bimodal. Dalam hal ini, distribusinya simetris, sehingga selama momen yang cukup ada, ukuran kemiringan tipikal adalah 0 (memang semua ukuran biasa akan). Untuk kurtosis, kontribusi pada momen ke-4 dari daerah yang dekat dengan rata-rata akan cenderung membuat kurtosis lebih kecil, tetapi ekornya relatif berat, yang cenderung membuatnya lebih besar. Jika Anda memilih yang tepat, kurtosis keluar dengan nilai yang sama dengan yang normal.
Kemiringan sampel Anda sebenarnya sekitar -0,5, yang menunjukkan kemiringan kiri ringan. Histogram dan plot QQ Anda keduanya menunjukkan hal yang sama - distribusi condong ke kiri. (Kecenderungan ringan seperti itu tidak mungkin menjadi masalah bagi sebagian besar prosedur teori normal yang umum).
Anda melihat beberapa indikator non-normalitas yang tidak Anda harapkan untuk menyetujui apriori , karena mereka mempertimbangkan berbagai aspek distribusi; dengan sampel agak normal yang agak tidak normal, mereka akan sering tidak setuju.
Sekarang untuk pertanyaan besar: * Mengapa Anda menguji normalitas? *
[diedit sebagai tanggapan dari komentar:]
Ada sejumlah poin yang harus dibuat di sini.
saya. Normalitas adalah asumsi ANOVA jika Anda menggunakannya untuk inferensi (seperti pengujian hipotesis), tetapi itu tidak terlalu sensitif terhadap non-normalitas dalam sampel yang lebih besar - non-normalitas ringan adalah konsekuensi kecil dan sebagai ukuran sampel meningkatkan distribusi mungkin menjadi lebih tidak normal dan tes mungkin hanya sedikit terpengaruh.
ii. Anda tampaknya menguji normalitas respons (DV). Distribusi (tanpa syarat) dari DV itu sendiri tidak dianggap normal dalam ANOVA. Anda memeriksa residu untuk menilai kewajaran asumsi tentang distribusi bersyarat (yaitu, istilah kesalahan dalam model yang dianggap normal) - yaitu Anda tampaknya tidak melihat hal yang benar. Memang, karena pemeriksaan dilakukan pada residu, Anda melakukannya setelah pemasangan model, daripada sebelumnya.
aku aku aku. Pengujian formal bisa sia-sia. Pertanyaan yang menarik di sini adalah 'seberapa parahkah tingkat ketidaknormalan memengaruhi inferensi saya?', Yang tidak benar-benar ditanggapi oleh tes hipotesis. Ketika ukuran sampel semakin besar, tes menjadi lebih dan lebih mampu mendeteksi perbedaan sepele dari normalitas, sedangkan efek pada tingkat signifikansi dalam ANOVA menjadi semakin kecil. Artinya, jika ukuran sampel Anda cukup besar, uji normalitas biasanya memberi tahu Anda bahwa Anda memiliki ukuran sampel yang besar, yang berarti Anda mungkin tidak perlu terlalu khawatir. Setidaknya dengan plot QQ Anda memiliki penilaian visual tentang seberapa tidak normal itu.
iv. pada ukuran sampel yang masuk akal, asumsi lain - seperti kesetaraan varian dan independensi - umumnya lebih penting daripada non-normalitas ringan. Khawatir tentang asumsi lain terlebih dahulu ... tetapi sekali lagi, pengujian formal tidak menjawab pertanyaan yang tepat
v. memilih apakah Anda melakukan ANOVA atau tes lain berdasarkan hasil uji hipotesis cenderung memiliki sifat yang lebih buruk daripada hanya memutuskan untuk bertindak seolah-olah asumsi tersebut tidak berlaku. (Ada berbagai metode yang cocok untuk analisis satu arah ANOVA pada data yang tidak dianggap normal yang dapat Anda gunakan setiap kali Anda tidak berpikir Anda memiliki alasan untuk menganggap normal. Beberapa memiliki kekuatan yang sangat baik pada normal, dan dengan perangkat lunak yang layak tidak ada alasan untuk menghindarinya.)
[Saya percaya saya memiliki referensi untuk poin terakhir ini tetapi saya tidak dapat menemukannya sekarang; jika saya menemukannya saya akan mencoba untuk kembali dan memasukkannya ke dalam]
sumber
Tes Kolmogorov-Smirnov memiliki kekuatan yang cukup ketika ukuran sampel besar, sehingga mudah untuk menolak hipotesis nol bahwa data Anda tidak berbeda dari normalitas. Dengan kata lain, tes kadang-kadang akan menunjukkan bahwa distribusi tidak normal dalam sampel besar bahkan jika itu normal untuk sebagian besar niat.
Anggap saja seperti uji-t. Jika Anda memiliki dua populasi yang berbeda ketinggiannya hanya dengan seperseribu milimeter, sampel yang sangat besar akan secara statistik mendukung bahwa ini berbeda, walaupun perbedaannya tidak ada artinya.
Mungkin Anda bisa mengandalkan metode lain untuk menentukan normalitas data Anda. Plot yang Anda gunakan adalah dua contoh yang baik, serta nilai miring / kurtosis.
Topik lain ini tampaknya sangat terkait: Apakah pengujian normal 'pada dasarnya tidak berguna'?
sumber
Tes Kolmogorov – Smirnov bebas distribusi ketika hipotesis nol ditentukan sepenuhnya — jika mean & varians diperkirakan dari data, pastikan untuk menggunakan varian Lilliefors saat menguji normalitas (jika Anda harus). Itu tidak mengingkari jawaban lain.
sumber