Saya telah menganalisis percobaan dengan ANOVA tindakan berulang. ANOVA adalah 3x2x2x2x3 dengan 2 faktor antara-subjek dan 3 di dalam (N = 189). Tingkat kesalahan adalah variabel dependen. Distribusi tingkat kesalahan memiliki kemiringan 3,64 dan kurtosis 15,75. Kemiringan dan kurtosis adalah hasil dari 90% dari tingkat kesalahan berarti menjadi 0. Membaca beberapa utas sebelumnya pada tes normalitas di sini membuat saya sedikit bingung. Saya pikir jika Anda memiliki data yang tidak terdistribusi secara normal, sebaiknya Anda mentransformasikannya jika mungkin, tetapi tampaknya banyak orang berpikir menganalisis data yang tidak normal dengan ANOVA atau uji-T dapat diterima. Bisakah saya mempercayai hasil ANOVA?
(FYI, Di masa depan saya bermaksud untuk menganalisis tipe data ini dalam R dengan model campuran dengan distribusi binomial)
Jawaban:
Seperti tes parametrik lainnya, analisis varian mengasumsikan bahwa data sesuai dengan distribusi normal. Jika variabel pengukuran Anda tidak terdistribusi secara normal, Anda mungkin meningkatkan peluang hasil positif palsu jika Anda menganalisis data dengan anova atau tes lain yang mengasumsikan normalitas. Untungnya, anova tidak terlalu sensitif terhadap penyimpangan moderat dari normalitas; studi simulasi, menggunakan berbagai distribusi non-normal, telah menunjukkan bahwa tingkat positif palsu tidak banyak dipengaruhi oleh pelanggaran asumsi ini (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). Ini karena ketika Anda mengambil sejumlah besar sampel acak dari suatu populasi, rata-rata sampel tersebut terdistribusi secara normal bahkan ketika populasinya tidak normal.
Dimungkinkan untuk menguji good-of-fit dari suatu set data dengan distribusi normal. Saya tidak menyarankan Anda melakukan ini, karena banyak set data yang secara signifikan tidak normal akan sangat cocok untuk anova.
Sebaliknya, jika Anda memiliki kumpulan data yang cukup besar, saya sarankan Anda hanya melihat histogram frekuensi. Jika terlihat lebih atau kurang normal, silakan dan lakukan anova. Jika terlihat seperti distribusi normal yang didorong ke satu sisi, seperti data sulfat di atas, Anda harus mencoba transformasi data yang berbeda dan melihat apakah ada di antaranya yang membuat histogram terlihat lebih normal. Jika itu tidak berhasil, dan data masih terlihat sangat tidak normal, mungkin masih oke untuk menganalisis data menggunakan anova. Namun, Anda mungkin ingin menganalisisnya menggunakan tes non-parametrik. Hampir setiap uji statistik parametrik memiliki pengganti non-parametrik, seperti uji Kruskal-Wallis alih-alih anova satu arah, uji peringkat bertanda Wilcoxon alih-alih uji t berpasangan, dan korelasi peringkat Spearman alih-alih regresi linier. Tes non-parametrik ini tidak mengasumsikan bahwa data sesuai dengan distribusi normal. Mereka berasumsi bahwa data dalam kelompok yang berbeda memiliki distribusi yang sama satu sama lain, namun; jika kelompok yang berbeda memiliki distribusi bentuk yang berbeda (misalnya, satu condong ke kiri, yang lain condong ke kanan), tes non-parametrik mungkin tidak lebih baik daripada yang parametrik.
Referensi
sumber
Khususnya mengenai tingkat kesalahan sebagai DV, Dixon (2008) sangat meyakinkan menunjukkan bahwa pengujian hipotesis nol melalui ANOVA dapat menyebabkan peningkatan tingkat alarm palsu (memanggil efek "signifikan" ketika mereka tidak) dan meningkatkan tingkat kesalahan (kehilangan efek nyata). Dia juga menunjukkan bahwa pemodelan efek campuran, yang menentukan kesalahan terdistribusi secara binerial, adalah pendekatan yang lebih tepat untuk menganalisis data laju.
sumber
Anda tidak dapat mempercayai ANOVA Anda dengan banyak kemiringan dan sejumlah besar 0s. Metode yang lebih tepat adalah dengan menggunakan jumlah kesalahan sebagai DV Anda (sehingga mengubah DV Anda menjadi data jumlah) dan melakukan analisis Poisson. Pendekatan ini akan memerlukan menggunakan analisis efek campuran dan menentukan keluarga distribusi kesalahan sebagai Poisson. The Dixon (2008) * artikel yang disebutkan oleh Mike Lawrence menggunakan analisis efek campuran dalam R tetapi dengan hasil binomial. Saya telah sepenuhnya pindah untuk melakukan R untuk sebagian besar analisis pengukuran berulang saya karena begitu banyak variabel hasil saya adalah binomial. Paket R yang sesuai adalah
lme4
.sumber
Juan telah menawarkan banyak hal, walaupun saya akan menggemakan yang lain dan mengulangi bahwa untuk akurasi terbaik variabel-variabel itu sendiri bisa menjadi tidak normal asalkan residunya tidak. Juga, jawaban yang disederhanakan dan sedikit lebih terstruktur (melalui bagan alur beranotasi) tersedia di yellowbrickstats.com .
sumber
Efek langit-langit adalah masalahnya di sini. Tes non parametrik adalah taruhan Anda yang paling aman, meskipun ANOVA kuat terhadap pelanggaran normalitas ini jika n besar. Biasanya orang hanya menggunakan histogram untuk menguji ini, tetapi jika masalahnya ada pada residual, mungkin lebih maju dari itu. Juga ingat BAGAIMANA ini memengaruhi hasil Anda (tidak hanya itu). Pallant (2007) mungkin akan mengatakan ini meningkatkan peluang Anda kesalahan tipe satu, jadi jika Anda mengurangi alpha kritis Anda, Anda mengurangi itu.
sumber