The Wikipedia halaman di ANOVA daftar tiga asumsi , yaitu:
- Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik.
- Normalitas - distribusi residu adalah normal.
- Kesetaraan (atau "homogenitas") dari varians, yang disebut homoscedasticity ...
Poin yang menarik di sini adalah asumsi kedua. Beberapa sumber mencantumkan asumsi tersebut secara berbeda. Ada yang mengatakan normalitas data mentah, beberapa klaim residual.
Beberapa pertanyaan muncul:
- apakah normalitas dan distribusi residu normal adalah orang yang sama (berdasarkan entri Wikipedia, saya akan mengklaim normalitas adalah properti, dan tidak berkaitan residual secara langsung (tetapi dapat menjadi properti residual (teks yang sangat bersarang di dalam tanda kurung, aneh)))?
- jika tidak, asumsi manakah yang sebaiknya berlaku? Satu? Kedua?
- jika asumsi residu terdistribusi normal adalah yang benar, apakah kita membuat kesalahan besar dengan memeriksa hanya histogram dari nilai mentah untuk normalitas?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
sumber
sumber
Jawaban:
Mari kita asumsikan ini adalah model efek tetap . (Saran tidak benar-benar berubah untuk model efek-acak, itu hanya akan sedikit lebih rumit.)
Tidak, normalitas dan distribusi residual yang normal tidak sama . Misalkan Anda mengukur hasil dari tanaman dengan dan tanpa aplikasi pupuk. Dalam plot tanpa pupuk, hasilnya berkisar antara 70 hingga 130. Dalam dua plot dengan pupuk, hasilnya berkisar antara 470 hingga 530. Distribusi hasilnya sangat tidak normal: dikelompokkan di dua lokasi yang terkait dengan aplikasi pupuk. Misalkan lebih lanjut, hasil rata-rata masing-masing adalah 100 dan 500. Kemudian semua residu berkisar dari -30 hingga +30. Mereka mungkin (atau mungkin tidak) terdistribusi secara normal, tetapi jelas ini adalah distribusi yang sama sekali berbeda.
Distribusi residu penting , karena mencerminkan bagian acak dari model. Perhatikan juga bahwa nilai-p dihitung dari statistik F (atau t) dan bergantung pada residual, bukan pada nilai asli.
Jika ada efek signifikan dan penting dalam data (seperti dalam contoh ini), maka Anda mungkin membuat kesalahan "serius" . Anda bisa, beruntung, membuat keputusan yang benar: yaitu, dengan melihat data mentah Anda akan melihat campuran distribusi dan ini bisa terlihat normal (atau tidak). Intinya adalah apa yang Anda cari itu tidak relevan.
Residu ANOVA tidak harus mendekati normal untuk menyesuaikan model. Namun, mendekati normalitas residu sangat penting untuk nilai-p yang dihitung dari distribusi-F menjadi bermakna.
sumber
Standar ANOVA satu arah Klasik dapat dilihat sebagai perpanjangan dari "T-test 2-sampel" klasik menjadi "T-test n-sampel". Ini dapat dilihat dari membandingkan ANOVA satu arah dengan hanya dua kelompok dengan uji-2 sampel klasik.
Saya pikir di mana Anda menjadi bingung adalah bahwa (di bawah asumsi model) residual dan data mentah KEDUA didistribusikan secara normal. Namun data mentah terdiri dari distribusi normal dengan cara yang berbeda (kecuali semua efeknya persis sama) tetapi varians yang sama . Residu di sisi lain memiliki distribusi normal yang sama . Ini berasal dari asumsi ketiga homoseksualitas.
sumber
sumber