Asumsi normalitas ANOVA / distribusi normal residu

52

The Wikipedia halaman di ANOVA daftar tiga asumsi , yaitu:

  • Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik.
  • Normalitas - distribusi residu adalah normal.
  • Kesetaraan (atau "homogenitas") dari varians, yang disebut homoscedasticity ...

Poin yang menarik di sini adalah asumsi kedua. Beberapa sumber mencantumkan asumsi tersebut secara berbeda. Ada yang mengatakan normalitas data mentah, beberapa klaim residual.

Beberapa pertanyaan muncul:

  • apakah normalitas dan distribusi residu normal adalah orang yang sama (berdasarkan entri Wikipedia, saya akan mengklaim normalitas adalah properti, dan tidak berkaitan residual secara langsung (tetapi dapat menjadi properti residual (teks yang sangat bersarang di dalam tanda kurung, aneh)))?
  • jika tidak, asumsi manakah yang sebaiknya berlaku? Satu? Kedua?
  • jika asumsi residu terdistribusi normal adalah yang benar, apakah kita membuat kesalahan besar dengan memeriksa hanya histogram dari nilai mentah untuk normalitas?
Roman Luštrik
sumber
Anda dapat mengabaikan sumber lain yang mengatakan jika mereka mengklaim data mentah perlu didistribusikan secara normal. Dan yang mengatakan "kita" hanya memeriksa nilai mentah dengan histogram. Apakah Anda berada di salah satu kelas Six Sigma ???
DWin
1
@Andy W: Saya baru saja menambahkan tautan ke apa yang tampaknya merupakan bagian yang relevan dari artikel Wikipedia di ANOVA.
onestop
@DWin: blog.markanthonylawson.com/?p=296 (maaf, benar - benar di luar topik tetapi tidak bisa menahan)
onestop
@onop terima kasih. Saya hanya meminta tautan karena saya malas dan tidak ingin mencari ANOVA di wikipedia sendiri, bukan karena itu penting untuk pertanyaan.
Andy W
Pertanyaan terkait di sini: bagaimana-jika-residual-terdistribusi-normal-tetapi-y-bukan-tidak .
gung - Reinstate Monica

Jawaban:

35

Mari kita asumsikan ini adalah model efek tetap . (Saran tidak benar-benar berubah untuk model efek-acak, itu hanya akan sedikit lebih rumit.)

  1. Tidak, normalitas dan distribusi residual yang normal tidak sama . Misalkan Anda mengukur hasil dari tanaman dengan dan tanpa aplikasi pupuk. Dalam plot tanpa pupuk, hasilnya berkisar antara 70 hingga 130. Dalam dua plot dengan pupuk, hasilnya berkisar antara 470 hingga 530. Distribusi hasilnya sangat tidak normal: dikelompokkan di dua lokasi yang terkait dengan aplikasi pupuk. Misalkan lebih lanjut, hasil rata-rata masing-masing adalah 100 dan 500. Kemudian semua residu berkisar dari -30 hingga +30. Mereka mungkin (atau mungkin tidak) terdistribusi secara normal, tetapi jelas ini adalah distribusi yang sama sekali berbeda.

  2. Distribusi residu penting , karena mencerminkan bagian acak dari model. Perhatikan juga bahwa nilai-p dihitung dari statistik F (atau t) dan bergantung pada residual, bukan pada nilai asli.

  3. Jika ada efek signifikan dan penting dalam data (seperti dalam contoh ini), maka Anda mungkin membuat kesalahan "serius" . Anda bisa, beruntung, membuat keputusan yang benar: yaitu, dengan melihat data mentah Anda akan melihat campuran distribusi dan ini bisa terlihat normal (atau tidak). Intinya adalah apa yang Anda cari itu tidak relevan.

Residu ANOVA tidak harus mendekati normal untuk menyesuaikan model. Namun, mendekati normalitas residu sangat penting untuk nilai-p yang dihitung dari distribusi-F menjadi bermakna.

whuber
sumber
6
Saya pikir ada poin penting untuk ditambahkan: dalam ANOVA, normalitas dalam setiap kelompok (tidak keseluruhan) setara dengan normalitas residual.
Aniko
2
@Aniko Bisakah Anda jelaskan apa yang Anda maksud dengan "setara" di komentar Anda? Hampir tautologis bahwa normalitas dalam suatu kelompok sama dengan normalitas residual kelompok itu, tetapi adalah keliru bahwa normalitas secara terpisah dalam setiap kelompok menyiratkan (atau tersirat oleh) normalitas residual.
Whuber
7
Saya benar-benar bermaksud pengertian tautologis: jika kelompok-kelompok itu normal maka residualnya normal. Kebalikannya hanya benar jika homoscedascity ditambahkan (seperti pada ANOVA). Saya tidak bermaksud menganjurkan untuk memeriksa kelompok daripada residu, tetapi saya pikir ini adalah alasan yang mendasari untuk berbagai ungkapan asumsi.
Aniko
2
Saya perhatikan bahwa orang yang melakukan ANOVA biasanya tampak tertarik dalam menghitung nilai-p, dan karenanya normalitas residu penting bagi mereka. Apakah ada alasan umum untuk mencocokkan model ANOVA jika kita tidak tertarik dalam menghitung nilai-p dari distribusi-F? Mohon maaf jika pertanyaan ini terlalu luas untuk dikomentari.
user1205901
3
@ user1205901 Itu adalah poin yang sangat bagus. Dua penggunaan umum ANOVA yang tidak bergantung pada uji F adalah (1) ini adalah cara yang mudah untuk mendapatkan perkiraan efek dan (2) itu bagian tak terpisahkan dari komponen perhitungan varians.
whuber
8

Standar ANOVA satu arah Klasik dapat dilihat sebagai perpanjangan dari "T-test 2-sampel" klasik menjadi "T-test n-sampel". Ini dapat dilihat dari membandingkan ANOVA satu arah dengan hanya dua kelompok dengan uji-2 sampel klasik.

Saya pikir di mana Anda menjadi bingung adalah bahwa (di bawah asumsi model) residual dan data mentah KEDUA didistribusikan secara normal. Namun data mentah terdiri dari distribusi normal dengan cara yang berbeda (kecuali semua efeknya persis sama) tetapi varians yang sama . Residu di sisi lain memiliki distribusi normal yang sama . Ini berasal dari asumsi ketiga homoseksualitas.

Yijμjσ2Ysayaj=μj+σϵsayajϵsayaj

ϵsayaj

Ysayaj

probabilityislogic
sumber
1
+1 untuk menunjukkan (dalam paragraf terakhir) asumsi homoseksualitas.
whuber
Apakah ini berarti bahwa jika kita membiarkan katakanlah n kelompok tergantung untuk membandingkan, kita perlu memeriksa residunya secara terpisah (menghasilkan n kelompok residu)?
stan
5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)MjY=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

H0Myi(j)MjMMj

caracal
sumber
2
SSχ2Mj=MjyijMjMjM
@onestop Diedit untuk mencerminkan klarifikasi Anda, terima kasih!
caracal