Berulang langkah ANOVA: apa asumsi normalitas?

15

Saya bingung tentang asumsi normalitas dalam tindakan berulang ANOVA. Secara khusus, saya bertanya-tanya normalitas seperti apa yang harus dipenuhi. Dalam membaca literatur dan jawaban pada CV, saya menemukan tiga kata berbeda dari asumsi ini.

  1. Variabel dependen dalam setiap kondisi (berulang) harus didistribusikan secara normal.

    Sering dinyatakan bahwa rANOVA memiliki asumsi yang sama dengan ANOVA, plus kebulatannya. Itulah klaim dalam statistik Penemuan Lapangan serta dalam artikel Wikipedia tentang subjek dan teks Lowry .

  2. Sisa (perbedaan antara semua pasangan yang mungkin?) Harus didistribusikan secara normal.

    Saya menemukan pernyataan ini dalam berbagai jawaban di CV ( 1 , 2 ). Dengan analogi rANOVA dengan uji-t berpasangan , ini mungkin juga tampak intuitif.

  3. Normalitas multivariat harus dipenuhi.

    Wikipedia dan sumber ini menyebutkan ini. Juga, saya tahu bahwa rANOVA dapat ditukar dengan MANOVA, yang mungkin layak untuk klaim ini.

Apakah ini setara? Saya tahu bahwa normalitas multivariat berarti bahwa setiap kombinasi linear dari DV terdistribusi secara normal, maka 3. akan secara alami menyertakan 2. jika saya memahami yang terakhir dengan benar.

Jika ini tidak sama, yang merupakan asumsi "benar" dari rANOVA? Bisakah Anda memberikan referensi?

Menurut saya ada sebagian besar dukungan untuk klaim pertama. Namun, ini tidak sejalan dengan jawaban yang biasanya diberikan di sini.


Model campuran linier

Karena petunjuk @ utobi, saya sekarang mengerti bagaimana rANOVA dapat disajikan kembali sebagai model campuran linier. Secara khusus, untuk model bagaimana perubahan tekanan darah dengan waktu, saya akan model nilai yang diharapkan sebagai: di mana y i j adalah pengukuran tekanan darah, sebuah i darah rata-rata tekanan dari subjek ke- i , dan t i j saat ke- j waktu subjek ke- i diukur, b i

E[yij]=ai+bitij,
yijaiitijjibimenunjukkan bahwa perubahan itu tekanan darah juga berbeda antar subjek. Kedua efek dianggap acak, karena sampel subjek hanya sebagian kecil dari populasi, yang merupakan kepentingan utama.

Akhirnya, saya mencoba memikirkan apa artinya ini bagi normalitas, tetapi hanya sedikit keberhasilan. Mengutip McCulloch dan Searle (2001, hlm. 35. Persamaan (2.14)):

E[yij|ai]=aiyij|aiindep. N(ai,σ2)aii.i.d. N(a,σa2)

Saya mengerti ini berarti itu

4. data masing-masing individu harus didistribusikan secara normal, tetapi ini tidak masuk akal untuk diuji dengan beberapa titik waktu.

Saya mengambil ungkapan ketiga yang berarti itu

5. rata-rata dari masing-masing mata pelajaran terdistribusi secara normal. Perhatikan bahwa ini adalah dua kemungkinan berbeda di atas tiga yang disebutkan di atas.


McCulloch, CE & Searle, SR (2001). Model umum, linier, dan campuran . New York: John Wiley & Sons, Inc.

Fato39
sumber
hanya untuk memberi Anda petunjuk. Anda dapat menyatakan model rANOVA dalam hal Linear Mixed Model (LMM). Setelah Anda memiliki LMM, Anda akan segera melihat asumsi normalitas tersirat. Lihat di sini ( eu.wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html ) untuk beberapa teori LMM
utobi
Terima kasih, @utobi, untuk referensi yang Anda berikan! Memang, saya mempelajari beberapa bab pertama, tetapi belum berhasil menemukan jawaban untuk pertanyaan saya. Saya memperbaruinya untuk mencerminkan kemajuan terbatas yang saya buat.
Fato39
3
Ini sepertinya pertanyaan yang sangat bagus untuk saya. Saya memberikan suara untuk tetap terbuka.
gung - Reinstate Monica
Benar, data setiap individu harus didistribusikan secara normal. Tetapi jika Anda melihat apa yang telah Anda tulis, semua data individu begitu mereka direndahkan ( dikurangi) akan memiliki rata-rata nol dan varians yang sama ( σ 2 a ). Jadi, Anda dapat mengasumsikan semua data yang direndahkan muncul dari satu distribusi normal. Anda dapat melihat residu untuk melihat seberapa baik asumsi ini dipenuhi. aiσa2
Heteroskedastic Jim

Jawaban:

2

Ini adalah model ANOVA tindakan terulang yang paling sederhana jika kami memperlakukannya sebagai model univariat:

yit=ai+bt+ϵit

ityitai represents the mean of each case, bt represents the mean of each time point and ϵit represents the deviations of the individual measurements from the case and time point means. You can include additional between-factors as predictors in this setup.

We do not need to make distributional assumptions about ai, as they can go into the model as fixed effects, dummy variables (contrary to what we do with linear mixed models). Same happens for the time dummies. For this model, you simply regress the outcome in long form against the person dummies and the time dummies. The effect of interest is the time dummies, the F-test that tests the null hypothesis that b1=...=bt=0 is the major test in the univariate repeated measures ANOVA.

What are the required assumptions for the F-test to behave appropriately? The one relevant to your question is:

ϵitN(0,σ)these errors are normally distributed and homoskedastic

There are additional (more consequential) assumptions for the F-test to be valid, as one can see that the data are not independent of each other since the individuals repeat across rows.

If you want to treat the repeated measures ANOVA as a multivariate model, the normality assumptions may be different, and I cannot expand on them beyond what you and I have seen on Wikipedia.

Heteroskedastic Jim
sumber
0

The explanation of normality of repeated-measure ANOVA can be found here:

Understanding repeated measure ANOVA assumptions for correct interpretation of SPSS output

You need normality of the dependent variables in residuals (this implies a normal distribution in all groups, with common variance and group-dependent average), as in regression.
As you noticed, multivariate normality implies that all linear combinations of the dependent variables are normally distributed, so it is a stronger concept than normality of single variables (31). However, I'm not convinced this implies normality of residuals (32), given residuals are determined by independent variables (groups, in ANOVA) as well. I agree with you for point 5: you are basically talking about an individual-level random effect having a normal distribution.

Federico Tedeschi
sumber
2
Federico, thank you for your answer. I had been aware of this explanation (see my point number 2 and the first CV link referenced there). While I appreciate the quality of answers on CV, I have come to different (conflicting?) answers to my question when consulting different sources. I would therefore prefer a source which would explicitly or conclusively address the nuances I mentioned in my five points above.
Fato39