Perbedaan nilai p yang dilaporkan antara lm dan aov dalam R
12
Apa yang menjelaskan perbedaan dalam nilai-p dalam hal berikut aovdan lmpanggilan? Apakah perbedaannya hanya karena berbagai jenis perhitungan jumlah kotak?
summary(aov)menggunakan jumlah yang disebut Tipe I (berurutan) dari kuadrat. summary(lm)menggunakan jumlah kuadrat Tipe III yang disebut, yang tidak berurutan. Lihat jawaban gung untuk detailnya.
Perhatikan bahwa Anda perlu menelepon lm(data ~ factor(f1) * factor(2))( aov()secara otomatis mengubah RHS rumus menjadi faktor). Kemudian perhatikan denominator untuk umum t -statistic dalam regresi linear (lihat ini jawaban untuk penjelasan lebih lanjut):
t=ψ^−ψ0σ^c′(X′X)−1c−−−−−−−−−−√
c′(X′X)−1c berbeda untuk setiap koefisien diuji karena vektor berubah. Sebaliknya, penyebut dalam ANOVA -test selalu MSE.βcF
Saya pikir kalimat pertama dari jawaban ini salah. Perbedaannya tampaknya justru karena berbagai jenis jumlah kuadrat: yaitu, tipe I vs tipe II / III. Tipe I adalah berurutan, yang merupakan apa yang lmdilaporkan, sedangkan Tipe II / III tidak. Ini dijelaskan dengan cukup rinci dalam jawaban @ gung yang Anda tautkan.
Amuba mengatakan Reinstate Monica
@amoeba Apa yang Anda sarankan untuk mengoreksi jawabannya?
caracal
Saya mengedit paragraf pertama, melihat apakah Anda setuju dengan hasil edit, dan merasa bebas untuk mengubahnya sesuka Anda.
Amuba mengatakan Reinstate Monica
2
set.seed(10)
data=rnorm(12)
f1=rep(c(1,2),6)
f2=c(rep(1,6),rep(2,6))
summary(aov(data~f1*f2))DfSumSqMeanSq F valuePr(>F)
f1 10.5350.53470.5970.462
f2 10.0020.00180.0020.966
f1:f2 10.1210.12080.1350.723Residuals87.1690.8962
summary(lm(data~f1*f2))$coeffEstimateStd.Error t valuePr(>|t|)(Intercept)0.052220242.7327560.01910900.9852221
f1 -0.179923291.728346-0.10410140.9196514
f2 -0.626371091.728346-0.36241060.7264325
f1:f2 0.401394391.0931020.36720660.7229887
Ini adalah dua kode yang berbeda. dari model Lm Anda membutuhkan koefisien. sedangkan dari model aov Anda hanya tabulasi sumber variasi. Coba kodenya
anova(lm(data~f1*f2))AnalysisofVarianceTableResponse: dataDfSumSqMeanSq F valuePr(>F)
f1 10.53470.534680.59660.4621
f2 10.00180.001770.00200.9657
f1:f2 10.12080.120840.13480.7230Residuals87.16920.89615
Ini memberikan tabulasi sumber-sumber variasi yang mengarah pada hasil yang sama.
Ini tampaknya tidak menjawab pertanyaan, yang menanyakan mengapa nilai-p untuk f1dan f2berbeda dalam dua ringkasan panel atas Anda. Sepertinya Anda hanya menunjukkan itu summary(aov(...))dan anova(lm(...))dalam Rmemiliki output yang sama.
lm
dilaporkan, sedangkan Tipe II / III tidak. Ini dijelaskan dengan cukup rinci dalam jawaban @ gung yang Anda tautkan.Ini adalah dua kode yang berbeda. dari model Lm Anda membutuhkan koefisien. sedangkan dari model aov Anda hanya tabulasi sumber variasi. Coba kodenya
Ini memberikan tabulasi sumber-sumber variasi yang mengarah pada hasil yang sama.
sumber
f1
danf2
berbeda dalam dua ringkasan panel atas Anda. Sepertinya Anda hanya menunjukkan itusummary(aov(...))
dananova(lm(...))
dalamR
memiliki output yang sama.