Mengapa tabel anova regresi ini identik?

11

Saya memiliki dua regresi dari Y yang sama dan tiga tingkat X. Secara keseluruhan n = 15, dengan n = 5 di setiap kelompok atau tingkat X. Regresi pertama memperlakukan X sebagai kategori, menetapkan variabel indikator ke level 2 dan 3 dengan level satu menjadi rujukan. Indikator / boneka seperti: X1 = 1 jika level = 2, 0 jika lagi X2 = 1 jika level = 3, 0 jika lagi

Hasilnya, model yang saya pasang terlihat seperti ini: y = b0 + b1 (x1) + b2 (x2)

Saya menjalankan regresi, dan hasilnya termasuk tabel Analisis Varians ini:

meja

Sisa dari output tidak relevan di sini.

Oke jadi sekarang saya menjalankan regresi yang berbeda pada data yang sama. Saya membuang analisis kategorikal dan memperlakukan X sebagai kontinu, tapi saya menambahkan variabel ke persamaan: X ^ 2, kuadrat X. Jadi sekarang saya memiliki model berikut: y = b0 + b1 (X) + b2 (X) ^ 2

Jika saya menjalankannya, itu memuntahkan tabel Analisis Varians yang sama persis seperti yang saya tunjukkan di atas. Mengapa kedua regresi ini memunculkan tabel yang sama?

[Penghargaan untuk teka-teki kecil ini diberikan kepada Thomas Belin di Departemen Biostatistik di University of California Los Angeles.]

logjammin
sumber
Saya pikir Anda harus menunjukkan kepada kami kode yang "melakukan regresi" dan mungkin langkah data (sepertinya SAS output untuk saya) yang Anda gunakan untuk membuat tabel data di mana Anda beroperasi.
Brad S.
1
@Brad Saya tidak berpikir itu perlu: situasinya dijelaskan dengan jelas dan tidak ada lagi informasi yang diperlukan untuk menjelaskan apa yang terjadi.
Whuber
@whuber Mungkin. Saya kira, jika Anda mengatakannya tetapi rasanya seperti kesalahan pemrograman bagi saya. Saya menunggu jawabanmu.
Brad S.
1
@Brad Bukan kesalahan pemrograman: Saya memposting penjelasan saya. Ini pertanyaan yang bagus, dengan minat statistik asli (dan penerapan).
whuber
Hei Brad, Ini sebenarnya dari satu set masalah - situasinya diberikan kepada saya dengan cara yang sama saya berikan kepada kalian, dan pertanyaannya agak diajukan dengan cara yang sama: "mengapa mereka akan sama?". Begitulah cara saya lay out: dua model, tabel ANOVA yang sama, sisa output bahkan tidak diberikan (saya harus menjelaskan bahwa bukannya mengatakan "tidak relevan").
logjammin

Jawaban:

22

E[Y]=Xβ

(1,0,0)X(1,1,0)(1,0,1)

(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

X1X2

V=(111013028).

Lalu sejak itu

(100110101)V=(111124139),

mengikuti itu

X1V=X2.

Oleh karena itu model itu sendiri terkait oleh

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

β2

β1=Vβ2.

Karena itu, hubungan yang sama berlaku untuk estimasi kuadrat terkecil mereka. Ini menunjukkan bahwa model memiliki kesesuaian yang identik : mereka hanya mengekspresikannya secara berbeda.

Karena kolom pertama dari dua model matriks adalah sama, setiap tabel ANOVA yang menguraikan varians antara kolom pertama dan kolom lainnya tidak akan berubah. Tabel ANOVA yang membedakan antara kolom kedua dan ketiga, bagaimanapun, akan tergantung pada bagaimana data dikodekan.

R15X1X2


Sebagai ilustrasi, berikut adalah data seperti milik Anda (tetapi dengan respons berbeda) dan analisis yang sesuai seperti yang dihasilkan di R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Sesuai dengan dua model:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Tampilkan tabel ANOVA mereka:

anova(fit.1)
anova(fit.2)

Output untuk model pertama adalah

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Untuk model kedua itu

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Anda dapat melihat bahwa jumlah residu kuadrat adalah sama. Dengan menambahkan dua baris pertama dalam model kedua Anda akan mendapatkan DF dan jumlah kuadrat yang sama, dari mana kuadrat rata-rata yang sama, nilai F, dan nilai-p dapat dihitung.

Akhirnya, mari kita bandingkan estimasi koefisien.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

Outputnya adalah

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Cocok benar-benar sama seperti yang diklaim.

whuber
sumber
6
Astaga, kawan. Saya tidak pernah mendapatkan jawaban yang lebih seksama dan menyeluruh dari mengajukan pertanyaan di internet. Terima kasih x1000, serius.
logjammin
Selamat datang di situs kami! Saya harap Anda terus menggunakannya dan berharap untuk kontribusi Anda.
Whuber
1
Saya belajar sesuatu hari ini! (Terpilih)
Brad S.
Jawaban yang luar biasa. Pikiran meledak!
kedarps
5

Secara singkat, kedua model jenuh dalam arti bahwa mereka memberikan prediksi empiris yang unik dari respons pada ketiga level X. Mungkin jelas untuk variabel faktor pengkodean dalam model 1. Untuk tren kuadratik, menarik untuk dicatat bahwa rumus kuadrat dapat menginterpolasi 3 poin. Sementara perbedaannya berbeda, pada kedua model, uji global terhadap nol hanya model intersep memberikan inferensi yang identik.

AdamO
sumber