Saya memiliki dua regresi dari Y yang sama dan tiga tingkat X. Secara keseluruhan n = 15, dengan n = 5 di setiap kelompok atau tingkat X. Regresi pertama memperlakukan X sebagai kategori, menetapkan variabel indikator ke level 2 dan 3 dengan level satu menjadi rujukan. Indikator / boneka seperti: X1 = 1 jika level = 2, 0 jika lagi X2 = 1 jika level = 3, 0 jika lagi
Hasilnya, model yang saya pasang terlihat seperti ini: y = b0 + b1 (x1) + b2 (x2)
Saya menjalankan regresi, dan hasilnya termasuk tabel Analisis Varians ini:
Sisa dari output tidak relevan di sini.
Oke jadi sekarang saya menjalankan regresi yang berbeda pada data yang sama. Saya membuang analisis kategorikal dan memperlakukan X sebagai kontinu, tapi saya menambahkan variabel ke persamaan: X ^ 2, kuadrat X. Jadi sekarang saya memiliki model berikut: y = b0 + b1 (X) + b2 (X) ^ 2
Jika saya menjalankannya, itu memuntahkan tabel Analisis Varians yang sama persis seperti yang saya tunjukkan di atas. Mengapa kedua regresi ini memunculkan tabel yang sama?
[Penghargaan untuk teka-teki kecil ini diberikan kepada Thomas Belin di Departemen Biostatistik di University of California Los Angeles.]
sumber
Jawaban:
Lalu sejak itu
mengikuti itu
Oleh karena itu model itu sendiri terkait oleh
Karena itu, hubungan yang sama berlaku untuk estimasi kuadrat terkecil mereka. Ini menunjukkan bahwa model memiliki kesesuaian yang identik : mereka hanya mengekspresikannya secara berbeda.
Karena kolom pertama dari dua model matriks adalah sama, setiap tabel ANOVA yang menguraikan varians antara kolom pertama dan kolom lainnya tidak akan berubah. Tabel ANOVA yang membedakan antara kolom kedua dan ketiga, bagaimanapun, akan tergantung pada bagaimana data dikodekan.
Sebagai ilustrasi, berikut adalah data seperti milik Anda (tetapi dengan respons berbeda) dan analisis yang sesuai seperti yang dihasilkan di
R
.Sesuai dengan dua model:
Tampilkan tabel ANOVA mereka:
Output untuk model pertama adalah
Untuk model kedua itu
Anda dapat melihat bahwa jumlah residu kuadrat adalah sama. Dengan menambahkan dua baris pertama dalam model kedua Anda akan mendapatkan DF dan jumlah kuadrat yang sama, dari mana kuadrat rata-rata yang sama, nilai F, dan nilai-p dapat dihitung.
Akhirnya, mari kita bandingkan estimasi koefisien.
Outputnya adalah
Cocok benar-benar sama seperti yang diklaim.
sumber
Secara singkat, kedua model jenuh dalam arti bahwa mereka memberikan prediksi empiris yang unik dari respons pada ketiga level X. Mungkin jelas untuk variabel faktor pengkodean dalam model 1. Untuk tren kuadratik, menarik untuk dicatat bahwa rumus kuadrat dapat menginterpolasi 3 poin. Sementara perbedaannya berbeda, pada kedua model, uji global terhadap nol hanya model intersep memberikan inferensi yang identik.
sumber