Perbedaan Regresi vs ANOVA (aov vs lm dalam R)

21

Saya selalu mendapat kesan bahwa regresi hanyalah bentuk yang lebih umum dari ANOVA dan hasilnya akan sama. Namun baru-baru ini, saya telah menjalankan regresi dan ANOVA pada data yang sama dan hasilnya berbeda secara signifikan. Artinya, dalam model regresi kedua efek utama dan interaksi adalah signifikan, sedangkan di ANOVA satu efek utama tidak signifikan. Saya berharap ini ada hubungannya dengan interaksi, tetapi tidak jelas bagi saya apa yang berbeda tentang dua cara pemodelan pertanyaan yang sama. Jika ini penting, satu prediktor adalah kategoris dan yang lainnya adalah kontinu, seperti ditunjukkan dalam simulasi di bawah ini.

Berikut adalah contoh tampilan data saya dan analisis apa yang saya jalankan, tetapi tanpa nilai p atau efek yang sama yang signifikan dalam hasil (hasil aktual saya diuraikan di atas):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
Rebecca
sumber
ringkasan (lm ()) memberi Anda koefisien untuk kontras yang telah Anda tentukan, yang merupakan kontras pengobatan dengan tidak adanya spesifikasi di sini. Sementara ringkasan (aov ()) memberi Anda tabel anova. Jika Anda menginginkan anova untuk model lm, Anda perlu anova (lm ())
Matt Albrecht
groupadalah vektor numerik, apakah ini sengaja? Biasanya, faktor pengelompokan harus memiliki kelas factor, sehingga transformasi ke kontras dapat ditangani secara otomatis oleh fungsi seperti lm(). Ini akan menjadi jelas setelah Anda memiliki lebih dari dua grup, atau menggunakan kode selain 0/1 untuk groupvariabel Anda .
caracal
Lihat juga stats.stackexchange.com/questions/268006/…
kjetil b halvorsen

Jawaban:

17

The summaryfungsi panggilan metode yang berbeda tergantung pada kelas objek. Perbedaannya bukan pada aovvs lm, tetapi pada informasi yang disajikan tentang model. Misalnya, jika Anda menggunakan anova(mod1)dan anova(mod2)sebaliknya, Anda harus mendapatkan hasil yang sama.

Seperti yang dikatakan @Glen, kuncinya adalah apakah tes yang dilaporkan didasarkan pada jumlah kuadrat Tipe 1 atau Tipe 3. Ini akan berbeda ketika korelasi antara variabel penjelas Anda tidak tepat 0. Ketika mereka berkorelasi, beberapa SS unik untuk satu prediktor dan beberapa lainnya, tetapi beberapa SS dapat dikaitkan dengan salah satu atau keduanya. ( Anda dapat memvisualisasikan ini dengan membayangkan simbol MasterCard--ada daerah kecil yang tumpang tindih di tengah.) Tidak ada jawaban unik dalam situasi ini, dan sayangnya, ini adalah norma untuk data non-eksperimental. Salah satu pendekatan adalah bagi analis untuk menggunakan penilaian mereka dan menetapkan SS yang tumpang tindih ke salah satu variabel. Variabel itu masuk ke dalam model terlebih dahulu. Variabel lain masuk ke model kedua dan mendapatkan SS yang terlihat seperti cookie dengan gigitan yang dikeluarkan. Efeknya dapat diuji dengan apa yang kadang-kadang disebutR2ubah atau perubahan F. Pendekatan ini menggunakan Tipe 1 SS. Atau, Anda bisa melakukan ini dua kali dengan masing-masing masuk terlebih dahulu, dan melaporkan uji perubahan F untuk kedua prediktor. Dengan cara ini, kedua variabel tidak mendapatkan SS karena tumpang tindih. Pendekatan ini menggunakan Tipe 3 SS. (Saya juga harus memberi tahu Anda bahwa pendekatan yang terakhir dianggap rendah.)

Mengikuti saran dari @BrettMagill dalam komentar di bawah ini, saya dapat mencoba membuatnya lebih jelas. (Perhatikan bahwa, dalam contoh saya, saya hanya menggunakan 2 prediktor dan tidak ada interaksi, tetapi gagasan ini dapat ditingkatkan untuk memasukkan apa pun yang Anda suka.)

Tipe 1: SS (A) dan SS (B | A)

Tipe 3: SS (A | B) dan SS (B | A)

gung - Reinstate Monica
sumber
1
Ini adalah deskripsi masalah yang bagus. Anda mungkin sedikit memperjelas teks dengan ini: Tipe I: SS_A = SS (A) SS_B = SS (B | A) dan SS_AB = SS (AB | B, A) Jenis III: SS_A = SS (A | B, AB ) dan SS_B = SS (B | A, AB) dan SS_AB = SS (AB | A, B)
Brett
1
Terima kasih banyak atas bantuannya. Saya mengerti sekarang apa yang terjadi dalam hal bagaimana model-model ini berbeda, tetapi saya masih tidak jelas kapan akan tepat untuk menggunakan model anova atau regresi. Penasihat saya menasehati anova, tetapi saya selalu diajarkan untuk menggunakan regresi dan saya tidak yakin mana yang lebih tepat untuk digunakan ketika hasilnya berbeda. Apakah Anda memiliki contoh atau sumber daya untuk memberi tahu kapan keduanya akan sesuai? Sekali lagi terima kasih atas bantuan Anda.
Rebecca
1
Maaf, saya tidak cukup mengikuti. Maksud saya adalah bahwa model sebenarnya tidak berbeda. ANOVA adalah regresi dengan semua prediktor kualitatif. Jika Anda memiliki model regresi dengan prediktor kontinu dan kualitatif, dan Anda memasukkan prediktor kontinu terlebih dahulu, maka prediktor kualitatif (tetapi tanpa istilah interaksi) itulah ANCOVA. Baik pendekatan baik-baik saja, karena 'di belakang layar' mereka identik. Saya biasanya mengkode ini sebagai regresi, tapi itu masalah gaya. OTOH, jika penasihat Anda ingin menjalankan gaya ANOVA, maka pergi rute itu, karena tidak ada perbedaan.
gung - Reinstate Monica
2
Beberapa hal: (3 ke atas) interaksi tidak berarti variabel independen Anda berkorelasi, ini hanya hal-hal yang berbeda; (2 ke atas) jika model 3 secara signifikan lebih baik daripada model 2, maka ya, ini menunjukkan interaksi yang signifikan (karena interaksi adalah satu-satunya hal yang berbeda di antara mereka); (1 ke atas) Anda ingin menghindari hanya memancing untuk efek yang signifikan kecuali jika Anda menganggap studi Anda sebagai pilot yang akan Anda gunakan untuk merencanakan studi konfirmasi berikutnya (dalam hal ini saya pikir Anda baik-baik saja); Saya mengumpulkan Anda menjalankan studi ini untuk melihat ketiganya, jadi pergi dengan model 3.
gung - Reinstate Monica
2
Selain itu, interaksi menyiratkan bahwa Anda tidak boleh menafsirkan efek utama, sehingga hanya menghadirkan model 1 yang dapat menyesatkan. Jika Anda ingin info lebih lanjut tentang jenis SS, saya menulis jawaban yang cukup komprehensif di sini: stats.stackexchange.com/questions/20452/... Juga, Anda harus menerima salah satu jawaban, di beberapa titik, dengan mengklik tanda centang di sebelah salah satu diantara mereka.
gung - Reinstate Monica
10

Hasil dari output aov memberi Anda probabilitas berdasarkan jumlah kuadrat Tipe 1. Inilah sebabnya mengapa hasil interaksi adalah sama dan efek utamanya berbeda.

Jika Anda menggunakan probabilitas berdasarkan jumlah kuadrat Tipe 3 maka mereka akan cocok dengan hasil regresi linier.

library(car)
Anova(aov(score~group*moderator),type=3)
Lembah kecil
sumber
5
Model linier dan ANOVA akan setara ketika model menguji hipotesis yang sama dan ketika parameterisasi faktor-faktor tersebut setara. Jumlah yang disebut "Tipe I" dan "Tipe III" adalah kuadrat hanyalah tes hipotesis yang mendasari yang berbeda (efek dari jumlah sekuensial kuadrat versus jumlah kuadrat kuadrat). ANOVA cenderung menyembunyikan beberapa keputusan ini sebagaimana diterapkan dalam banyak paket - sebuah fakta yang membuat saya percaya bahwa sebenarnya membuat dan menguji hipotesis yang menarik melalui parameterisasi faktor dan perbandingan model dalam GLM adalah pendekatan yang unggul.
Brett
+1, saya pikir Anda salah ketik. lm menggunakan Tipe 1 SS dan aov menggunakan Tipe 3 SS.
gung - Reinstate Monica
2
Tipe III (Marginal) Jumlah Jumlah Kuadrat digunakan secara default di lm. AOV akan menggunakan Tipe I (Berurutan) secara default. Hasil LM tidak sesuai untuk pesanan sedangkan hasil tergantung pada urutan faktor.
Brett
Saya pikir baik lm dan aov menggunakan tipe I secara default, maka penggunaan modal A Anova () untuk tipe II dan III.
Matt Albrecht
6
Secara umum, tidakAnova(..., type=3) akan memberi Anda tipe III SS yang benar, kecuali jika Anda juga beralih dari kontras pengobatan (default dalam R) ke efek pengkodean untuk faktor-faktor yang tidak berurutan ( ) atau beberapa kode kontras jumlah-ke-nol lainnya (misalnya, Helmert). Ini akan menjadi jelas setelah Anda memiliki ukuran sel yang tidak seimbang dan lebih dari dua kelompok dan juga disebutkan di halaman bantuan . options(contrasts=c("contr.sum", "contr.poly"))Anova()
caracal
-2

Perbedaan utama antara regresi linier dan ANOVA adalah, dalam ANOVA variabel prediktor diskrit (yaitu mereka memiliki level yang berbeda). Sedangkan dalam regresi linier, variabel prediktor adalah kontinu.

vivek
sumber
3
Ini umumnya tidak benar.
Michael R. Chernick
Saya membacanya di suatu tempat di internet. Bisakah Anda jelaskan perbedaan utamanya? Saya seorang pemula.
vivek