ANOVA vs regresi linier berganda?
Saya mengerti bahwa kedua metode ini tampaknya menggunakan model statistik yang sama. Namun dalam keadaan apa saya harus menggunakan metode apa?
Apa kelebihan dan kekurangan metode ini jika dibandingkan?
Mengapa ANOVA begitu umum digunakan dalam studi eksperimental dan saya hampir tidak pernah menemukan studi regresi?
anova
multiple-regression
least-squares
florian
sumber
sumber
Jawaban:
Akan menarik untuk menghargai bahwa divergensi ada pada jenis variabel , dan lebih khusus pada jenis variabel penjelas . Dalam ANOVA yang khas kami memiliki variabel kategori dengan kelompok yang berbeda , dan kami berusaha untuk menentukan apakah pengukuran variabel kontinu berbeda antara kelompok. Di sisi lain, OLS cenderung dianggap terutama sebagai upaya menilai hubungan antara regresi berkelanjutan atau variabel respon dan satu atau beberapa regresi atau variabel penjelas . Dalam hal ini regresi dapat dilihat sebagai teknik yang berbeda, meminjamkan dirinya untuk memprediksi nilai berdasarkan garis regresi.
Namun , perbedaan ini tidak tahan perpanjangan ANOVA ke sisa analisis sup alfabet varians (ANCOVA, MANOVA, MANCOVA); atau dimasukkannya variabel kode-dummy dalam regresi OLS. Saya tidak jelas tentang tengara sejarah tertentu, tetapi seolah-olah kedua teknik telah tumbuh adaptasi paralel untuk menangani model yang semakin kompleks.
Sebagai contoh, kita dapat melihat bahwa perbedaan antara ANCOVA versus OLS dengan variabel dummy (atau kategori) (dalam kedua kasus dengan interaksi) paling banyak bersifat kosmetik. Maafkan keberangkatan saya dari batas-batas dalam judul pertanyaan Anda, mengenai regresi linier berganda.
Dalam kedua kasus tersebut, model pada dasarnya identik dengan titik di R yang
lm
fungsinya digunakan untuk melakukan ANCOVA . Namun, itu dapat disajikan sebagai berbeda sehubungan dengan dimasukkannya intersep yang sesuai dengan tingkat pertama (atau kelompok) dari faktor (atau kategori) variabel dalam model regresi.Dalam model yang seimbang ( kelompok berukuran sama , ) dan hanya satu kovariat (untuk menyederhanakan presentasi matriks), matriks model dalam ANCOVA dapat ditemui sebagai beberapa variasi dari:saya n1 , 2 , ⋯saya
untuk kelompok variabel faktor, dinyatakan sebagai matriks blok.3
Ini sesuai dengan model linier:
Penyajian model yang sama di bidang regresi, dan khususnya dalam R, mempertimbangkan intersep keseluruhan, sesuai dengan salah satu kelompok, dan matriks model dapat disajikan sebagai:
dari persamaan OLS:
Dalam model ini, intersep keseluruhan dimodifikasi pada setiap level grup oleh , dan grup-grup tersebut juga memiliki kemiringan berbeda.μ iβ0 μsaya
Seperti yang dapat Anda lihat dari matriks model, presentasi memungkiri identitas sebenarnya antara regresi dan analisis varians.
Aku seperti untuk jenis memverifikasi ini dengan beberapa baris kode dan data yang favorit saya set
mtcars
di R . Saya menggunakanlm
untuk ANCOVA menurut kertas Ben Bolker tersedia di sini .Sebagai bagian dari pertanyaan tentang metode apa yang digunakan (regresi dengan R!) Anda mungkin menemukan komentar online lucu yang saya temui ketika menulis posting ini.
sumber
Regresi ANOVA dan OLS secara matematis identik dalam kasus-kasus di mana prediktor Anda termasuk kategori (dalam hal kesimpulan yang Anda gambar dari statistik uji). Dengan kata lain, ANOVA adalah kasus regresi khusus. Tidak ada yang dapat dikatakan ANOVA kepada Anda bahwa regresi tidak dapat diturunkan dengan sendirinya. Namun sebaliknya, itu tidak benar. ANOVA tidak dapat digunakan untuk analisis dengan variabel kontinu. Dengan demikian, ANOVA dapat diklasifikasikan sebagai teknik yang lebih terbatas. Regresi, bagaimanapun, tidak selalu berguna bagi analis yang kurang canggih. Sebagai contoh, sebagian besar skrip ANOVA secara otomatis menghasilkan istilah interaksi, sedangkan dengan regresi Anda harus secara manual menghitung sendiri istilah-istilah itu menggunakan perangkat lunak. Meluasnya penggunaan ANOVA sebagian merupakan peninggalan analisis statistik sebelum penggunaan perangkat lunak statistik yang lebih kuat, dan, menurut pendapat saya, teknik yang lebih mudah untuk diajarkan kepada siswa yang tidak berpengalaman yang tujuannya adalah pemahaman tingkat permukaan yang relatif yang akan memungkinkan mereka untuk menganalisis data dengan paket statistik dasar. Cobalah suatu saat ... Periksa t statistik yang regresi dasar meludahkan, kuadratkan, dan kemudian bandingkan dengan rasio F dari ANOVA pada data yang sama. Identik!
sumber
Manfaat utama dari regresi ANOVA r, menurut pendapat saya, adalah dalam output. Jika Anda tertarik pada signifikansi statistik dari variabel kategori (faktor) sebagai blok, maka ANOVA menyediakan tes ini untuk Anda. Dengan regresi, variabel kategori diwakili oleh 2 atau lebih variabel dummy, tergantung pada jumlah kategori, dan karenanya Anda memiliki 2 atau lebih tes statistik, masing-masing membandingkan rata-rata untuk kategori tertentu terhadap rata-rata kategori nol (atau rata-rata keseluruhan, tergantung pada metode pengkodean dummy). Tak satu pun dari ini mungkin menarik. Dengan demikian, Anda harus melakukan analisis pasca estimasi (pada dasarnya, ANOVA) untuk mendapatkan tes keseluruhan dari faktor yang Anda minati.
sumber
Keuntungan utama regresi linier adalah kuat terhadap pelanggaran homogenitas varians ketika ukuran sampel antar kelompok tidak sama. Yang lain adalah ia memfasilitasi dimasukkannya beberapa kovariat (meskipun ini juga dapat dengan mudah dicapai melalui ANCOVA ketika Anda tertarik untuk memasukkan hanya satu kovariat). Regresi meluas selama tahun tujuh puluhan dalam munculnya kemajuan daya komputasi. Anda juga dapat menemukan regresi lebih nyaman jika Anda tertarik untuk menguji perbedaan antara level tertentu dari variabel kategori ketika ada lebih dari dua level yang hadir (selama Anda mengatur variabel dummy dalam regresi sehingga salah satu dari dua level ini mewakili grup referensi).
sumber