ANOVA vs regresi linier berganda? Mengapa ANOVA begitu umum digunakan dalam studi eksperimental?

24

ANOVA vs regresi linier berganda?

Saya mengerti bahwa kedua metode ini tampaknya menggunakan model statistik yang sama. Namun dalam keadaan apa saya harus menggunakan metode apa?

Apa kelebihan dan kekurangan metode ini jika dibandingkan?

Mengapa ANOVA begitu umum digunakan dalam studi eksperimental dan saya hampir tidak pernah menemukan studi regresi?

florian
sumber
5
Karena keduanya menggunakan model yang sama, tidak masalah yang Anda gunakan.
Peter Flom - Reinstate Monica
3
Saya menyebutnya regresi ketika saya membandingkan lereng, yaitu variabel prediktor kontinu, dan ANOVA ketika saya membandingkan rata-rata, yaitu variabel prediktor kategoris. Alasan Anda menemukan ANOVA lebih dalam studi eksperimental adalah karena mereka sebagian besar membandingkan cara, atau tingkat perawatan, misalnya membandingkan berbagai pupuk pada pertumbuhan tanaman. Tetapi seperti yang dikatakan @PeterFlom, keduanya menggunakan model yang sama dan tidak masalah yang mana yang Anda gunakan - satu-satunya hal yang terlihat berbeda adalah output yang mereka berikan kepada Anda - dan tergantung pada pertanyaan Anda, Anda menginginkan output "regresi" atau Output "ANOVA".
Stefan
2
Hmm tetapi Anda juga bisa memasukkan prediktor kategori dalam regresi melalui pengkodean dummy?
florian
Ya tentu saja!
Stefan
4
Pertanyaan Anda sangat valid, dan telah ditanggapi beberapa kali dari berbagai perspektif di CV. Sifat duplikat dari tes-tes ini membingungkan. Sangat mudah untuk mengatakan ANOVA = regresi linier, dan saya pikir semua komentar yang dibuat sejauh ini bermanfaat dan tepat sasaran, tetapi kenyataannya sedikit lebih bernuansa dan sulit dipahami, terutama jika Anda memasukkan ANCOVA di bawah payung analisis dari perbedaan. Periksa entri lain, seperti ini . Saya memberi +1 pertanyaan Anda, meskipun sebenarnya merupakan duplikat. Bisakah Anda memberi mantan?
Antoni Parellada

Jawaban:

22

Akan menarik untuk menghargai bahwa divergensi ada pada jenis variabel , dan lebih khusus pada jenis variabel penjelas . Dalam ANOVA yang khas kami memiliki variabel kategori dengan kelompok yang berbeda , dan kami berusaha untuk menentukan apakah pengukuran variabel kontinu berbeda antara kelompok. Di sisi lain, OLS cenderung dianggap terutama sebagai upaya menilai hubungan antara regresi berkelanjutan atau variabel respon dan satu atau beberapa regresi atau variabel penjelas . Dalam hal ini regresi dapat dilihat sebagai teknik yang berbeda, meminjamkan dirinya untuk memprediksi nilai berdasarkan garis regresi.

Namun , perbedaan ini tidak tahan perpanjangan ANOVA ke sisa analisis sup alfabet varians (ANCOVA, MANOVA, MANCOVA); atau dimasukkannya variabel kode-dummy dalam regresi OLS. Saya tidak jelas tentang tengara sejarah tertentu, tetapi seolah-olah kedua teknik telah tumbuh adaptasi paralel untuk menangani model yang semakin kompleks.

Sebagai contoh, kita dapat melihat bahwa perbedaan antara ANCOVA versus OLS dengan variabel dummy (atau kategori) (dalam kedua kasus dengan interaksi) paling banyak bersifat kosmetik. Maafkan keberangkatan saya dari batas-batas dalam judul pertanyaan Anda, mengenai regresi linier berganda.

Dalam kedua kasus tersebut, model pada dasarnya identik dengan titik di R yang lmfungsinya digunakan untuk melakukan ANCOVA . Namun, itu dapat disajikan sebagai berbeda sehubungan dengan dimasukkannya intersep yang sesuai dengan tingkat pertama (atau kelompok) dari faktor (atau kategori) variabel dalam model regresi.

Dalam model yang seimbang ( kelompok berukuran sama , ) dan hanya satu kovariat (untuk menyederhanakan presentasi matriks), matriks model dalam ANCOVA dapat ditemui sebagai beberapa variasi dari:in1,2,i

X=[1n100xn10001n200xn20001n300xn3]

untuk kelompok variabel faktor, dinyatakan sebagai matriks blok.3

Ini sesuai dengan model linier:

y=αi+β1xn1+β2xn2+β3xn3+ϵi
dengan setara dengan berbagai sarana kelompok dalam ANOVA model, sedangkan berbeda adalah kemiringan kovariat untuk masing-masing kelompok.αiβ

Penyajian model yang sama di bidang regresi, dan khususnya dalam R, mempertimbangkan intersep keseluruhan, sesuai dengan salah satu kelompok, dan matriks model dapat disajikan sebagai:

X=[00000J3n,11n20x0xn2001n300xn3]

dari persamaan OLS:

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi
.

Dalam model ini, intersep keseluruhan dimodifikasi pada setiap level grup oleh , dan grup-grup tersebut juga memiliki kemiringan berbeda.μ iβ0μi

Seperti yang dapat Anda lihat dari matriks model, presentasi memungkiri identitas sebenarnya antara regresi dan analisis varians.

Aku seperti untuk jenis memverifikasi ini dengan beberapa baris kode dan data yang favorit saya set mtcarsdi R . Saya menggunakan lmuntuk ANCOVA menurut kertas Ben Bolker tersedia di sini .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Sebagai bagian dari pertanyaan tentang metode apa yang digunakan (regresi dengan R!) Anda mungkin menemukan komentar online lucu yang saya temui ketika menulis posting ini.

Antoni Parellada
sumber
1
Terima kasih atas komentar yang sangat membantu ini ... Mengutip dari komentar yang Anda tautkan: "Gunakan regresi ketika Anda tidak yakin apakah variabel kategori independen memiliki pengaruh sama sekali. Gunakan ANOVA ketika Anda ingin melihat apakah kategori tertentu memiliki efek yang berbeda . " Jadi, mengapa banyak penelitian eksperimental menggunakan ANOVA? Dari pemahaman saya, regresi akan menjadi pilihan yang tepat. Apakah para peneliti terlalu yakin bahwa efeknya ada dan hanya mencari cara untuk "membuktikan" secara statistik?
florian
Bisakah Anda memberikan contoh praktis di mana orang harus menggunakan aov atas regresi dan menjelaskan mengapa? Terima kasih atas waktu Anda. Saya juga seorang psikolog dengan pelatihan dan gagal melihat kelebihan Anova kecuali yang mungkin diterbitkan lebih mudah.
florian
Keberuntungan? Saya akan sangat tertarik pada heuristik yang lebih konkret untuk mendukung kedua jenis prosedur, jadi silakan bagikan jika Anda menemukan jawaban.
Antoni Parellada
Sayangnya tidak ada penemuan baru dalam perjalanan saya ke Statistik sejauh ini ... yang akan membuat Anda diposting, lebih banyak masukan dihargai.
florian
Saya mengalami kesulitan memahami matriks model OLS dan persamaan yang sesuai di sini. Saya tidak mengerti dari mana kolom nol berasal (kolom ke-5 dari matriks). Juga, saya berpikir bahwa persamaan harus sesuai dengan kolom (yaitu mu_i harus hanya untuk dua kelompok dan variabel x harus dimasukkan tanpa interaksi dengan dummy grup). Klarifikasi tambahan sangat kami hargai!
Nick
4

Regresi ANOVA dan OLS secara matematis identik dalam kasus-kasus di mana prediktor Anda termasuk kategori (dalam hal kesimpulan yang Anda gambar dari statistik uji). Dengan kata lain, ANOVA adalah kasus regresi khusus. Tidak ada yang dapat dikatakan ANOVA kepada Anda bahwa regresi tidak dapat diturunkan dengan sendirinya. Namun sebaliknya, itu tidak benar. ANOVA tidak dapat digunakan untuk analisis dengan variabel kontinu. Dengan demikian, ANOVA dapat diklasifikasikan sebagai teknik yang lebih terbatas. Regresi, bagaimanapun, tidak selalu berguna bagi analis yang kurang canggih. Sebagai contoh, sebagian besar skrip ANOVA secara otomatis menghasilkan istilah interaksi, sedangkan dengan regresi Anda harus secara manual menghitung sendiri istilah-istilah itu menggunakan perangkat lunak. Meluasnya penggunaan ANOVA sebagian merupakan peninggalan analisis statistik sebelum penggunaan perangkat lunak statistik yang lebih kuat, dan, menurut pendapat saya, teknik yang lebih mudah untuk diajarkan kepada siswa yang tidak berpengalaman yang tujuannya adalah pemahaman tingkat permukaan yang relatif yang akan memungkinkan mereka untuk menganalisis data dengan paket statistik dasar. Cobalah suatu saat ... Periksa t statistik yang regresi dasar meludahkan, kuadratkan, dan kemudian bandingkan dengan rasio F dari ANOVA pada data yang sama. Identik!

Michael Melville
sumber
Ini tidak benar.
Michael R. Chernick
4
@MichaelChernick Bisakah Anda menguraikan mana dari banyak pernyataan yang dibuat dalam jawaban ini yang menurut Anda tidak benar? Meskipun butuh beberapa posisi ekstrem, sulit untuk menemukan yang salah.
whuber
Saya keberatan dengan pernyataan bahwa regresi ANOVA dan OLS secara matematis identik. Saya menyadari bahwa ANOVA dapat dipandang sebagai regresi pada suatu bentuk model linear umum yang dapat dirumuskan seperti regresi.
Michael R. Chernick
Dalam kasus OLS, bagaimana mereka tidak identik selain output? Model yang mendasarinya sama, residualnya sama, nilai-p yang mereka hasilkan sama. Ini adalah output yang berbeda.
dbwilson
2

Manfaat utama dari regresi ANOVA r, menurut pendapat saya, adalah dalam output. Jika Anda tertarik pada signifikansi statistik dari variabel kategori (faktor) sebagai blok, maka ANOVA menyediakan tes ini untuk Anda. Dengan regresi, variabel kategori diwakili oleh 2 atau lebih variabel dummy, tergantung pada jumlah kategori, dan karenanya Anda memiliki 2 atau lebih tes statistik, masing-masing membandingkan rata-rata untuk kategori tertentu terhadap rata-rata kategori nol (atau rata-rata keseluruhan, tergantung pada metode pengkodean dummy). Tak satu pun dari ini mungkin menarik. Dengan demikian, Anda harus melakukan analisis pasca estimasi (pada dasarnya, ANOVA) untuk mendapatkan tes keseluruhan dari faktor yang Anda minati.

dbwilson
sumber
Sebenarnya, hal ini tidak benar. Jika Anda melakukan tes rasio kemungkinan, Anda menguji seluruh faktor kategori sebagai blok dalam model regresi.
Dan Chaltiel
Komentar Anda tidak bertentangan dengan apa yang saya katakan. Tes rasio kemungkinan yang Anda sebutkan akan menjadi analisis pasca-estimasi pada faktor, membandingkan model dengan faktor ke model tanpa.
dbwilson
Jika Anda melakukan ANOVA, Anda akan mendapatkan nilai pv untuk "variabel kategori (faktor) sebagai blok", demikian juga regresi dengan LRT. Regresi mungkin memberi Anda beberapa beta tetapi tidak akan melakukan lebih banyak tes daripada ANOVA, sehingga pernyataan Anda "maka Anda memiliki 2 atau lebih uji statistik" tampaknya salah bagi saya. Mengapa LRT lebih "paska estimasi" daripada ANOVA?
Dan Chaltiel
1

Keuntungan utama regresi linier adalah kuat terhadap pelanggaran homogenitas varians ketika ukuran sampel antar kelompok tidak sama. Yang lain adalah ia memfasilitasi dimasukkannya beberapa kovariat (meskipun ini juga dapat dengan mudah dicapai melalui ANCOVA ketika Anda tertarik untuk memasukkan hanya satu kovariat). Regresi meluas selama tahun tujuh puluhan dalam munculnya kemajuan daya komputasi. Anda juga dapat menemukan regresi lebih nyaman jika Anda tertarik untuk menguji perbedaan antara level tertentu dari variabel kategori ketika ada lebih dari dua level yang hadir (selama Anda mengatur variabel dummy dalam regresi sehingga salah satu dari dua level ini mewakili grup referensi).

David B
sumber
1
Seperti yang ditunjukkan dalam jawaban lain, ANOVA adalah regresi berganda.
gung - Reinstate Monica
Terima kasih, jadi apa kelebihan Anova? Mengapa Anda menggunakan Anova / Ancova di atas model regresi?
florian
Saya punya pertanyaan di sini. Mengapa Anda menyatakan 'hanya satu kovariat' ketika menjelaskan kegunaan ANCOVA? Apakah karena Anda hanya dapat memasukkan satu kovariat di ANCOVA?
Kevin Kang