Mengapa ANOVA diajarkan / digunakan seolah-olah itu adalah metodologi penelitian yang berbeda dibandingkan dengan regresi linier?

91

ANOVA setara dengan regresi linier dengan penggunaan variabel dummy yang sesuai. Kesimpulannya tetap sama terlepas dari apakah Anda menggunakan ANOVA atau regresi linier.

Mengingat kesetaraan mereka, apakah ada alasan mengapa ANOVA digunakan daripada regresi linier?

Catatan: Saya sangat tertarik mendengar alasan teknis untuk penggunaan ANOVA alih-alih regresi linier.

Sunting

Berikut adalah salah satu contoh menggunakan ANOVA satu arah. Misalkan, Anda ingin tahu apakah tinggi rata-rata pria dan wanita adalah sama. Untuk menguji hipotesis Anda, Anda akan mengumpulkan data dari sampel acak pria dan wanita (katakan masing-masing 30) dan melakukan analisis ANOVA (yaitu, jumlah kuadrat untuk jenis kelamin dan kesalahan) untuk memutuskan apakah ada efek.

Anda juga bisa menggunakan regresi linier untuk menguji ini sebagai berikut:

Definisikan: jika responden adalah pria dan sebaliknya. mana:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Kemudian tes apakah adalah tes setara untuk hipotesis Anda.β=0

gung - Reinstate Monica
sumber
2
Jika saya tidak salah, regresi linier adalah estimasi koefisien yang mendefinisikan peta linear yang baik dari X ke Y. ANOVA adalah tes untuk mengetahui apakah ada perbedaan signifikan dalam X ketika Y mengambil dua nilai yang berbeda. Bisakah Anda jelaskan kepada kami mengapa menurut Anda keduanya sama?
robin girard
28
ANOVA dapat dilihat sebagai "gula sintaksis" untuk subkelompok khusus model regresi linier. ANOVA secara teratur digunakan oleh para peneliti yang bukan ahli statistik dengan pelatihan. Mereka sekarang "dilembagakan" dan sulit untuk mengubahnya kembali menggunakan representasi yang lebih umum ;-)
suncoolsu
3
Mengunggah komentar Anda, tetapi para eksperimentalis bahkan lebih gila daripada yang saya kira jika ini adalah gula sintaksis untuk mereka! Versi mana yang lebih intuitif .... Uji hipotesis ANOVA pada : apakah rasio varian yang dijelaskan dengan varian yang tidak dapat dijelaskan cukup tinggi? T-test pada istilah dari model regresi: apakah efek dari cukup berbeda dari nol? Dan, dengan formulasi yang terakhir Anda juga mendapatkan arah perubahan. Dan, jika Anda harus mengubah data, Anda dapat mengubah kembali estimasi parameter menjadi kuantitas yang bermakna secara fisik. Tidak seperti SS. βββ
f1r3br4nd

Jawaban:

55

Sebagai seorang ekonom, analisis varians (ANOVA) diajarkan dan biasanya dipahami dalam kaitannya dengan regresi linier (misalnya dalam A Course in Econometrics karya Arthur Goldberger ). Ekonom / ahli ekonometrika biasanya memandang ANOVA tidak menarik dan lebih suka langsung beralih ke model regresi. Dari perspektif model linear (atau bahkan linier umum), ANOVA menetapkan koefisien ke dalam batch, dengan masing-masing batch sesuai dengan "sumber variasi" dalam terminologi ANOVA.

Secara umum Anda dapat meniru inferensi yang akan Anda dapatkan dari ANOVA menggunakan regresi tetapi tidak selalu regresi OLS. Model multilevel diperlukan untuk menganalisis struktur data hierarkis seperti "desain petak-petak," di mana efek antara-kelompok dibandingkan dengan kesalahan tingkat kelompok, dan efek dalam-kelompok dibandingkan dengan kesalahan tingkat data. Makalah Gelman [1] menjelaskan secara rinci tentang masalah ini dan secara efektif berpendapat bahwa ANOVA adalah alat statistik penting yang masih harus diajarkan untuk kepentingannya sendiri.

Secara khusus Gelman berpendapat bahwa ANOVA adalah cara memahami dan menyusun model multilevel. Oleh karena itu ANOVA bukan merupakan alternatif untuk regresi tetapi sebagai alat untuk merangkum kesimpulan dimensi tinggi yang kompleks dan untuk analisis data eksplorasi.

Gelman adalah ahli statistik yang sangat dihormati dan beberapa kepercayaan harus diberikan kepada pandangannya. Namun, hampir semua pekerjaan empiris yang saya lakukan akan sama baiknya dilayani oleh regresi linier dan jadi saya dengan kuat jatuh ke dalam kubu melihatnya sebagai sedikit tidak berguna. Beberapa disiplin ilmu dengan desain studi yang kompleks (misalnya psikologi) mungkin menemukan ANOVA berguna.

[1] Gelman, A. (2005). Analisis varian: mengapa lebih penting dari sebelumnya (dengan diskusi). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Graham Cookson
sumber
1
Terima kasih untuk referensi Gelman. Saya akan membaca makalahnya. Tapi, tidak bisakah kita menganalisis model bertingkat menggunakan kemungkinan maksimum klasik? Saya setuju bahwa OLS tidak efisien / tidak sesuai untuk model multi-level.
3
@ Srikant - ada banyak cara untuk menangani data bertingkat dan Gelman adalah "raja" bidang ini. Maksudnya adalah bahwa ANOVA adalah metode yang sederhana / jelas untuk menangkap fitur-fitur utama dari struktur data yang kompleks dan hierarkis atau desain studi dan ANOVA adalah cara sederhana / jelas untuk menyajikan hasil-hasil utama. Dalam hal ini perannya saling melengkapi atau mengeksplorasi.
Graham Cookson
1
+1 untuk jawaban yang jelas dan bagus. Paragraf 3 pada dasarnya adalah apa yang saya ajarkan sebagai sarjana biologi, dengan penekanan pada kemudahan menggabungkan variabel independen berkelanjutan dan kategorikal dalam kerangka kerja ANOVA.
Freya Harrison
23

Saya pikir paragraf kedua Graham menjadi inti masalahnya. Saya menduga itu tidak terlalu teknis daripada historis, mungkin karena pengaruh " Metode Statistik untuk Pekerja Penelitian ", dan kemudahan mengajar / menerapkan alat untuk non-statistik dalam analisis eksperimental yang melibatkan faktor-faktor diskrit, daripada menggali ke dalam pembangunan model dan alat terkait. Dalam statistik, ANOVA biasanya diajarkan sebagai kasus regresi khusus. (Saya pikir ini mirip dengan mengapa biostatistik diisi dengan banyak "tes" eponymous daripada menekankan pembangunan model.)

ars
sumber
14

Saya akan mengatakan bahwa beberapa dari Anda menggunakan regresi jangka ketika Anda harus menggunakan model linier umum. Saya menganggap regresi sebagai glm yang melibatkan kovariat berkelanjutan. Ketika kovariat kontinu dikombinasikan dengan variabel dummy yang seharusnya disebut analisis kovarians. Jika hanya variabel dummy yang digunakan, kami merujuk pada bentuk khusus glm tersebut sebagai analisis varian. Saya pikir analisis varians memiliki makna kedua yang berbeda sebagai prosedur untuk menguji koefisien signifikan dalam GLM menggunakan dekomposisi varians menjadi komponen istilah model dan komponen istilah kesalahan.

Michael Chernick
sumber
2
(+1) Saya juga segera mencatat terminologi "regresi" yang ambigu sepanjang diskusi.
Stéphane Laurent
1
(+1) GLM mungkin menjadi cara terbaik untuk mengurai makna yang berbeda. Juga harus dicatat bahwa dalam sejarah prosedur perhitungan ANOVA digunakan yang mengaburkan hubungan antara OLS dan ANOVA. Karenanya nomenklatur dapat dibenarkan dengan alasan historis.
Juli
10

ANOVA dapat digunakan dengan variabel penjelas kategori (faktor) yang mengambil lebih dari 2 nilai (level), dan memberikan tes dasar bahwa respons rata-rata adalah sama untuk setiap nilai. Ini menghindari masalah regresi dalam melakukan beberapa uji-t berpasangan di antara level-level tersebut:

  • Multiple t-test pada tingkat signifikansi tetap 5%, akan membuat sekitar 5% dari mereka memberikan hasil yang salah.
  • Tes-tes ini tidak independen satu sama lain. Membandingkan level A dengan B terhubung dengan membandingkan A ke C, karena data A digunakan dalam kedua tes.

Lebih baik menggunakan kontras untuk kombinasi berbeda pada tingkat faktor yang ingin Anda uji.

Ηλίας
sumber
1
Anda mungkin ingin memperjelas jawaban ini; seperti yang tertulis, saya melihat 3 masalah. 2 yang pertama agak sedikit pilih-pilih tetapi masih harus diedit, yang ketiga adalah substantif dalam konteks diskusi ini. (1) ANOVA dapat digunakan hanya dengan 2 kelompok (walaupun kebanyakan orang hanya menjalankan uji-t). (2) beberapa uji-t w / akan menghasilkan kesalahan tipe I secara asimptot untuk 5% dari perbedaan tersebut di mana tidak ada perbedaan aktual ; berapa banyak kesalahan akan terjadi tergantung pada berapa banyak nol yang benar. α=.05
gung - Reinstate Monica
7
(3) jawaban Anda menyiratkan masalah beberapa perbandingan berlaku untuk regresi OLS, yang tidak, ketika dilakukan dengan benar. Cara yang tepat untuk menguji faktor dalam konteks regresi adalah dengan menguji model bersarang dengan semua faktor boneka dijatuhkan terhadap model penuh dengan semua faktor boneka termasuk. Tes ini identik dengan tes ANOVA. Memang benar bahwa Anda tidak boleh menggunakan tes dari variabel dummy individu (yang saya duga adalah apa yang Anda coba uraikan di sini).
gung - Reinstate Monica
3

ANOVA Anda menguji apakah ada perbedaan yang signifikan antara mean populasi dengan asumsi Anda membandingkan lebih dari dua mean populasi, maka Anda akan menggunakan uji F.

Dalam analisis regresi Anda membangun model antara variabel independen dan variabel dependen. Jika Anda memiliki satu variabel independen dengan empat level, Anda dapat menggunakan tiga variabel dummy dan menjalankan model regresi. Uji F untuk model regresi yang digunakan untuk menguji signifikansi model regresi sama dengan F yang Anda dapatkan ketika menguji perbedaan antara rata-rata populasi. Jika Anda menjalankan regresi bertahap maka beberapa variabel dummy mungkin dikeluarkan dari model dan nilai-F Anda akan berbeda dari itu ketika Anda melakukan tes ANOVA.

Jamal
sumber
5
Ini membuat ANOVA menjadi prosedur pengujian dan regresi menjadi prosedur pemodelan di mana Anda dapat melakukan tes. Tetapi ANOVA juga memiliki model yang mendasarinya, terlepas dari apakah ini ditekankan dalam semua perawatan pengantar. Jadi, jawaban ini tidak menangkap perbedaan di antara mereka. Juga tidak ditujukan pada pertanyaan, itulah mengapa mereka diajarkan sebagai berbeda terlepas dari kesamaan yang kuat.
Nick Cox