ANOVA setara dengan regresi linier dengan penggunaan variabel dummy yang sesuai. Kesimpulannya tetap sama terlepas dari apakah Anda menggunakan ANOVA atau regresi linier.
Mengingat kesetaraan mereka, apakah ada alasan mengapa ANOVA digunakan daripada regresi linier?
Catatan: Saya sangat tertarik mendengar alasan teknis untuk penggunaan ANOVA alih-alih regresi linier.
Sunting
Berikut adalah salah satu contoh menggunakan ANOVA satu arah. Misalkan, Anda ingin tahu apakah tinggi rata-rata pria dan wanita adalah sama. Untuk menguji hipotesis Anda, Anda akan mengumpulkan data dari sampel acak pria dan wanita (katakan masing-masing 30) dan melakukan analisis ANOVA (yaitu, jumlah kuadrat untuk jenis kelamin dan kesalahan) untuk memutuskan apakah ada efek.
Anda juga bisa menggunakan regresi linier untuk menguji ini sebagai berikut:
Definisikan: jika responden adalah pria dan sebaliknya. mana:
Kemudian tes apakah adalah tes setara untuk hipotesis Anda.
sumber
Jawaban:
Sebagai seorang ekonom, analisis varians (ANOVA) diajarkan dan biasanya dipahami dalam kaitannya dengan regresi linier (misalnya dalam A Course in Econometrics karya Arthur Goldberger ). Ekonom / ahli ekonometrika biasanya memandang ANOVA tidak menarik dan lebih suka langsung beralih ke model regresi. Dari perspektif model linear (atau bahkan linier umum), ANOVA menetapkan koefisien ke dalam batch, dengan masing-masing batch sesuai dengan "sumber variasi" dalam terminologi ANOVA.
Secara umum Anda dapat meniru inferensi yang akan Anda dapatkan dari ANOVA menggunakan regresi tetapi tidak selalu regresi OLS. Model multilevel diperlukan untuk menganalisis struktur data hierarkis seperti "desain petak-petak," di mana efek antara-kelompok dibandingkan dengan kesalahan tingkat kelompok, dan efek dalam-kelompok dibandingkan dengan kesalahan tingkat data. Makalah Gelman [1] menjelaskan secara rinci tentang masalah ini dan secara efektif berpendapat bahwa ANOVA adalah alat statistik penting yang masih harus diajarkan untuk kepentingannya sendiri.
Secara khusus Gelman berpendapat bahwa ANOVA adalah cara memahami dan menyusun model multilevel. Oleh karena itu ANOVA bukan merupakan alternatif untuk regresi tetapi sebagai alat untuk merangkum kesimpulan dimensi tinggi yang kompleks dan untuk analisis data eksplorasi.
Gelman adalah ahli statistik yang sangat dihormati dan beberapa kepercayaan harus diberikan kepada pandangannya. Namun, hampir semua pekerjaan empiris yang saya lakukan akan sama baiknya dilayani oleh regresi linier dan jadi saya dengan kuat jatuh ke dalam kubu melihatnya sebagai sedikit tidak berguna. Beberapa disiplin ilmu dengan desain studi yang kompleks (misalnya psikologi) mungkin menemukan ANOVA berguna.
[1] Gelman, A. (2005). Analisis varian: mengapa lebih penting dari sebelumnya (dengan diskusi). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
sumber
Saya pikir paragraf kedua Graham menjadi inti masalahnya. Saya menduga itu tidak terlalu teknis daripada historis, mungkin karena pengaruh " Metode Statistik untuk Pekerja Penelitian ", dan kemudahan mengajar / menerapkan alat untuk non-statistik dalam analisis eksperimental yang melibatkan faktor-faktor diskrit, daripada menggali ke dalam pembangunan model dan alat terkait. Dalam statistik, ANOVA biasanya diajarkan sebagai kasus regresi khusus. (Saya pikir ini mirip dengan mengapa biostatistik diisi dengan banyak "tes" eponymous daripada menekankan pembangunan model.)
sumber
Saya akan mengatakan bahwa beberapa dari Anda menggunakan regresi jangka ketika Anda harus menggunakan model linier umum. Saya menganggap regresi sebagai glm yang melibatkan kovariat berkelanjutan. Ketika kovariat kontinu dikombinasikan dengan variabel dummy yang seharusnya disebut analisis kovarians. Jika hanya variabel dummy yang digunakan, kami merujuk pada bentuk khusus glm tersebut sebagai analisis varian. Saya pikir analisis varians memiliki makna kedua yang berbeda sebagai prosedur untuk menguji koefisien signifikan dalam GLM menggunakan dekomposisi varians menjadi komponen istilah model dan komponen istilah kesalahan.
sumber
ANOVA dapat digunakan dengan variabel penjelas kategori (faktor) yang mengambil lebih dari 2 nilai (level), dan memberikan tes dasar bahwa respons rata-rata adalah sama untuk setiap nilai. Ini menghindari masalah regresi dalam melakukan beberapa uji-t berpasangan di antara level-level tersebut:
Lebih baik menggunakan kontras untuk kombinasi berbeda pada tingkat faktor yang ingin Anda uji.
sumber
ANOVA Anda menguji apakah ada perbedaan yang signifikan antara mean populasi dengan asumsi Anda membandingkan lebih dari dua mean populasi, maka Anda akan menggunakan uji F.
Dalam analisis regresi Anda membangun model antara variabel independen dan variabel dependen. Jika Anda memiliki satu variabel independen dengan empat level, Anda dapat menggunakan tiga variabel dummy dan menjalankan model regresi. Uji F untuk model regresi yang digunakan untuk menguji signifikansi model regresi sama dengan F yang Anda dapatkan ketika menguji perbedaan antara rata-rata populasi. Jika Anda menjalankan regresi bertahap maka beberapa variabel dummy mungkin dikeluarkan dari model dan nilai-F Anda akan berbeda dari itu ketika Anda melakukan tes ANOVA.
sumber