Sejauh ini saya telah melihat ANOVA digunakan dalam dua cara:
Pertama , dalam teks statistik pengantar saya, ANOVA diperkenalkan sebagai cara untuk membandingkan rata-rata tiga kelompok atau lebih, sebagai peningkatan dibandingkan perbandingan berpasangan, untuk menentukan apakah salah satu cara memiliki perbedaan yang signifikan secara statistik.
Kedua , dalam teks pembelajaran statistik saya, saya telah melihat ANOVA digunakan untuk membandingkan dua (atau lebih) model bersarang untuk menentukan apakah Model 1, yang menggunakan subset prediktor Model 2, cocok dengan data sama baiknya, atau jika penuh Model 2 lebih unggul.
Sekarang saya berasumsi bahwa dalam beberapa cara kedua hal ini sebenarnya sangat mirip karena mereka berdua menggunakan tes ANOVA, tetapi di permukaan mereka tampak sangat berbeda bagi saya. Untuk satu, penggunaan pertama membandingkan tiga kelompok atau lebih, sedangkan metode kedua dapat digunakan untuk membandingkan hanya dua model. Akankah seseorang tolong menjelaskan hubungan antara kedua kegunaan ini?
anova()
fungsi R , karena ANOVA pertama, nyata, juga menggunakan uji-F. Ini menyebabkan kebingungan terminologi.anova()
fungsi tersebut dapat melakukan lebih dari sekedar ANOVA. Posting ini mendukung kesimpulan Anda: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rJawaban:
Dalam pemahaman saya, intuisi abstrak ANOVA adalah sebagai berikut: Seseorang menguraikan sumber varians dari variabel yang diamati dalam berbagai arah dan menyelidiki kontribusi masing-masing. Untuk lebih tepatnya, seseorang menguraikan peta identitas menjadi sejumlah proyeksi dan menyelidiki proyeksi / arah mana yang memberikan kontribusi penting untuk menjelaskan perbedaan dan mana yang tidak. Basis teoretisnya adalah teorema Cochran .
Agar kurang abstrak, saya memasukkan bentuk kedua yang disebutkan oleh OP ke dalam kerangka yang baru saja dijelaskan. Selanjutnya, saya menafsirkan bentuk pertama sebagai kasus khusus yang kedua.
Mari kita pertimbangkan model regresi dengan variabel penjelas (model lengkap) dan membandingkannya dengan model terbatas dengan variabel . WLOG, variabel terakhir dari model lengkap tidak termasuk dalam model terbatas. Pertanyaan yang dijawab oleh ANOVA adalahK - J JK K- J J
"Bisakah kita jelaskan lebih banyak variasi dalam variabel yang diamati jika kita memasukkan variabel tambahan "J ?
Pertanyaan ini dijawab dengan membandingkan kontribusi varian dari variabel pertama , variabel berikutnya , dan sisanya / bagian yang tidak dijelaskan (jumlah residu kuadrat). Dekomposisi ini (diperoleh misalnya dari teorema Cochran) digunakan untuk menyusun uji-F. Dengan demikian, satu menganalisis pengurangan (dengan memasukkan lebih banyak variabel) dalam jumlah residual kuadrat dari model terbatas (sesuai dengan semua koefisien yang berkaitan dengan variabel terakhir adalah nol ) dengan memasukkan lebih banyak variabel dan memperoleh F-statistik Jika nilainya cukup besar, maka varians dijelaskan oleh tambahanJ H 0 : J R S S r e s t r - R S S f u l lK- J J H0: J J
Sekarang, bentuk pertama yang disebutkan oleh OP ditafsirkan sebagai kasus khusus dari bentuk kedua . Pertimbangkan tiga grup A, B, dan C yang berbeda dengan sarana , , dan . The diuji dengan membandingkan varians dijelaskan oleh regresi pada intercept (model terbatas) dengan varians dijelaskan oleh model penuh berisi intercept, dummy untuk kelompok A, dan boneka untuk grup B. F-statistik yang dihasilkan setara dengan ANOVA- tes di WikipediaμSEBUAH μB μC H0: μSEBUAH= μB= μC
sumber
Jika Anda melakukan ANOVA satu arah untuk menguji apakah ada perbedaan yang signifikan antara kelompok, maka secara implisit Anda membandingkan dua model bersarang (jadi hanya ada satu tingkat bersarang, tetapi masih bersarang).
Kedua model tersebut adalah:
Model 1: Nilai-nilai dimodelkan dengan cara perkiraan kelompok.
(dan jika kami mewakili model dengan variasi grup antara, , maka model 0 bersarang di dalam model 1)βj^
Contoh membandingkan cara dan ekivalensi dengan model bersarang: mari kita ambil panjang sepal (cm) dari set data iris (jika kita menggunakan keempat variabel kita sebenarnya bisa melakukan LDA atau MANOVA seperti yang dilakukan Fisher pada tahun 1936)
Total yang diamati dan rata-rata kelompok adalah:
Yang ada dalam bentuk model:
The dalam model 1 merupakan jumlah total dari kotak .∑ϵ2i=102.1683
The dalam model 2 merupakan dalam kelompok jumlah kuadrat .∑ϵ2i=38.9562
Dan tabel ANOVA akan seperti (dan secara implisit menghitung selisih antara jumlah kelompok kuadrat yang merupakan 63,212 dalam tabel dengan 2 derajat kebebasan):
dengan
set data yang digunakan dalam contoh:
panjang kelopak (cm) untuk tiga spesies bunga Iris yang berbeda
sumber
Penggunaan ANOVA dalam perbandingan antara beberapa model berarti untuk menguji apakah setidaknya satu dari koefisien yang digunakan dalam model dengan orde yang lebih tinggi (dan tidak ada dalam model dengan orde yang lebih rendah) secara signifikan berbeda dari nol.
Itu sama dengan mengatakan bahwa jumlah residu untuk model orde tinggi secara signifikan lebih kecil daripada jumlah model orde bawah.
Ini adalah tentang dua model karena persamaan dasar yang digunakan adalah
Di mana MSM adalah rata-rata residu kuadrat dari model orde bawah (di mana orde terendah adalah rata-rata variabel target, yaitu intersep).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Anda dapat membaca topik serupa di CV, seperti
Bagaimana cara menggunakan anova untuk perbandingan dua model?
sumber
Dari apa yang saya pelajari,
Anda dapat menggunakan tabel ANOVA untuk menentukan apakah variabel penjelas Anda benar-benar memiliki pengaruh signifikan terhadap variabel respons, dan dengan demikian sesuai dengan model yang sesuai.
Berikut ini adalah contoh keluaran ANOVA untuk proyek yang saya kerjakan di R, di mana saya menguji dua model (satu dengan Hari Variabel, dan satu tanpa Hari Variabel):
Seperti yang Anda lihat, nilai-p yang sesuai dari uji-F adalah 0,13, yang lebih besar dari 0,05. Jadi, kita tidak bisa menolak hipotesis nol bahwa Days tidak berpengaruh pada Y. Jadi, saya memilih model 1 daripada model 2.
sumber