Saya mencoba memahami logika di balik ANOVA F-test dalam Analisis Regresi Linier Sederhana. Pertanyaan yang saya miliki adalah seperti berikut. Ketika nilai F, yaitu
MSR/MSE
besar, kami menerima model sebagai signifikan. Apa logika di balik ini?
regression
anova
Tidak tahu
sumber
sumber
Jawaban:
Dalam kasus paling sederhana, ketika Anda hanya memiliki satu prediktor (regresi sederhana), katakanlah , -test memberi tahu Anda apakah termasuk menjelaskan sebagian besar varian yang diamati dalam dibandingkan dengan model nol (intersep saja). Idenya adalah untuk menguji apakah varians yang dijelaskan ditambahkan (total varians, TSS, minus varians residual, RSS) cukup besar untuk dianggap sebagai "kuantitas signifikan". Kami di sini membandingkan model dengan satu prediktor, atau variabel penjelas, dengan baseline yang hanya "noise" (tidak ada kecuali grand mean).X1 F X1 Y
Demikian juga, Anda dapat menghitung statistik dalam pengaturan regresi berganda: Dalam kasus ini, ini merupakan tes semua prediktor yang termasuk dalam model, yang di bawah kerangka kerja HT berarti bahwa kami bertanya-tanya apakah ada di antara mereka yang berguna dalam memprediksi respons. variabel. Ini adalah alasan mengapa Anda mungkin menghadapi situasi di mana uji untuk seluruh model adalah signifikan sedangkan beberapa uji atau terkait dengan masing-masing koefisien regresi tidak.F F t z
The statistik terlihat sepertiF
di mana adalah jumlah parameter model dan jumlah pengamatan. Kuantitas ini harus dirujuk ke distribusi untuk nilai kritis atau . Ini berlaku untuk model regresi sederhana juga, dan jelas memiliki analogi dengan kerangka kerja ANOVA klasik.p n Fp−1,n−p p
Sidenote. Ketika Anda memiliki lebih dari satu prediktor, maka Anda mungkin bertanya-tanya apakah mempertimbangkan hanya sebagian dari prediktor tersebut "mengurangi" kualitas kecocokan model. Ini sesuai dengan situasi di mana kami mempertimbangkan model bersarang . Ini persis situasi yang sama dengan yang di atas, di mana kami membandingkan model regresi yang diberikan dengan model nol (tidak termasuk prediktor). Untuk menilai pengurangan varian yang dijelaskan, kita dapat membandingkan jumlah residu kuadrat (RSS) dari kedua model (yaitu, apa yang dibiarkan tidak dijelaskan setelah Anda memperhitungkan efek dari prediktor yang ada dalam model). Biarkan dan menunjukkan model dasar (denganM0 M1 p parameter) dan model dengan prediktor tambahan ( parameter ), maka jika adalah kecil, kami akan mempertimbangkan bahwa model yang lebih kecil memiliki performa yang sama baiknya dengan yang lebih besar. Statistik yang baik untuk digunakan adalah perbandingan SS, , diberi bobot berdasarkan derajat kebebasannya ( untuk pembilang, dan untuk penyebut). Seperti yang telah dikatakan, dapat ditunjukkan bahwa jumlah ini mengikuti distribusi (atau Fisher-Snedecor) dengan derajat kebebasan dan . Jika diamatiq=p+1 RSSM1−RSSM0 (RSSM1−RSSM0)/RSSM0 p−q n−p F p−q n−p F lebih besar dari quantile yang bersesuaian pada diberikan (biasanya, ), maka kita akan menyimpulkan bahwa model yang lebih besar membuat "pekerjaan yang lebih baik". (Ini sama sekali tidak menyiratkan bahwa model itu benar, dari sudut pandang praktis!)F α α=0.05
Generalisasi dari ide di atas adalah uji rasio kemungkinan .
Jika Anda menggunakan R, Anda dapat bermain dengan konsep di atas seperti ini:
sumber
anova()
fungsi dalam R mengembalikan baris individual untuk setiap prediktor dalam model. Misalnya,anova(lm0)
di atas mengembalikan baris untukV1
,V2
danResiduals
(dan tidak ada total). Dengan demikian, kami mendapatkan dua statistik F * untuk model ini. Bagaimana ini mengubah interpretasi statistik F * yang dilaporkan dalam tabel ANOVA?anova()
perbandingan GLM. Ketika diterapkan pada objeklm
atauaov
, itu menampilkan efek terpisah (SS) untuk setiap istilah dalam model dan tidak menunjukkan TSS. (Dulu saya menerapkan ini sebaliknya, yaitu setelah pas dengan ANOVAaov()
, saya bisa gunakansummary.lm()
untuk mendapatkan ide tentang kontras pengobatan.) Namun, ada masalah halus antarasummary.lm()
dansummary.aov()
, terutama terkait dengan pemasangan berurutan.