Perbedaan antara uji-t dan ANOVA dalam regresi linier

12

Saya bertanya-tanya apa perbedaan antara uji-t dan ANOVA dalam regresi linier?

  1. Apakah uji-t untuk menguji apakah salah satu lereng dan intersep memiliki nilai nol, sedangkan ANOVA untuk menguji apakah semua lereng memiliki nilai nol? Apakah ini satu-satunya perbedaan di antara mereka?
  2. Dalam regresi linier sederhana yaitu di mana hanya ada satu variabel prediktor, hanya ada satu kemiringan untuk memperkirakan. Jadi apakah t-test dan ANOVA setara, dan jika ya, bagaimana, mengingat bahwa mereka menggunakan statistik yang berbeda (uji-t menggunakan statistik-t dan ANOVA menggunakan statistik-F)?
Tim
sumber
Ad 1) Dalam regresi linier, saya biasanya memahami ANOVA sebagai ukuran goodness of fit model, yaitu untuk memutuskan apakah model (garis regresi) menjelaskan bagian substansial dari total variabilitas. Pertanyaannya, apakah itu setara dengan semua lereng menjadi nol, benar-benar sangat menarik. Iklan 2) sepertinya saya mendapatkan nilai p yang hampir sama untuk uji-t dan regresi ANOVA dalam kasus ini. Teorema yang sangat menarik!
Penasaran

Jawaban:

18

Model linear umum memungkinkan kita menulis model ANOVA sebagai model regresi. Mari kita asumsikan kita memiliki dua kelompok dengan masing-masing dua pengamatan, yaitu, empat pengamatan dalam vektor . Kemudian model orisinil, overparametrized adalah , di mana adalah matriks prediktor, yaitu variabel indikator kode-dummy: E ( y ) = X β X ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 0 1 1 0 1 ) ( β 0 β 1 β 2 )yE(y)=XβX

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

Parameter tidak dapat diidentifikasi sebagai karena memiliki peringkat 2 ( tidak dapat dibalik). Untuk mengubahnya, kami memperkenalkan batasan (kontras pengobatan), yang memberi kami model baru : X ( X ) X β 1 = 0 E ( y ) = X β ( μ 1 μ 1 μ 2 μ 2 2 ) = ( 1 0 1 0 1 1 1 1((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

Jadi , yaitu, mengambil arti dari nilai yang diharapkan dari kategori referensi kami (grup 1). , yaitu, mengambil arti perbedaan untuk kategori referensi. Karena dengan dua kelompok, hanya ada satu parameter yang terkait dengan efek kelompok, hipotesis nol ANOVA (semua parameter efek kelompok adalah 0) sama dengan bobot regresi, hipotesis nol (parameter kemiringan adalah 0). β 0 μ 2 = β 0 + β 2 β 2 μ 2 - μ 1μ1=β0β0μ2=β0+β2β2μ2μ1

Uji - dalam model linier umum menguji kombinasi linear dari parameter terhadap nilai hipotesis bawah hipotesis nol. Memilih , dengan demikian kita dapat menguji hipotesis bahwa (tes biasa untuk parameter slope), yaitu di sini, . Estimatornya adalah , di mana adalah Estimasi OLS untuk parameter. Statistik uji umum untuk adalah: tψ=cjβjψ0c=(0,1)β2=0μ2μ1=0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

σ^2=e2/(nRank(X)) adalah estimator yang tidak bias untuk varian kesalahan, di mana adalah jumlah dari residu kuadrat. Dalam kasus dua grup , , dan estimatornya adalah dan . Dengan menjadi 1 dalam kasus kami, statistik pengujian menjadi: e2Rank(X)=2(XX)1X=(.5.500.5.5.5.5)β^0=0.5y1+0.5y2=M1β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1c(XX)1c

t=M2M10σ^=M2M1e2/(n2)

t yaitu -distributed dengan df (disini ). Saat Anda kuadrat , Anda mendapatkan , statistik uji dari ANOVA -test untuk dua kelompok ( untuk antara, untuk dalam kelompok) yang mengikuti - distribusi dengan 1 dan df.tnRank(X)n2tFbwFn-Rank(X)(M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=FFbwFnRank(X)

Dengan lebih dari dua kelompok, hipotesis ANOVA (semua secara bersamaan 0, dengan ) mengacu pada lebih dari satu parameter dan tidak dapat dinyatakan sebagai kombinasi linear , sehingga pengujian tidak setara. . 1 j ψβj1jψ

caracal
sumber
3

Dalam 1, ANOVA biasanya akan menguji variabel faktor dan apakah atau tidak antara varians kelompok adalah signifikan. Anda akan melihat dengan jelas perbedaannya jika perangkat lunak Anda memungkinkan variabel indikator dalam suatu regresi: untuk setiap dummy Anda akan mendapatkan nilai p yang mengatakan apakah nilai kelompok ini berbeda secara signifikan dari 0, dan sebagai konsekuensinya sangat berbeda dari kelompok referensi atau nilai referensi yang berlaku . Biasanya, Anda tidak akan melihat sampai sejauh mana indikator itu penting sampai Anda melakukan tes ANOVA.

Uji F adalah uji t kuadrat. Oleh karena itu, pada 2, itu sama.

Tenaga kerja
sumber
Terima kasih! (1) Apa yang dimaksud dengan variabel indikator di sini? (2) Secara umum, uji-t setara dengan ANOVA hanya ketika hanya ada dua kelompok. Tetapi dalam regresi linier sederhana mungkin ada lebih dari dua kelompok, di mana jumlah kelompok adalah jumlah nilai variabel prediktor dalam set data.
Tim
(1) Indikator atau variabel kategori atau faktor ... semuanya sama. (2) Memang, tetapi Anda mungkin ingin tahu seberapa baik skor boneka / kategori dari ANOVA.
Buruh
Terima kasih! (2) Jadi dalam regresi linier sederhana, bagaimana uji-t setara dengan ANOVA, mengingat bahwa ada lebih dari dua kelompok? Apa artinya "seberapa baik skor boneka / kategori dari ANOVA", dan mengapa saya ingin mengetahuinya?
Tim
Dalam regresi OLS, R² (varians yang dijelaskan) akan sama dengan eta² atau MSS / TSS dari ANOVA tidak peduli berapa banyak grup yang Anda tetapkan. Berikutnya, Anda mungkin ingin mengetahui kontribusi dari set boneka (misalnya variabel indikator) untuk mengatakan apakah set itu sendiri relevan dan sejauh mana, yang berbeda dari signifikansi perbedaan antara satu kategori tunggal dengan kategori referensi .
Buruh