Bagaimana regresi, uji-t, dan ANOVA semua versi dari model linear umum?

49

Bagaimana mereka semua versi dari metode statistik dasar yang sama?

regression self-study anova generalized-linear-model t-test Amahabirsingh
sumber

terkait: Mengapa ANOVA diajarkan / digunakan seolah-olah itu adalah metodologi penelitian yang berbeda dibandingkan dengan regresi linier?

Haitao Du

terkait: R: Anova dan Regresi Linier

Haitao Du

terkait: Mengapa ANOVA setara dengan regresi linier?

Haitao Du

47

Pertimbangkan bahwa semuanya dapat ditulis sebagai persamaan regresi (mungkin dengan interpretasi yang sedikit berbeda dari bentuk tradisional mereka).

Regresi:

Y = β_{0} + β_{1} X_{(continuous)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(continuous)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

uji-t:

Y = β_{0} + β_{1} X_{(dummy code)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

ANOVA:

Y = β_{0} + β_{1} X_{(dummy code)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

Regresi prototipikal dikonseptualisasikan dengan sebagai variabel kontinu. Namun, satu-satunya asumsi yang benar-benar dibuat tentang adalah bahwa ia adalah vektor konstanta yang diketahui. Ini bisa berupa variabel kontinu, tetapi bisa juga berupa kode dummy (yaitu, vektor 's & 's yang menunjukkan apakah pengamatan adalah anggota dari kelompok yang ditunjukkan - misalnya, kelompok perlakuan). Jadi, dalam persamaan kedua, bisa berupa kode dummy, dan nilai-p akan sama dengan yang dari uji-t dalam bentuk yang lebih tradisional. $X$ $X$ $0$ $1$ $X$

Namun, makna dari beta akan berbeda di sini. Dalam hal ini, akan menjadi rata-rata dari kelompok kontrol (yang entri dalam variabel dummy adalah 's), dan $\beta_0$ $0$ $\beta_1$ akan menjadi perbedaan antara rata-rata dari kelompok perlakuan dan rata-rata dari kontrol kelompok.

Sekarang, ingatlah bahwa sangat masuk akal untuk memiliki / menjalankan ANOVA dengan hanya dua kelompok (walaupun uji-t lebih umum), dan Anda memiliki ketiganya terhubung. Jika Anda lebih suka melihat cara kerjanya jika Anda memiliki ANOVA dengan 3 kelompok; itu akan menjadi: Perhatikan bahwa ketika Anda memilikigrup , Anda memilikikode tiruan untuk mewakilinya. Grup referensi (biasanya grup kontrol) ditandai dengan memiliki untuksemuakode dummy (dalam hal ini, baik kode dummy 1 & kode dummy 2). Dalam hal ini, Anda tidak ingin menafsirkan nilai-p dari uji-t untuk beta-beta ini yang datang dengan output statistik standar - mereka hanya menunjukkan apakah grup yang ditunjukkan berbeda dari grup kontrol.

Y = β_{0} + β_{1} X_{(dummy code 1)} + β_{2} X_{(dummy code 2)} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_{\text{(dummy code 1)}} + \beta_2X_{\text{(dummy code 2)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2)$

g

$g$

g - 1

$g-1$

0

$0$ ketika dinilai secara terpisah.. Artinya, tes ini tidak independen. Sebagai gantinya, Anda ingin menilai apakah rata-rata kelompok berbeda dengan membuat tabel ANOVA dan melakukan uji-F. Untuk apa nilainya, beta ditafsirkan sama seperti dengan versi uji-t yang dijelaskan di atas:

adalah rata-rata dari kelompok kontrol / referensi,

menunjukkan perbedaan antara rata-rata kelompok 1 dan kelompok referensi, dan

menunjukkan perbedaan antara grup 2 dan grup referensi.

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

Sehubungan dengan komentar @ whuber di bawah ini, ini juga dapat direpresentasikan melalui persamaan matriks:
Diwakili dengan cara ini, & adalah vektor dengan panjang , dan adalah vektor dengan panjang . sekarang menjadi matriks dengan rows dan kolom. Dalam regresi prototipikal Anda memiliki variabel kontinu dan intersep. Jadi, Anda

Y = X β + ε

$\bf Y=\bf X\boldsymbol\beta + \boldsymbol\varepsilon$

Y

$\bf Y$

ε

$\boldsymbol\varepsilon$

N

$N$

β

$\boldsymbol\beta$

p + 1

$p+1$

X

$\bf X$

N

$N$

(p + 1)

$(p+1)$

p

$p$

X

$X$

X

$\bf X$ Matriks terdiri dari serangkaian vektor kolom berdampingan, satu untuk setiap variabel

, dengan kolom

di paling kiri untuk memotong.

X

$X$

1

$1$

Jika Anda mewakili ANOVA dengan grup dengan cara ini, ingatlah bahwa Anda akan memiliki variabel dummy menunjukkan grup, dengan grup referensi ditunjukkan oleh pengamatan yang memiliki 's di setiap variabel dummy. Seperti di atas, Anda masih memiliki intersep. Jadi, . $g$ $g-1$ $0$ $p=g-1$

gung - Reinstate Monica
sumber

1

Persamaan ANOVA akan masuk akal sebagai ANOVA (dan bukan t-test) hanya jika

ditafsirkan sebagai vektor dan dikalikan di sebelah kanan.

β_{1}

$\beta_1$

whuber

Ini bukan persamaan matriks; Saya jarang menggunakannya di sini, karena banyak orang tidak membacanya. ANOVA 1 mewakili situasi yang identik dengan uji-t sebelumnya. Saya hanya menunjukkan bahwa jika Anda dapat menjalankan 2-sample independent t-test, Anda dapat menjalankan data yang sama dengan ANOVA (yang harus dikenali / diingat banyak orang dari kelas statistik 101 mereka). Saya menambahkan versi ANOVA lain dengan 3 kelompok yang lebih rendah ke bawah untuk mengklarifikasi bahwa situasi 2-kelompok bukan satu-satunya kasus ANOVA yang dapat dipahami sebagai regresi; tetapi persamaan reg sekarang terlihat berbeda - saya mencoba untuk mempertahankan paralel yang lebih eksplisit di atas.

gung - Reinstate Monica

Maksud saya adalah bahwa kecuali jika Anda melakukan membuatnya menjadi persamaan matriks, karakterisasi Anda ANOVA terlalu terbatas untuk menjadi berguna: itu adalah identik dengan karakterisasi Anda dari t-test dan lebih membingungkan daripada membantu. Saat Anda mulai memperkenalkan lebih banyak grup, Anda tiba-tiba mengubah persamaan, yang mungkin juga kurang jelas. Apakah Anda ingin menggunakan notasi matriks tentu saja terserah Anda, tetapi untuk kepentingan komunikasi yang baik Anda harus berusaha untuk konsistensi.

whuber

Bisakah Anda jelaskan sedikit lebih banyak tentang bagaimana Anda datang dari definisi populer t-test untuk persamaan yang telah Anda tunjukkan. Pada dasarnya saya tidak tahu apa itu Y di sini (bisa jadi kenaifan atau kurang IQ untuk statistik). Namun bagaimana cara tiba dari t = (yx-u0) / s ke persamaan ini.

Gaurav Singhal

Tidak, meskipun ini mungkin asing bagi Anda.

adalah kontinu (& diasumsikan normal) dalam semua kasus yang tercantum. Tidak ada asumsi distribusi tentang

, itu bisa kontinu, dikotomis, atau variabel kategori multi-level.

Y

$Y$

X

$X$

gung - Reinstate Monica

16

Mereka semua dapat ditulis sebagai kasus-kasus tertentu dari model linear umum.

Uji-t adalah kasus ANOVA dua sampel. Jika Anda kuadratkan statistik uji-t Anda mendapatkan sesuai di ANOVA. $F$

Model ANOVA pada dasarnya hanyalah model regresi di mana tingkat faktor diwakili oleh variabel dummy (atau indikator ) .

Jadi jika model untuk uji-t adalah bagian dari model ANOVA dan ANOVA adalah bagian dari model regresi berganda, regresi itu sendiri (dan hal-hal lain selain regresi) adalah bagian dari model linear umum , yang memperluas regresi ke spesifikasi yang lebih umum dari istilah kesalahan dari kasus regresi biasa (yang 'independen' dan 'sama-varian'), dan multivariat . $Y$

Berikut ini adalah contoh yang menunjukkan kesetaraan biasa (sama-variance) dua sample- analisis dan uji hipotesis dalam model regresi, dilakukan dalam R (data penampilan yang sebenarnya untuk dipasangkan, jadi ini tidak benar-benar analisis yang sesuai) : $t$

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33

Perhatikan nilai p 0,079 di atas. Inilah anova satu arah:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605

Sekarang untuk regresi:

> summary(lm(extra ~ group, data = sleep))

(beberapa output dihapus)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Bandingkan nilai p di baris 'group2', dan juga nilai p untuk uji-F di baris terakhir. Untuk tes dua sisi, ini adalah sama dan keduanya cocok dengan hasil uji-t.

Selanjutnya, koefisien untuk 'group2' mewakili perbedaan rata-rata untuk kedua kelompok.

Glen_b
sumber

Memiliki nilai p yang sama di ketiga skenario itu ajaib dan mengesankan, namun jika Anda bisa menjelaskan sedikit lebih banyak tentang bagaimana nilai p ini dihitung, pasti akan membuat jawaban ini lebih menarik . Saya tidak tahu apakah menunjukkan perhitungan p-value akan membuatnya lebih berguna juga, jadi itu adalah sesuatu yang bisa Anda putuskan.

Gaurav Singhal

@Gaurav Nilai-p adalah sama karena Anda menguji hipotesis yang sama pada model yang sama, hanya direpresentasikan sedikit berbeda. Jika Anda tertarik pada bagaimana beberapa nilai-p tertentu dihitung, itu akan menjadi pertanyaan baru (itu tidak akan menjadi jawaban untuk pertanyaan di sini). Anda bebas untuk mengajukan pertanyaan seperti itu, namun cobalah mencari terlebih dahulu karena mungkin sudah dijawab.

Glen_b

Terima kasih @Glen_b, maaf telah mengajukan pertanyaan yang jelas dan itu juga bukan cara terbaik. Dan Anda masih menjawab pertanyaan saya - "hipotesis yang sama pada model yang sama (dan / atau data)". Saya tidak memberikan cukup pemikiran tentang bagaimana mereka menguji hipotesis yang sama. Terima kasih

Gaurav Singhal

2

Jawaban yang saya posting sebelumnya agak relevan, tetapi pertanyaan ini agak berbeda.

Anda mungkin ingin memikirkan perbedaan dan persamaan antara model linier berikut:

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & x_{1} \\ 1 & x_{2} \\ 1 & x_{3} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{matrix}] [\begin{matrix} α_{0} \\ α_{1} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ 1 & x_3 \\ \vdots & \vdots \\ 1 & x_n \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \alpha_1 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

[\begin{matrix} Y_{1} \\ ⋮ \\ Y_{n} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & 1 & 0 & \dots & 0 \\ 0 & 0 & 1 & \dots & 0 \\ ⋮ & ⋮ \\ ⋮ & ⋮ \end{matrix}] [\begin{matrix} α_{0} \\ ⋮ \\ α_{k} \end{matrix}] + [\begin{matrix} ε_{1} \\ ⋮ \\ ⋮ \\ ε_{n} \end{matrix}]

$\begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & 0 & 0 & \cdots & 0 \\ \hline 0 & 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 1 & 0 & \cdots & 0 \\ \hline 0 & 0 & 1 & \cdots & 0 \\ \vdots & & & & \vdots \\ \vdots & & & & \vdots \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \vdots \\ \alpha_k \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix}$

Michael Hardy
sumber

2

Beberapa uraian dan komentar terhadap pertanyaan-pertanyaan akan bermanfaat bagi pembaca karena sekarang mereka harus menebak dari mana mereka berasal dan bagaimana mereka berhubungan dengan pertanyaan ...

Tim

0

Anova mirip dengan uji-t untuk persamaan rata-rata dengan asumsi varians yang tidak diketahui tetapi sama di antara perawatan. Ini karena dalam ANOVA MSE identik dengan pooled-variance yang digunakan dalam uji-t. Ada versi lain dari uji-t seperti satu untuk varian yang tidak sama dan uji-t berpasangan. Dari pandangan ini, uji-t dapat lebih fleksibel.

pemfir
sumber

Bagaimana regresi, uji-t, dan ANOVA semua versi dari model linear umum?

Jawaban: