Jika uji-t dan ANOVA untuk dua kelompok adalah setara, mengapa asumsi mereka tidak sama?

47

Saya yakin saya sudah membungkus ini sepenuhnya di kepala saya, tetapi saya tidak bisa memahaminya.

Uji-t membandingkan dua distribusi normal menggunakan distribusi Z. Itu sebabnya ada asumsi normalitas dalam DATA.

ANOVA setara dengan regresi linier dengan variabel dummy, dan menggunakan jumlah kuadrat, sama seperti OLS. Itu sebabnya ada asumsi normalitas RESIDUAL.

Butuh beberapa tahun, tapi saya pikir saya akhirnya memahami fakta-fakta dasar itu. Jadi mengapa uji-t setara dengan ANOVA dengan dua kelompok? Bagaimana mereka bisa setara jika mereka bahkan tidak menganggap hal yang sama tentang data?

Chris Beeley
sumber
15
Satu poin: uji-t menggunakan distribusi t, bukan distribusi Z
Jeromy Anglim
1
Meskipun pertanyaannya tidak benar, itu sangat berguna. Juga, saya pikir menyebutkan "uji dua sisi" di suatu tempat akan membuat pertanyaan / jawaban lebih lengkap.
Gaurav Singhal

Jawaban:

29

Uji-t dengan dua kelompok mengasumsikan bahwa masing-masing kelompok terdistribusi normal dengan varians yang sama (walaupun cara mungkin berbeda di bawah hipotesis alternatif). Itu setara dengan regresi dengan variabel dummy karena regresi memungkinkan rata-rata setiap kelompok berbeda tetapi tidak varians. Karenanya residual (sama dengan data dengan kelompok berarti dikurangi) memiliki distribusi yang sama --- yaitu, mereka biasanya didistribusikan dengan rata-rata nol.

Uji-t dengan varian yang tidak sama tidak sama dengan ANOVA satu arah.

Rob Hyndman
sumber
3
Saya dapat melihat kutipan, tetapi ini cukup mudah untuk menguji secara empiris. F dari ANOVA dengan dua grup persis sama dengan t ^ 2 dan nilai-p akan sama persis. Satu-satunya alasan itu tidak akan setara dalam kasus varians yang tidak sama adalah jika Anda menerapkan koreksi. Kalau tidak, mereka sama saja.
Brett
3
Uji-F adalah generalisasi uji t. t-test adalah untuk 2 perbandingan perawatan dan uji F untuk beberapa perawatan. Derivasinya adalah dalam Desain Statistik Casella, Bab 3 dan 4. Namun, seperti yang Prof. Hyndman tunjukkan, dengan varian yang tidak sama, ini bukan uji-t lagi. Ini adalah masalah Fisher Behren. Kami umumnya tidak menggunakan solusi Fisher, melainkan menggunakan Welch's Test atau pendekatan Bayesian.
suncoolsu
Uji-t dua sampel dengan ragam yang tidak sama memang sama dengan ANOVA satu arah dengan dua kelompok. Mungkin yang Anda maksudkan adalah bahwa uji-t yang menggunakan koreksi untuk varian yang tidak sama (yaitu Welch) tidak sama dengan ANOVA satu arah yang tidak diperbaiki (meskipun mengapa demikian)?
Brett
20

Uji-t hanyalah kasus khusus uji-F di mana hanya dua kelompok yang dibandingkan. Hasil dari keduanya akan persis sama dalam hal nilai-p dan ada hubungan sederhana antara statistik F dan t juga. F = t ^ 2. Kedua tes ini setara secara aljabar dan asumsi mereka sama.

Bahkan, persamaan ini meluas ke seluruh kelas ANOVA, uji-t, dan model regresi linier. Uji-t adalah kasus khusus ANOVA. ANOVA adalah kasus regresi khusus. Semua prosedur ini dimasukkan dalam Model Linier Umum dan memiliki asumsi yang sama.

  1. Independensi pengamatan.
  2. Normalitas residual = normalitas pada setiap kelompok dalam kasus khusus.
  3. Persamaan varians residual = varians sama di seluruh kelompok dalam kasus khusus.

Anda mungkin menganggapnya sebagai normalitas dalam data, tetapi Anda memeriksa normalitas di setiap grup - yang sebenarnya sama dengan memeriksa normalitas dalam residu ketika satu-satunya prediktor dalam model adalah indikator grup. Begitu juga dengan varian yang sama.

Selain itu, R tidak memiliki rutinitas terpisah untuk ANOVA. Fungsi anova dalam R hanyalah pembungkus untuk fungsi lm () - hal yang sama yang digunakan agar sesuai dengan model regresi linier - dikemas sedikit berbeda untuk memberikan apa yang biasanya ditemukan dalam ringkasan ANOVA daripada ringkasan regresi.

Brett
sumber
Akan tertarik untuk mengetahui cara menyesuaikan tindakan yang diulang model ANOVA menggunakan lm.
AndyF
1
Masalah pengkodean variabel kategori, ekuivalensi model regresi dan ANOVA, dan kode regresi untuk tindakan berulang dijelaskan dalam artikel ini. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Ini kutipannya ... Wendorf, CA (2004). Primer pada pengkodean regresi berganda: Bentuk umum dan kasus tambahan dari kontras berulang. Memahami Statistik 3, 47-57.
Brett
4
@AndyF Tidak lm(), kecuali Anda pindah ke model campuran dengan paket nlmeatau lme4, tetapi ada cara praktis untuk menangani pengukuran berulang melalui spesifikasi Erroristilah yang sesuai di aov(), lihat rincian lebih lanjut tentang tutorial Baron & Li, §6.9, j.mp/ c5ME4u
chl
@AndyF aov()dibangun di atas lm()fungsi tetapi termasuk argumen tambahan , seperti istilah khusus , seperti Error.
chl
aov () hanyalah sebuah pembungkus untuk lm (). Itu beberapa pengkodean kontras di belakang layar dan paket hasilnya dalam gaya ANOVA. Semua itu dimodelkan oleh lm (). Dalam artikel yang saya referensikan di atas, ini memberi tahu Anda cara mengatur pengkodean untuk melakukan kontras berulang dalam model regresi, termasuk lm ().
Brett
17

Saya setuju sepenuhnya dengan jawaban Rob, tetapi izinkan saya mengatakannya dengan cara lain (menggunakan wikipedia):

Asumsi ANOVA :

  • Independensi kasus - ini adalah asumsi model yang menyederhanakan analisis statistik.
  • Normalitas - distribusi residu adalah normal.
  • Kesetaraan (atau "homogenitas") dari varian, disebut homoscedasticity

Uji-t asumsi :

  • Masing-masing dari dua populasi yang dibandingkan harus mengikuti distribusi normal ...
  • ... dua populasi yang dibandingkan harus memiliki varian yang sama ...
  • Data yang digunakan untuk melakukan tes harus disampel secara terpisah dari dua populasi yang dibandingkan.

Oleh karena itu, saya akan membantah pertanyaan itu, karena mereka jelas memiliki asumsi yang sama (walaupun dalam urutan yang berbeda :-)).

Henrik
sumber
Lihat komentar untuk Rob.
Alexis
@Alexis Saya tidak yakin saya mengerti downvote Anda. Peduli untuk menguraikan.
Henrik
Asumsi uji t kedua tidak benar. Karya asli siswa melalui asumsi ini, tetapi "varian yang tidak sama" adalah asumsi yang cukup umum dalam perawatan tes nanti.
Alexis
5

Satu hal yang jelas yang diabaikan oleh semua orang: Dengan ANOVA Anda menguji nol bahwa rata-rata identik terlepas dari nilai variabel penjelas Anda. Dengan Uji-T Anda juga dapat menguji kasing satu sisi, bahwa rerata lebih khusus diberikan satu nilai dari variabel penjelas Anda dari pada yang lain.

dsimcha
sumber
1
Kecuali saya salah, ini BUKAN perbedaan. Jika Anda melakukan ANOVA pada dua kelompok, maka Anda dapat melakukan "tes satu sisi" seperti yang Anda lakukan dalam uji-t. Saya memasukkan "tes satu sisi" dalam tanda kutip karena sebenarnya tidak ada perbedaan dalam "tes" antara "tes satu sisi" dan "tes dua sisi". Satu-satunya perbedaan adalah bagaimana Anda menginterpretasikan signifikansi statistik dari nilai-p. Jadi "tes" satu sisi vs dua sisi adalah "tes" yang persis sama. Hanya cara untuk menginterpretasikan hasil dengan benar berbeda.
Tripartio
-3

Saya akan lebih suka menggunakan uji-t untuk membandingkan dua kelompok dan akan menggunakan ANOVA untuk lebih dari 2 kelompok, karena alasan. Alasan penting adalah asumsi varian yang sama.

Syed
sumber
5
Selamat datang di situs ini, @syed. Maukah Anda memperluas jawaban Anda? Misalnya, "alasan" apa yang Anda maksud? Perhatikan bahwa kedua uji-t & ANOVA mengasumsikan varian yang sama.
gung - Reinstate Monica