Ketika melakukan uji-t, mengapa orang lebih suka mengasumsikan (atau menguji) varian yang sama daripada selalu menggunakan pendekatan Welch dari df?

47

Sepertinya ketika asumsi homogenitas varians terpenuhi bahwa hasil dari uji-t Welch yang disesuaikan dan uji-t standar hampir sama. Mengapa tidak selalu menggunakan t Welch yang disesuaikan?

russellpierce
sumber

Jawaban:

33

Saya ingin menentang dua jawaban lainnya berdasarkan pada sebuah makalah (dalam bahasa Jerman) oleh Kubinger, Rasch dan Moder (2009) .

Mereka berpendapat, berdasarkan simulasi "ekstensif" dari distribusi apakah memenuhi atau tidak memenuhi asumsi yang dipaksakan oleh uji-t, (normalitas dan homogenitas varian) bahwa uji welch berkinerja sama baiknya ketika asumsi dipenuhi (yaitu, pada dasarnya sama probabilitas melakukan kesalahan alfa dan beta) tetapi mengungguli uji-t jika asumsi tidak terpenuhi, terutama dalam hal kekuatan. Oleh karena itu, mereka merekomendasikan untuk selalu menggunakan uji welch jika ukuran sampel melebihi 30.

Sebagai meta-komentar: Bagi orang-orang yang tertarik pada statistik (seperti saya dan mungkin sebagian besar lainnya di sini) argumen yang didasarkan pada data (seperti milik saya) setidaknya harus dihitung secara sama sebagai argumen yang semata-mata didasarkan pada alasan teoritis (seperti yang lainnya di sini).


Pembaruan:
Setelah memikirkan topik ini lagi, saya menemukan dua rekomendasi lebih lanjut yang mana yang lebih baru membantu pendapat saya. Lihatlah makalah asli (yang keduanya, setidaknya bagi saya, tersedia secara bebas) untuk argumen yang mengarah pada rekomendasi ini.

Rekomendasi pertama datang dari Graeme D. Ruxton pada 2006: " Jika Anda ingin membandingkan kecenderungan sentral dari 2 populasi berdasarkan sampel data yang tidak terkait, maka uji t varians yang tidak sama harus selalu digunakan dalam preferensi untuk uji-t Student. atau Mann-Whitney U tes. "
dalam:
Ruxton, GD, 2006. The merata variance t-test adalah alternatif kurang dimanfaatkan untuk tes t dan uji Mann-Whitney U . Behav. Ecol . 17, 688–690.

Rekomendasi kedua (yang lebih tua) dari Coombs et al. (1996, hal. 148): " Singkatnya, uji t sampel independen umumnya dapat diterima dalam hal mengendalikan tingkat kesalahan Tipe I asalkan ada cukup besar sampel berukuran sama, bahkan ketika asumsi varians populasi yang sama dilanggar. Untuk tidak setara sampel berukuran besar, bagaimanapun, alternatif yang tidak mengasumsikan varians populasi yang sama lebih disukai.Gunakan tes orde dua James ketika distribusi baik simetris berekor pendek atau normal. Alternatif yang menjanjikan termasuk tes sarana Wilcox H dan Yuen yang dipangkas, yang menyediakan kontrol yang lebih luas dari tingkat kesalahan Tipe I daripada tes Welch atau James dan memiliki kekuatan lebih besar ketika data berekor panjang. " (penekanan ditambahkan)
Dalam:
Coombs WT, Algina J, Oltman D. 1996. Tes hipotesis omnibus univariat dan multivariat dipilih untuk mengendalikan tingkat kesalahan tipe I ketika varians populasi belum tentu sama . Rev Educ Res 66: 137–79.

Henrik
sumber
3
Meta-response: Poin bagus. Tetapi data Anda mungkin tidak berperilaku seperti milik saya! :-)
whuber
Henrik, maukah Anda mengedit jawaban untuk: (1) mengubah terminologi dengan memanggil tes Student's t-test dan Welch's t-test (seperti yang saya temukan di sebagian besar literatura); (2) termasuk makalah lain yang menyarankannya dalam diskusi: rips-irsp.com/article/10.5334/irsp.82 (ini menekankan bias yang terjadi ketika Anda memilih tes yang didasarkan pada uji homogenitas Levene).
Bruno
13

tentu saja, seseorang dapat membuang kedua tes tersebut, dan mulai menggunakan uji-Bayesian (uji rasio Savage-Dickey), yang dapat menjelaskan varian yang tidak sama dan tidak sama, dan yang paling penting, memungkinkan kuantifikasi bukti yang mendukung hipotesis nol (yang berarti, tidak ada lagi pembicaraan "kegagalan menolak")

Tes ini sangat sederhana (dan cepat) untuk diterapkan, dan ada makalah yang jelas menjelaskan kepada pembaca yang tidak terbiasa dengan statistik Bayesian bagaimana menggunakannya, bersama dengan skrip R. Anda pada dasarnya bisa memasukkan data Anda mengirim perintah ke konsol R:

Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Cara Menghitung Dukungan Untuk dan Melawan Hipotesis Null: Implementasi WinBUGS yang Fleksibel dari uji-t Bayesian Default.

ada juga tutorial untuk semua ini, dengan contoh data:

http://www.ruudwetzels.com/index.php?src=SDtest

Saya tahu ini bukan respons langsung terhadap apa yang ditanyakan, tetapi saya pikir pembaca mungkin menikmati memiliki alternatif yang baik ini

tepuk tangan

Dave Kellen
sumber
8
selalu orang bayesian ini ...
Henrik
3
Alternatif Bayesian lain untuk uji-t adalah rutin Kruschke's BEST (estimasi Bayesian menggantikan uji t). Info lebih lanjut di sini: indiana.edu/~kruschke/BEST . Versi online di sini: sumsar.net/best_online .
Rasmus Bååth
7

Karena hasil yang pasti lebih disukai daripada perkiraan, dan menghindari kasus tepi ganjil di mana perkiraan dapat menyebabkan hasil yang berbeda dari metode yang tepat.

Metode Welch bukan cara yang lebih cepat untuk melakukan uji-t lama, ini merupakan pendekatan yang mudah dilakukan untuk masalah yang sangat sulit: bagaimana membangun uji-t di bawah variasi yang tidak setara. Kasus equal-variance dipahami dengan baik, sederhana, dan tepat, dan karena itu harus selalu digunakan jika memungkinkan.

Kaya
sumber
6
Saya pikir saya cenderung lebih setuju dengan John Tukey - " Jauh lebih baik jawaban perkiraan untuk pertanyaan yang benar, yang sering tidak jelas, daripada jawaban yang tepat untuk pertanyaan yang salah, yang selalu dapat dibuat tepat. "
Glen_b
4
T-test equal-variance (Student) itu sendiri hanyalah perkiraan (kurang dipahami) ketika varians sampel populasi tidak sama. Oleh karena itu, kecuali diketahui bahwa varians populasi sama, lebih baik menggunakan perkiraan untuk distribusi sampling yang benar (Welch-Satterthwaite) daripada menggunakan distribusi akurat yang sempurna yang tidak berlaku untuk model data.
whuber
4

Dua alasan yang dapat saya pikirkan:

  1. T Student reguler cukup kuat untuk heteroskedastisitas jika ukuran sampel sama.

  2. Jika Anda sangat meyakini apriori bahwa datanya adalah homoseks, maka Anda tidak kehilangan apa-apa dan mungkin mendapatkan sejumlah kecil daya dengan menggunakan Stud'ts T dan bukannya Welch's T.

Salah satu alasan yang tidak akan saya berikan adalah bahwa Student's T tepat dan Welch's tidak. IMHO ketepatan Mahasiswa T adalah akademik karena hanya tepat untuk data terdistribusi normal, dan tidak ada data riil persis terdistribusi secara normal. Saya tidak dapat memikirkan kuantitas tunggal yang sebenarnya diukur dan dianalisis secara statistik di mana distribusi secara masuk akal dapat memiliki dukungan dari semua bilangan real. Sebagai contoh, hanya ada begitu banyak atom di alam semesta, dan beberapa jumlah tidak mungkin negatif. Karena itu, ketika Anda menggunakan segala jenis T-test pada data nyata, Anda membuat perkiraan bagaimanapun.

dsimcha
sumber
2
(1) salah ketika varians populasi yang mendasari sangat berbeda. Sebagai kasus ekstrim - untuk melihat mengapa demikian - pertimbangkan apa yang terjadi ketika satu populasi tidak memiliki varian sama sekali. Siswa t pada dasarnya akan membandingkan data dari populasi lain dengan sebuah konstanta, tetapi akan berpikir itu memiliki dua kali lebih banyak derajat kebebasan. Kesalahan yang dibuatnya akan sebanding dengan hanya menggunakan tes Z.
whuber
Walaupun ini benar @whuber hanya untuk kasus yang sangat ekstrim. Saya hanya melihat perbedaan varian 1e6: 1 dan p ≈ .053. Jadi itu bisa terjadi tetapi saya masih berpendapat itu cukup kuat dengan N. yang sama.
John
@ John A 1e6: 1 rasio varian sangat besar , apa pun . Pelajar cenderung menyesatkan dalam kasus itu. ni
Whuber
@whuber, saya hanya menyarankan bahwa sementara komentar Anda di atas secara teknis benar, koreksi Welch bukan solusi untuk masalah yang Anda ajukan sebagai contoh dan itu bahkan tidak benar-benar sangat kritis terhadap kekokohan pengujian dalam hal tingkat alfa (yang artinya (1) biasanya berarti). Seperti yang Anda sarankan, ketika varians (ekstrem) tidak sama adalah masalah Anda punya masalah lain, tapi itu benar-benar topik yang berbeda.
John
3

Fakta bahwa sesuatu yang lebih kompleks berkurang menjadi sesuatu yang kurang kompleks ketika beberapa asumsi diperiksa tidak cukup untuk membuang metode yang lebih sederhana.


sumber
4
Terutama di mana siswa terlibat.
Matt Parker
2

Saya akan mengambil pandangan sebaliknya di sini. Mengapa repot-repot dengan tes Welch ketika uji t siswa berpasangan standar memberi Anda hasil yang hampir identik. Saya mempelajari masalah ini beberapa waktu lalu dan saya menjelajahi berbagai skenario dalam upaya untuk memecahkan tes t dan mendukung tes Welch. Untuk melakukannya saya menggunakan ukuran sampel hingga 5 kali lebih besar untuk satu kelompok dibandingkan yang lain. Dan, saya menjelajahi varian hingga 25 kali lebih besar untuk satu kelompok vs yang lain. Dan, itu benar-benar tidak membuat perbedaan materi. Uji t tidak berpasangan masih menghasilkan kisaran nilai p yang hampir identik dengan tes Welch.

Anda dapat melihat pekerjaan saya di tautan berikut dan fokus terutama pada slide 5 dan 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family

Sympa
sumber
Maaf, perbedaan apa yang Anda buat antara rumus sampel besar dan rumus sampel kecil? Apakah Anda menghitung varians menggunakan rumus populasi dalam sampel besar daripada menggunakan perkiraan sampel varians populasi?
russellpierce
Tes t siswa yang tidak berpasangan memiliki dua rumus. Rumus sampel besar diterapkan pada sampel dengan lebih dari 30 pengamatan. Formula sampel kecil diterapkan pada sampel dengan kurang dari 30 pengamatan. Perbedaan utama dalam formula tersebut adalah bagaimana mereka menghitung kesalahan standar gabungan. Rumus sampel kecil jauh lebih rumit dan berlawanan dengan intuisi. Dan, pada kenyataannya itu benar-benar membuat perbedaan yang sangat kecil. Saya telah menguji itu beberapa kali. Itu sebabnya saya pikir kebanyakan orang lupa tentang perbedaan ini. Dan, mereka menggunakan sebagian besar waktu formula sampel besar.
Sympa
0

Memang benar bahwa sifat-sifat yang sering dari tes terkoreksi Welch lebih baik daripada T Student biasa, setidaknya untuk kesalahan. Saya setuju bahwa itu saja adalah argumen yang cukup bagus untuk tes Welch. Namun, saya biasanya enggan merekomendasikan koreksi Welch karena penggunaannya sering menipu. Yang, diakui bukan kritik terhadap tes itu sendiri.

Alasan saya tidak merekomendasikan koreksi Welch adalah karena itu tidak hanya mengubah derajat kebebasan dan distribusi teoritis selanjutnya dari mana nilai p diambil. Itu membuat tes non-parametrik. Untuk melakukan uji t dikoreksi Welch satu masih mengumpulkan varians seolah-olah varians yang sama dapat diasumsikan tetapi kemudian mengubah prosedur pengujian akhir menyiratkan baik bahwa varians yang sama tidak dapat diasumsikan, atau bahwa Anda hanya peduli dengan varians sampel. Ini membuatnya menjadi tes non-parametrik karena varians yang dikumpulkan dianggap non-representatif dari populasi dan Anda mengakui bahwa Anda hanya menguji nilai yang diamati.

Tidak ada yang salah dengan hal itu. Namun, saya menganggapnya menipu karena a) biasanya tidak dilaporkan dengan cukup spesifik; dan b) orang yang menggunakannya cenderung memikirkannya secara bergantian dengan uji-t. Satu-satunya cara saya tahu bahwa itu telah dilakukan di koran yang diterbitkan adalah ketika saya melihat DF aneh untuk distribusi-t. Itu juga satu-satunya cara Rexton (direferensikan dalam jawaban Henrik) bisa tahu dalam ulasan. Sayangnya, sifat non-parametrik dari uji koreksi Welch terjadi apakah derajat kebebasan telah berubah atau tidak (yaitu bahkan jika varians sampel sama). Tetapi masalah pelaporan ini merupakan gejala fakta bahwa sebagian besar orang yang menggunakan koreksi Welch tidak mengenali perubahan ini pada pengujian yang telah terjadi.

Oleh karena itu, karena ini, saya percaya bahwa jika Anda akan merekomendasikan tes non-parametrik jangan gunakan yang sering muncul parametrik atau setidaknya sangat jelas tentang apa yang Anda lakukan. Nama resmi tes harus T-test Non-Parametrik Welch Dikoreksi. Jika orang melaporkannya seperti itu, saya akan jauh lebih bahagia dengan rekomendasi Henrik.

John
sumber
Saya tidak dapat menemukan dukungan apa pun dalam jawaban Anda mengapa tes Welch mungkin "menipu." Bisakah Anda menjelaskan dasar untuk itu?
whuber
Mungkin suntingan saya menjelaskan hal-hal @whuber. Saya seharusnya sudah jelas bahwa itu tidak dijamin menipu tetapi seringkali bagi pengguna tes dan pembaca hasil tes.
John
1
Terima kasih. Terlepas dari masalah pelaporan - yang tidak adil untuk dikategorikan sebagai kesalahan dalam pengujian! - ini tampaknya mengarah pada semacam keberatan di pihak Anda bahwa tes Welch adalah non-parametrik. Apa yang mungkin terjadi dengan itu? Ceteris paribus , yang harus dianggap sebagai keuntungan, bukan masalah.
whuber
1
Ini perbedaan yang umumnya tidak dijelaskan. Saya mengakui dalam jawaban bahwa itu bukan masalah, tetapi kebanyakan orang cenderung memperlakukannya secara parametrik, yang merupakan kesalahan. Saya tidak berpikir di sini adalah tempat untuk berdiskusi tentang manfaat atau biaya pengujian non-parametrik. Juga, itu tidak disebutkan di utas dan mungkin menjadi masalah bagi banyak orang. Sebagai tambahan, dua kelas statistik intro kami mengajarkannya secara paralel dengan uji-t Student, dan mempromosikannya, tetapi memiliki bagian terpisah secara keseluruhan pada tes non-parametrik.
John
Bisakah Anda mengklarifikasi apa yang Anda maksud dengan "membuat tes nonparametrik"?
Glen_b