Saya telah membaca bahwa uji- t adalah "cukup kuat" ketika distribusi sampel berangkat dari normalitas. Tentu saja, distribusi sampling dari perbedaan itulah yang penting. Saya punya data untuk dua kelompok. Salah satu kelompok sangat condong pada variabel dependen. Ukuran sampel cukup kecil untuk kedua kelompok (n = 33 di satu dan 45 di yang lain). Haruskah saya berasumsi bahwa, di bawah kondisi ini, saya t -test akan kuat untuk pelanggaran asumsi normalitas?
t-test
assumptions
normality-assumption
robust
Archaeopteryx
sumber
sumber
Jawaban:
Pertanyaan tentang ketahanan sangat sulit untuk dijawab dengan baik - karena asumsi dapat dilanggar dalam banyak hal, dan dalam setiap cara berbeda derajat. Pekerjaan simulasi hanya dapat mencicipi sebagian kecil dari kemungkinan pelanggaran.
Mengingat keadaan komputasi, saya pikir itu adalah sering layak waktu untuk menjalankan kedua sebuah parametrik dan uji non-parametrik, jika keduanya tersedia. Anda kemudian dapat membandingkan hasilnya.
Jika Anda benar-benar ambisius, Anda bahkan bisa melakukan tes permutasi.
Bagaimana jika Alan Turing telah melakukan pekerjaannya sebelum Ronald Fisher melakukannya? :-).
sumber
@PeterFlom memukul kuku mati dengan kalimat pertamanya.
Saya akan mencoba memberikan ringkasan kasar tentang studi apa yang telah saya lihat (jika Anda ingin tautan mungkin perlu waktu):
Secara keseluruhan, dua sampel t-test cukup kuat untuk simetris non-normalitas (tipe-I-error-rate sebenarnya dipengaruhi agak oleh kurtosis, kekuatan dipengaruhi sebagian besar oleh itu).
Ketika kedua sampel sedikit condong ke arah yang sama, uji satu arah tidak lagi tidak bias. Statistik-t condong berlawanan dengan distribusi, dan memiliki kekuatan lebih jika tes di satu arah daripada jika di lain. Jika mereka condong ke arah yang berlawanan, tingkat kesalahan tipe I dapat sangat terpengaruh.
Kecondongan berat dapat memiliki dampak yang lebih besar, tetapi secara umum, kemiringan sedang dengan tes dua sisi tidak terlalu buruk jika Anda tidak keberatan dengan ujian Anda pada dasarnya mengalokasikan lebih banyak kekuatannya ke satu arah yang lain.
Singkatnya - uji-dua-ekor dua-sampel cukup kuat untuk hal-hal semacam itu jika Anda dapat mentolerir beberapa dampak pada tingkat signifikansi dan beberapa bias ringan.
Ada banyak, banyak, cara untuk distribusi menjadi tidak normal, yang tidak tercakup oleh komentar tersebut.
sumber
@PeterFlom telah menyebutkan bahwa studi simulasi tidak pernah dapat mencakup semua skenario dan kemungkinan dan oleh karena itu tidak dapat menghasilkan jawaban yang pasti. Namun, saya masih merasa berguna untuk benar-benar mengeksplorasi masalah seperti ini dengan melakukan beberapa simulasi (ini juga merupakan jenis latihan yang saya suka gunakan ketika memperkenalkan gagasan studi simulasi Monte Carlo kepada siswa). Jadi, mari kita coba ini. Saya akan menggunakan R untuk ini.
Kode
Penjelasan
Pertama-tama kita mengatur ukuran grup (
n1
dann2
), grup sebenarnya berarti (mu1
danmu2
), dan standar deviasi yang sebenarnya (sd1
dansd2
).Kemudian kita mendefinisikan jumlah iterasi untuk dijalankan dan mengatur vektor untuk menyimpan nilai-p di.
Lalu saya mensimulasikan data dalam 5 skenario:
Perhatikan bahwa saya menggunakan distribusi chi-squared untuk menghasilkan distribusi miring. Dengan satu derajat kebebasan, itu adalah distribusi yang sangat miring. Karena mean dan varian sebenarnya dari distribusi chi-kuadrat dengan satu derajat kebebasan adalah sama dengan 1 dan 2, masing-masing ( lihat wikipedia ), saya mengubah skala distribusi yang pertama memiliki mean 0 dan standar deviasi 1 dan kemudian skala ulang mereka untuk memiliki rata-rata sejati yang diinginkan dan standar deviasi (ini bisa dilakukan dalam satu langkah, tetapi melakukannya dengan cara ini mungkin lebih jelas).
Dalam setiap kasus, saya menerapkan uji-t (versi Welch - tentu saja orang juga dapat mempertimbangkan versi Siswa yang mengasumsikan varians yang sama dalam dua kelompok) dan menyimpan nilai p ke vektor yang diatur sebelumnya.
Akhirnya, setelah semua iterasi selesai, saya menghitung untuk setiap vektor seberapa sering nilai-p sama dengan atau di bawah 0,05 (yaitu, tes ini "signifikan"). Ini adalah tingkat penolakan empiris.
Beberapa hasil
Simulasi persis seperti yang dijelaskan di atas:
Jika kami mengubah kode
mu1 <- .5
, maka kami mendapatkan:Jadi, dibandingkan dengan kasus di mana kedua distribusi normal (seperti yang diasumsikan oleh tes), daya sebenarnya tampak sedikit lebih tinggi ketika kemiringan berada pada arah yang sama! Jika Anda terkejut dengan ini, Anda mungkin ingin mengulang ini beberapa kali (tentu saja, setiap kali mendapatkan hasil yang sedikit berbeda), tetapi polanya akan tetap ada.
Perhatikan bahwa kita harus berhati-hati dengan menafsirkan nilai daya empiris di bawah dua skenario di mana kemiringannya berada di arah yang berlawanan, karena tingkat kesalahan Tipe I tidak cukup nominal (sebagai kasus ekstrem, misalkan saya selalu menolak terlepas dari apa data tersebut menunjukkan; maka saya akan selalu memiliki tes dengan kekuatan maksimal, tetapi tentu saja tes ini juga memiliki tingkat kesalahan Tipe I agak meningkat).
Seseorang dapat mulai mengeksplorasi serangkaian nilai untuk
mu1
(danmu2
- tetapi yang paling penting adalah perbedaan antara keduanya) dan, yang lebih penting, mulai mengubah standar deviasi sebenarnya dari kedua kelompok (yaitu,sd1
dansd2
) dan terutama membuatnya tidak setara. Saya juga terjebak dengan ukuran sampel yang disebutkan oleh OP, tetapi tentu saja itu bisa disesuaikan juga. Dan kemiringan tentu saja dapat mengambil banyak bentuk selain dari yang kita lihat dalam distribusi chi-square dengan satu derajat kebebasan. Saya masih berpikir mendekati hal-hal dengan cara ini berguna, meskipun fakta bahwa itu tidak dapat menghasilkan jawaban yang pasti.sumber
Dalam situasi Anda, uji-t kemungkinan akan kuat dalam hal tingkat kesalahan Tipe I, tetapi bukan tingkat kesalahan Tipe II. Anda mungkin akan mencapai lebih banyak kekuatan melalui a) tes Kruskal-Wallis, atau b) transformasi normalisasi sebelum uji-t.
Saya mendasarkan kesimpulan ini pada dua studi Monte Carlo. Dalam yang pertama ( Khan & Rayner, 2003 ), kemiringan dan kurtosis secara tidak langsung dimanipulasi melalui parameter keluarga distribusi g-dan-k, dan kekuatan yang dihasilkan diperiksa. Yang penting, kekuatan uji Kruskal-Wallis kurang rusak oleh non-normalitas, terutama untuk n> = 15.
Beberapa peringatan / kualifikasi tentang penelitian ini: Kekuasaan sering dirugikan oleh kurtosis tinggi, tetapi kurang dipengaruhi oleh kemiringan. Pada pandangan pertama, pola ini mungkin tampak kurang relevan dengan situasi Anda mengingat Anda mencatat masalah dengan kemiringan, bukan kurtosis. Namun, saya bertaruh bahwa kelebihan kurtosis juga ekstrem dalam kasus Anda. Ingatlah bahwa kelebihan kurtosis setidaknya akan setinggi kemiringan ^ 2 - 2. (Biarkan kelebihan kurtosis sama dengan momen standar ke-4 minus 3, sehingga kurtosis berlebih = 0 untuk distribusi normal.) Perhatikan juga bahwa Khan dan Rayner ( 2003) memeriksa ANOVA dengan 3 kelompok, tetapi hasilnya cenderung digeneralisasi menjadi uji-t dua sampel.
Studi relevan kedua ( Beasley, Erikson, & Allison, 2009)) memeriksa kedua Tipe I dan Tipe II kesalahan dengan berbagai distribusi tidak normal, seperti Chi-squared (1) dan Weibull (1, .5). Untuk ukuran sampel minimal 25, uji-t cukup mengendalikan tingkat kesalahan Tipe I pada atau di bawah tingkat alpha nominal. Namun, daya tertinggi dengan tes Kruskal-Wallis atau dengan transformasi Inverse Normal berbasis peringkat (skor Blom) yang diterapkan sebelum uji-t. Beasley dan rekan umumnya menentang pendekatan normalisasi, tetapi harus dicatat bahwa pendekatan normalisasi mengendalikan tingkat kesalahan Tipe I untuk n> = 25, dan kekuatannya kadang-kadang sedikit melebihi dari uji Kruskal-Wallis. Artinya, pendekatan normalisasi tampaknya menjanjikan untuk situasi Anda. Lihat tabel 1 dan 4 di artikel mereka untuk detailnya.
Referensi:
Khan, A., & Rayner, GD (2003) . Keteguhan untuk tidak normal dari tes umum untuk masalah lokasi banyak sampel. Jurnal Matematika Terapan dan Ilmu Keputusan, 7 , 187-206.
Beasley, TM, Erickson, S., & Allison, DB (2009) . Transformasi normal kebalikan berbasis peringkat semakin banyak digunakan, tetapi apakah itu pantas? Genetika Perilaku, 39 , 580-595.
sumber
Pertama-tama, jika Anda berasumsi bahwa distribusi kedua sampel berbeda, pastikan Anda menggunakan uji-t versi Welch yang mengasumsikan varians yang tidak sama antara kelompok. Setidaknya ini akan mencoba menjelaskan beberapa perbedaan yang terjadi karena distribusi.
Jika kita melihat rumus untuk uji-t Welch:
kita dapat melihat bahwa setiap kali ada s kita tahu varians sedang diperhitungkan. Mari kita bayangkan bahwa kedua varians sebenarnya sama, tetapi satu condong, mengarah ke estimasi varians yang berbeda. Jika estimasi varians ini tidak benar-benar mewakili data Anda karena condong, maka efek bias sebenarnya pada dasarnya akan menjadi akar kuadrat dari bias yang dibagi dengan jumlah titik data yang digunakan untuk menghitungnya. Dengan demikian efek dari estimator buruk varians sedikit teredam oleh akar kuadrat dan n yang lebih tinggi, dan itu mungkin sebabnya konsensus adalah bahwa itu tetap merupakan tes yang kuat.
Masalah lain dari distribusi miring adalah bahwa perhitungan rata-rata juga akan terpengaruh, dan ini mungkin di mana masalah nyata pelanggaran asumsi uji adalah karena cara yang relatif sensitif terhadap kemiringan. Dan kekokohan tes dapat ditentukan secara kasar dengan menghitung selisih rata-rata, dibandingkan dengan selisih median (sebagai ide). Mungkin Anda bahkan bisa mencoba mengganti selisih rata-rata dengan selisih median dalam uji-t sebagai ukuran yang lebih kuat (saya yakin seseorang telah membahas ini, tetapi saya tidak dapat menemukan sesuatu di google dengan cepat untuk ditautkan).
Saya juga menyarankan menjalankan tes permutasi jika semua yang Anda lakukan adalah uji-t. Tes permutasi adalah tes yang tepat, independen dari asumsi distribusi. Yang paling penting, tes permutasi dan uji-t akan menghasilkan hasil yang identik jika asumsi uji parametrik terpenuhi . Oleh karena itu, ukuran ketahanan yang Anda cari bisa 1 - perbedaan antara permutasi dan nilai-uji p, di mana skor 1 menunjukkan ketahanan sempurna dan 0 berarti tidak kuat sama sekali.
sumber