Seberapa kuat uji-t sampel independen ketika distribusi sampel tidak normal?

24

Saya telah membaca bahwa uji- t adalah "cukup kuat" ketika distribusi sampel berangkat dari normalitas. Tentu saja, distribusi sampling dari perbedaan itulah yang penting. Saya punya data untuk dua kelompok. Salah satu kelompok sangat condong pada variabel dependen. Ukuran sampel cukup kecil untuk kedua kelompok (n = 33 di satu dan 45 di yang lain). Haruskah saya berasumsi bahwa, di bawah kondisi ini, saya t -test akan kuat untuk pelanggaran asumsi normalitas?

Archaeopteryx
sumber
3
"Tentu saja, itu distribusi sampling dari perbedaan yang penting" - Perbedaan dalam apa? Saya tergoda untuk mengedit ini dari pertanyaan karena saya khawatir itu menyesatkan pembaca masa depan (dan singgung poin utama). Pikiran pertama saya adalah itu adalah referensi yang salah untuk uji- t berpasangan , di mana kami menganggap perbedaan antara pasangan adalah normal, tetapi itu tidak berlaku dalam tes sampel independen. Kami bahkan tidak memiliki pasangan yang berbeda! Mungkin "perbedaan cara" dimaksudkan? Sisa Q menganggap normalitas dari dua sampel, bukan perbedaan.
Silverfish
Pertanyaan tentang bagaimana kuat yang t -test adalah untuk pelanggaran tersebut adalah salah satu yang penting dan sah. Tetapi masalah terkait adalah bahwa memeriksa pelanggaran dalam data Anda terlebih dahulu, dan baru kemudian memutuskan apakah akan menerapkan uji- t atau beberapa tes alternatif, tidak disarankan. Prosedur multi-langkah seperti itu memiliki karakteristik operasi yang tidak pasti. Lihat utas ini: Metode berprinsip untuk memilih antara uji t atau non-parametrik misalnya Wilcoxon dalam sampel kecil
Silverfish
Apa sumber yang kredibel? (Saya rasa kita berdua sepakat tidak ada yang namanya sumber resmi). Apakah kita melihat kekuatan-tingkat atau juga kekuatan? Dan jika 'juga kekuatan' ... alternatif apa yang sedang kita bicarakan ?
Glen_b -Reinstate Monica
@Glen_b Maaf, pesan hadiah "sumber resmi" jelas lebih untuk StackOverflow! Saya hanya merasa utas ini praktis penting (ditambah lalu lintas yang cukup tinggi & buruk di Wikipedia) untuk mendapat beberapa kutipan. Templat karunia "jawaban kanonik" tidak sesuai dengan yang ditunjukkan oleh jawaban Peter Flom dengan jelas. Saya merasa ada "badan pengetahuan umum" tentang topik ini - jika saya ditanyai begitu saja, daftar saya akan mirip dengan Dallal (saya akan menambahkan kurtosis, tetapi tidak memberanikan ukuran sampel yang sama) melindungi vs umum non-normalitas)
Silverfish
@ Glen_b Jawaban Anda menggali nada yang sama sehingga sepertinya ada beberapa poin dasar yang diketahui / diterima secara luas. Gelar saya mencakup asumsi tetapi bukan konsekuensi dari pelanggaran: pengetahuan saya diambil dari beragam sumber, bit dan bobs yang berserakan ("statistik untuk psikolog" jenis buku dapat lebih memperhatikan konsekuensi daripada banyak teks teori statistik) - kalau tidak saya akan memposting jawaban bukan hadiah! Jika ada yang tahu ringkasan satu halaman yang layak di buku teks yang bagus, itu tidak masalah. Jika itu adalah beberapa makalah dengan hasil simulasi, itu bagus juga. Apa pun yang dapat dirujuk dan dikutip oleh pembaca di masa depan.
Silverfish

Jawaban:

16

Pertanyaan tentang ketahanan sangat sulit untuk dijawab dengan baik - karena asumsi dapat dilanggar dalam banyak hal, dan dalam setiap cara berbeda derajat. Pekerjaan simulasi hanya dapat mencicipi sebagian kecil dari kemungkinan pelanggaran.

Mengingat keadaan komputasi, saya pikir itu adalah sering layak waktu untuk menjalankan kedua sebuah parametrik dan uji non-parametrik, jika keduanya tersedia. Anda kemudian dapat membandingkan hasilnya.

Jika Anda benar-benar ambisius, Anda bahkan bisa melakukan tes permutasi.

Bagaimana jika Alan Turing telah melakukan pekerjaannya sebelum Ronald Fisher melakukannya? :-).

Peter Flom - Pasang kembali Monica
sumber
1
Peter, Anda telah mengilhami saya untuk menulis fiksi sejarah untuk menjawab pertanyaan itu!
Sycorax mengatakan Reinstate Monica
12

@PeterFlom memukul kuku mati dengan kalimat pertamanya.

Saya akan mencoba memberikan ringkasan kasar tentang studi apa yang telah saya lihat (jika Anda ingin tautan mungkin perlu waktu):

Secara keseluruhan, dua sampel t-test cukup kuat untuk simetris non-normalitas (tipe-I-error-rate sebenarnya dipengaruhi agak oleh kurtosis, kekuatan dipengaruhi sebagian besar oleh itu).

Ketika kedua sampel sedikit condong ke arah yang sama, uji satu arah tidak lagi tidak bias. Statistik-t condong berlawanan dengan distribusi, dan memiliki kekuatan lebih jika tes di satu arah daripada jika di lain. Jika mereka condong ke arah yang berlawanan, tingkat kesalahan tipe I dapat sangat terpengaruh.

Kecondongan berat dapat memiliki dampak yang lebih besar, tetapi secara umum, kemiringan sedang dengan tes dua sisi tidak terlalu buruk jika Anda tidak keberatan dengan ujian Anda pada dasarnya mengalokasikan lebih banyak kekuatannya ke satu arah yang lain.

Singkatnya - uji-dua-ekor dua-sampel cukup kuat untuk hal-hal semacam itu jika Anda dapat mentolerir beberapa dampak pada tingkat signifikansi dan beberapa bias ringan.

Ada banyak, banyak, cara untuk distribusi menjadi tidak normal, yang tidak tercakup oleh komentar tersebut.

Glen_b -Reinstate Monica
sumber
Saya tidak yakin itu benar untuk mengatakan itu cukup kuat! Ini adalah level-robust yang masuk akal, level signifikansi akan kira-kira benar, tetapi misalnya tes wilcoxon dapat memiliki daya yang jauh lebih tinggi untuk alternatif yang mendekati normalitas sehingga sulit dideteksi. Ini juga tergantung pada faktor-faktor seperti jika ada jumlah pengamatan yang sama di setiap kelompok: kekokohan jauh lebih rapuh dalam kasus yang tidak sama!
kjetil b halvorsen
1
@kjetilbhalvorsen Studi yang telah saya lihat - termasuk beberapa simulasi yang telah saya lakukan sendiri (dan saya belum melihat apa pun untuk sementara waktu; Anda mungkin telah melihat sesuatu yang belum saya miliki), sebagian besar efek pada daya tampak untuk sebagian besar mendorong level naik dan turun (yang tidak mempengaruhi Wilcoxon). Mengingat sifat daya Wilcoxon yang umumnya baik dalam keadaan ini (terutama dengan ekor besar), itu sudah cukup untuk membuat Wilcoxon menang dalam kekuasaan - jika Anda menyesuaikan levelnya sehingga sama, itu mengejutkan saya betapa baiknya t-sering melakukan.
Glen_b -Reinstate Monica
7

@PeterFlom telah menyebutkan bahwa studi simulasi tidak pernah dapat mencakup semua skenario dan kemungkinan dan oleh karena itu tidak dapat menghasilkan jawaban yang pasti. Namun, saya masih merasa berguna untuk benar-benar mengeksplorasi masalah seperti ini dengan melakukan beberapa simulasi (ini juga merupakan jenis latihan yang saya suka gunakan ketika memperkenalkan gagasan studi simulasi Monte Carlo kepada siswa). Jadi, mari kita coba ini. Saya akan menggunakan R untuk ini.

Kode

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Penjelasan

  1. Pertama-tama kita mengatur ukuran grup ( n1dan n2), grup sebenarnya berarti ( mu1dan mu2), dan standar deviasi yang sebenarnya ( sd1dan sd2).

  2. Kemudian kita mendefinisikan jumlah iterasi untuk dijalankan dan mengatur vektor untuk menyimpan nilai-p di.

  3. Lalu saya mensimulasikan data dalam 5 skenario:

    1. Kedua distribusi normal.
    2. Kedua distribusi miring ke kanan.
    3. Kedua distribusi condong ke kiri.
    4. Distribusi pertama condong ke kiri, yang kedua ke kanan.
    5. Distribusi pertama condong ke kanan, yang kedua ke kiri.

    Perhatikan bahwa saya menggunakan distribusi chi-squared untuk menghasilkan distribusi miring. Dengan satu derajat kebebasan, itu adalah distribusi yang sangat miring. Karena mean dan varian sebenarnya dari distribusi chi-kuadrat dengan satu derajat kebebasan adalah sama dengan 1 dan 2, masing-masing ( lihat wikipedia ), saya mengubah skala distribusi yang pertama memiliki mean 0 dan standar deviasi 1 dan kemudian skala ulang mereka untuk memiliki rata-rata sejati yang diinginkan dan standar deviasi (ini bisa dilakukan dalam satu langkah, tetapi melakukannya dengan cara ini mungkin lebih jelas).

  4. Dalam setiap kasus, saya menerapkan uji-t (versi Welch - tentu saja orang juga dapat mempertimbangkan versi Siswa yang mengasumsikan varians yang sama dalam dua kelompok) dan menyimpan nilai p ke vektor yang diatur sebelumnya.

  5. Akhirnya, setelah semua iterasi selesai, saya menghitung untuk setiap vektor seberapa sering nilai-p sama dengan atau di bawah 0,05 (yaitu, tes ini "signifikan"). Ini adalah tingkat penolakan empiris.

Beberapa hasil

  1. Simulasi persis seperti yang dijelaskan di atas:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=0,05

  2. Jika kami mengubah kode mu1 <- .5, maka kami mendapatkan:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Jadi, dibandingkan dengan kasus di mana kedua distribusi normal (seperti yang diasumsikan oleh tes), daya sebenarnya tampak sedikit lebih tinggi ketika kemiringan berada pada arah yang sama! Jika Anda terkejut dengan ini, Anda mungkin ingin mengulang ini beberapa kali (tentu saja, setiap kali mendapatkan hasil yang sedikit berbeda), tetapi polanya akan tetap ada.

    Perhatikan bahwa kita harus berhati-hati dengan menafsirkan nilai daya empiris di bawah dua skenario di mana kemiringannya berada di arah yang berlawanan, karena tingkat kesalahan Tipe I tidak cukup nominal (sebagai kasus ekstrem, misalkan saya selalu menolak terlepas dari apa data tersebut menunjukkan; maka saya akan selalu memiliki tes dengan kekuatan maksimal, tetapi tentu saja tes ini juga memiliki tingkat kesalahan Tipe I agak meningkat).

Seseorang dapat mulai mengeksplorasi serangkaian nilai untuk mu1(dan mu2- tetapi yang paling penting adalah perbedaan antara keduanya) dan, yang lebih penting, mulai mengubah standar deviasi sebenarnya dari kedua kelompok (yaitu, sd1dan sd2) dan terutama membuatnya tidak setara. Saya juga terjebak dengan ukuran sampel yang disebutkan oleh OP, tetapi tentu saja itu bisa disesuaikan juga. Dan kemiringan tentu saja dapat mengambil banyak bentuk selain dari yang kita lihat dalam distribusi chi-square dengan satu derajat kebebasan. Saya masih berpikir mendekati hal-hal dengan cara ini berguna, meskipun fakta bahwa itu tidak dapat menghasilkan jawaban yang pasti.

Wolfgang
sumber
2
Karena kita memiliki berbagai metode semi-parametrik yang kuat saat ini mengapa diskusi ini sangat bermanfaat?
Frank Harrell
(+1) Saya pikir itu mungkin layak termasuk kasus di mana satu sampel diambil dari populasi yang miring dan yang lainnya tidak, karena ini adalah apa yang dipikirkan OP akan terjadi pada data mereka. Tapi senang melihat jawaban dengan kode eksplisit. (Sedikit generalisasi sebenarnya akan memungkinkan pembaca untuk menyelidiki seberapa baik metode yang kuat dibandingkan dengan uji-t tradisional, yang merupakan latihan pedagogis yang berguna jika Anda mencoba mengajari seseorang tentang bahaya menerapkan tes yang asumsinya telah dilanggar .. .)
Silverfish
2

Dalam situasi Anda, uji-t kemungkinan akan kuat dalam hal tingkat kesalahan Tipe I, tetapi bukan tingkat kesalahan Tipe II. Anda mungkin akan mencapai lebih banyak kekuatan melalui a) tes Kruskal-Wallis, atau b) transformasi normalisasi sebelum uji-t.

Saya mendasarkan kesimpulan ini pada dua studi Monte Carlo. Dalam yang pertama ( Khan & Rayner, 2003 ), kemiringan dan kurtosis secara tidak langsung dimanipulasi melalui parameter keluarga distribusi g-dan-k, dan kekuatan yang dihasilkan diperiksa. Yang penting, kekuatan uji Kruskal-Wallis kurang rusak oleh non-normalitas, terutama untuk n> = 15.

Beberapa peringatan / kualifikasi tentang penelitian ini: Kekuasaan sering dirugikan oleh kurtosis tinggi, tetapi kurang dipengaruhi oleh kemiringan. Pada pandangan pertama, pola ini mungkin tampak kurang relevan dengan situasi Anda mengingat Anda mencatat masalah dengan kemiringan, bukan kurtosis. Namun, saya bertaruh bahwa kelebihan kurtosis juga ekstrem dalam kasus Anda. Ingatlah bahwa kelebihan kurtosis setidaknya akan setinggi kemiringan ^ 2 - 2. (Biarkan kelebihan kurtosis sama dengan momen standar ke-4 minus 3, sehingga kurtosis berlebih = 0 untuk distribusi normal.) Perhatikan juga bahwa Khan dan Rayner ( 2003) memeriksa ANOVA dengan 3 kelompok, tetapi hasilnya cenderung digeneralisasi menjadi uji-t dua sampel.

Studi relevan kedua ( Beasley, Erikson, & Allison, 2009)) memeriksa kedua Tipe I dan Tipe II kesalahan dengan berbagai distribusi tidak normal, seperti Chi-squared (1) dan Weibull (1, .5). Untuk ukuran sampel minimal 25, uji-t cukup mengendalikan tingkat kesalahan Tipe I pada atau di bawah tingkat alpha nominal. Namun, daya tertinggi dengan tes Kruskal-Wallis atau dengan transformasi Inverse Normal berbasis peringkat (skor Blom) yang diterapkan sebelum uji-t. Beasley dan rekan umumnya menentang pendekatan normalisasi, tetapi harus dicatat bahwa pendekatan normalisasi mengendalikan tingkat kesalahan Tipe I untuk n> = 25, dan kekuatannya kadang-kadang sedikit melebihi dari uji Kruskal-Wallis. Artinya, pendekatan normalisasi tampaknya menjanjikan untuk situasi Anda. Lihat tabel 1 dan 4 di artikel mereka untuk detailnya.

Referensi:

Khan, A., & Rayner, GD (2003) . Keteguhan untuk tidak normal dari tes umum untuk masalah lokasi banyak sampel. Jurnal Matematika Terapan dan Ilmu Keputusan, 7 , 187-206.

Beasley, TM, Erickson, S., & Allison, DB (2009) . Transformasi normal kebalikan berbasis peringkat semakin banyak digunakan, tetapi apakah itu pantas? Genetika Perilaku, 39 , 580-595.

Anthony
sumber
(kelebihan) kurtosiscondong2-2
Itu sepertinya pertanyaan yang layak untuk utasnya sendiri. Mungkin kekhawatiran Anda adalah bahwa kurtosis berlebih akan condong ke bawah dalam sampel kecil? Tentu saja, itu juga terjadi dalam studi simulasi di atas, dan kurtosis masih menyebabkan daya rendah dalam uji-t dalam situasi tersebut. Pertanyaan Anda menunjuk pada batasan yang lebih umum dari sebagian besar studi Monte Carlo: kesimpulan seringkali didasarkan pada karakteristik populasi, karakteristik yang tidak dapat diamati oleh peneliti terapan. Akan lebih bermanfaat untuk dapat memprediksi kekuatan relatif berdasarkan kemiringan sampel, kurtosis, dll.
Anthony
Saya telah memposting pertanyaan terpisah tentang masalah ini: stats.stackexchange.com/questions/133247/…
Anthony
0

Pertama-tama, jika Anda berasumsi bahwa distribusi kedua sampel berbeda, pastikan Anda menggunakan uji-t versi Welch yang mengasumsikan varians yang tidak sama antara kelompok. Setidaknya ini akan mencoba menjelaskan beberapa perbedaan yang terjadi karena distribusi.

Jika kita melihat rumus untuk uji-t Welch:

t=X¯1-X¯2sX¯1-X¯2

sX¯1-X¯2

sX¯1-X¯2=s12n1+s22n2

kita dapat melihat bahwa setiap kali ada s kita tahu varians sedang diperhitungkan. Mari kita bayangkan bahwa kedua varians sebenarnya sama, tetapi satu condong, mengarah ke estimasi varians yang berbeda. Jika estimasi varians ini tidak benar-benar mewakili data Anda karena condong, maka efek bias sebenarnya pada dasarnya akan menjadi akar kuadrat dari bias yang dibagi dengan jumlah titik data yang digunakan untuk menghitungnya. Dengan demikian efek dari estimator buruk varians sedikit teredam oleh akar kuadrat dan n yang lebih tinggi, dan itu mungkin sebabnya konsensus adalah bahwa itu tetap merupakan tes yang kuat.

Masalah lain dari distribusi miring adalah bahwa perhitungan rata-rata juga akan terpengaruh, dan ini mungkin di mana masalah nyata pelanggaran asumsi uji adalah karena cara yang relatif sensitif terhadap kemiringan. Dan kekokohan tes dapat ditentukan secara kasar dengan menghitung selisih rata-rata, dibandingkan dengan selisih median (sebagai ide). Mungkin Anda bahkan bisa mencoba mengganti selisih rata-rata dengan selisih median dalam uji-t sebagai ukuran yang lebih kuat (saya yakin seseorang telah membahas ini, tetapi saya tidak dapat menemukan sesuatu di google dengan cepat untuk ditautkan).

Saya juga menyarankan menjalankan tes permutasi jika semua yang Anda lakukan adalah uji-t. Tes permutasi adalah tes yang tepat, independen dari asumsi distribusi. Yang paling penting, tes permutasi dan uji-t akan menghasilkan hasil yang identik jika asumsi uji parametrik terpenuhi . Oleh karena itu, ukuran ketahanan yang Anda cari bisa 1 - perbedaan antara permutasi dan nilai-uji p, di mana skor 1 menunjukkan ketahanan sempurna dan 0 berarti tidak kuat sama sekali.

Mensen
sumber