T-test untuk tidak normal ketika N> 50?

77

Dulu saya belajar bahwa distribusi normal diperlukan untuk menggunakan dua sampel T-test. Hari ini seorang kolega memberi tahu saya bahwa dia tahu bahwa untuk N> 50 distribusi normal tidak diperlukan. Benarkah itu?

Jika benar apakah itu karena teorema limit pusat?

bahkan
sumber
3
Pertanyaan terkait dengan jawaban yang sangat bagus oleh Glen_b stats.stackexchange.com/questions/121852/…
Tim

Jawaban:

83

Asumsi normalitas dari uji-t

Pertimbangkan populasi besar tempat Anda dapat mengambil banyak sampel berbeda dengan ukuran tertentu. (Dalam studi tertentu, Anda biasanya hanya mengumpulkan satu dari sampel ini.)

Uji-t mengasumsikan bahwa rata-rata dari sampel yang berbeda terdistribusi secara normal; tidak berasumsi bahwa populasi terdistribusi secara normal.

Dengan teorema limit pusat, berarti sampel dari suatu populasi dengan varian terbatas mendekati distribusi normal terlepas dari distribusi populasi. Aturan praktis mengatakan bahwa mean sampel pada dasarnya terdistribusi normal selama ukuran sampel setidaknya 20 atau 30. Agar uji-t valid pada sampel dengan ukuran lebih kecil, distribusi populasi harus mendekati normal.

Uji-t tidak valid untuk sampel kecil dari distribusi tidak normal, tetapi valid untuk sampel besar dari distribusi tidak normal.

Sampel kecil dari distribusi tidak normal

Seperti yang dicatat Michael di bawah ini, ukuran sampel yang diperlukan untuk distribusi rata-rata untuk mendekati normalitas tergantung pada tingkat non-normalitas populasi. Untuk distribusi yang mendekati normal, Anda tidak perlu sampel sebesar distribusi yang sangat tidak normal.

Berikut adalah beberapa simulasi yang dapat Anda jalankan di R untuk merasakan hal ini. Pertama, berikut adalah beberapa distribusi populasi.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Berikutnya adalah beberapa simulasi sampel dari distribusi populasi. Di setiap baris ini, "10" adalah ukuran sampel, "100" adalah jumlah sampel dan fungsi setelahnya menentukan distribusi populasi. Mereka menghasilkan histogram dari rata-rata sampel.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Agar uji-t valid, histogram ini harus normal.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Utilitas uji-t

Saya harus mencatat bahwa semua pengetahuan yang baru saja saya berikan agak usang; sekarang kita memiliki komputer, kita bisa melakukan yang lebih baik daripada uji-t. Seperti yang dicatat Frank, Anda mungkin ingin menggunakan tes Wilcoxon di mana pun Anda diajari untuk menjalankan uji-t.

Thomas Levine
sumber
7
Penjelasan bagus (+1). Saya akan menambahkan, bagaimanapun, bahwa ukuran sampel yang diperlukan untuk distribusi sarana untuk mendekati normalitas tergantung pada tingkat non-normalitas populasi. Untuk sampel besar, tidak ada alasan untuk memilih uji-t daripada uji permutasi yang tidak membuat asumsi tentang distribusi.
Michael Lew
2
+1 meskipun, sejauh yang saya tahu, uji-t cukup resisten terhadap penyimpangan moderat dari normalitas. Juga, diskusi terkait yang menarik: stats.stackexchange.com/questions/2492/…
nico
4
jawaban yang baik, meskipun ada satu detail kecil yang Anda lewatkan: distribusi data harus memiliki varian yang terbatas. T-test tidak ada harapan untuk membandingkan perbedaan lokasi dua distribusi Cauchy (atau siswa dengan 2 derajat kebebasan), bukan karena itu "tidak kuat", tetapi karena untuk distribusi ini ada informasi tambahan yang relevan dalam sampel di luar kemampuan dan standar deviasi yang dibuang oleh uji-t.
probabilityislogic
2
Selain itu, uji-t juga secara alami menghasilkan interval kepercayaan untuk parameter yang diselidiki. (masih tersanjung karena dua paragraf pertama yang langsung menjawab pertanyaan, saya hanya sangat tidak setuju dengan yang ketiga)
Erik
7
Uji-T TIDAK memerlukan normalitas populasi. Itu asumsi yang diperlukan untuk statistik t untuk memiliki distribusi t-Student. Jika Anda tidak memiliki populasi normal, Anda tidak dapat mengekspresikan statistik t sebagai variabel normal standar dibagi dengan akar variabel Chi-kuadrat dibagi dengan derajat kebebasannya. Mungkin yang ingin Anda katakan adalah bahwa jika beberapa kondisi benar, seperti tidak terlalu banyak kemiringan, atau sampel besar, tes masih dapat valid bahkan ketika populasi tidak normal.
toneloy
44

Teorema batas pusat kurang bermanfaat daripada yang dipikirkan orang dalam konteks ini. Pertama, seperti yang ditunjukkan oleh seseorang, seseorang tidak tahu apakah ukuran sampel saat ini "cukup besar". Kedua, CLT lebih tentang mencapai kesalahan tipe I yang diinginkan daripada tentang kesalahan tipe II. Dengan kata lain, uji-t dapat menjadi kekuatan yang tidak kompetitif. Itu sebabnya tes Wilcoxon sangat populer. Jika normalitas berlaku, 95% seefisien t-test. Jika normalitas tidak berlaku maka bisa lebih efisien daripada uji-t.

Frank Harrell
sumber
7
(+1) Selamat datang di situs ini, yang saya senang Anda temukan. Saya menantikan partisipasi Anda di sini.
kardinal
4
(+1) Poin bagus tentang Wilcoxon.
whuber
18

Lihat jawaban saya sebelumnya untuk pertanyaan tentang kekokohan uji-t .

Secara khusus, saya sarankan bermain-main dengan applet onlinestatsbook .

Gambar di bawah ini didasarkan pada skenario berikut:

  • hipotesis nol adalah benar
  • kemiringan yang cukup parah
  • distribusi yang sama di kedua kelompok
  • varians yang sama di kedua kelompok
  • ukuran sampel per grup 5 (yaitu, kurang dari 50 sesuai pertanyaan Anda)
  • Saya menekan tombol 10.000 simulasi sekitar 100 kali untuk mendapatkan lebih dari satu juta simulasi.

Simulasi yang diperoleh menunjukkan bahwa alih-alih mendapatkan kesalahan Tipe I 5%, saya hanya mendapatkan 4,5% kesalahan Tipe I.

Apakah Anda menganggap ini tangguh tergantung pada perspektif Anda.

masukkan deskripsi gambar di sini

Jeromy Anglim
sumber
4
+1 Poin bagus. Namun, kekuatan uji-t dengan alternatif miring dapat sangat menurun (ke titik di mana pada dasarnya nol bahkan untuk ukuran efek yang besar).
whuber
6

h=0.24999

p=1041p

sunting : ya, per @ whuber's menangkap di komentar, contoh yang saya berikan tidak berarti nol, jadi pengujian untuk berarti nol tidak ada hubungannya dengan tipe I menilai.

Karena contoh lotere sering memiliki standar deviasi sampel nol, uji-t tersedak. Jadi sebagai gantinya, saya memberikan contoh kode menggunakan distribusi Gobert's Lambert W x Gaussian . Distribusi yang saya gunakan di sini memiliki kemiringan sekitar 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Kode ini memberikan tingkat penolakan empiris pada tingkat nominal 0,05 untuk ukuran sampel yang berbeda. Untuk sampel ukuran 50, laju empiris adalah 0,40 (!); untuk ukuran sampel 250, 0,29; untuk ukuran sampel 1000, 0,21; untuk ukuran sampel 2000, 0,18. Jelas uji satu sampel menderita kemiringan.

shabbychef
sumber
p=0
1

Teorema batas pusat menetapkan (di bawah kondisi yang diperlukan) bahwa pembilang dari t-statistik adalah asimtotik normal. Statistik-t juga memiliki penyebut. Untuk memiliki distribusi-t, Anda perlu penyebutnya menjadi independen dan akar kuadrat dari a-chi-square-on-its-df.

Dan kita tahu itu tidak akan independen (yang menjadi ciri normal!)

Teorema Slutsky yang dikombinasikan dengan CLT akan memberi Anda bahwa t-statistik normal asimptotik (tetapi tidak harus pada tingkat yang sangat berguna).

Teorema apa yang akan menetapkan bahwa t-statistik sekitar t-didistribusikan ketika ada non-normalitas, dan seberapa cepat ia masuk? (Tentu saja, pada akhirnya t- akan mendekati normal juga, tetapi kami mengasumsikan bahwa perkiraan untuk perkiraan lain akan lebih baik daripada hanya menggunakan perkiraan normal ...)


t

n

Glen_b
sumber
3
xi+xjxixjcov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
1
Sayangnya, perbedaan antara tidak berkorelasi dan independen relevan jika kita akan berakhir dengan distribusi-t.
Glen_b
0

Ya, Teorema Limit Pusat memberi tahu kita ini benar. Selama Anda menghindari sifat yang sangat berekor berat, non-Normalality tidak menimbulkan masalah pada sampel sedang hingga besar.

Inilah makalah ulasan yang sangat membantu;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Tes Wilcoxon (disebutkan oleh orang lain) dapat memiliki kekuatan yang mengerikan ketika alternatifnya bukan pergeseran lokasi dari distribusi asli. Lebih jauh, cara mengukur perbedaan antara distribusi tidak transitif.

tamu
sumber
Poin menarik tentang Wilcoxon. Namun, uji-t memiliki kesulitan yang sama: itu sangat buruk dalam mendeteksi pergeseran yang disertai dengan peningkatan varian. Sedikit tentang transitivitas tampaknya terutama keingintahuan dalam konteks saat ini; sulit untuk melihat bagaimana itu relevan dengan uji hipotesis asli atau interpretasinya. (Tapi mungkin intransitivitas bisa menjadi penting dalam pengaturan ANOVA atau beberapa perbandingan.)
whuber
Uji t varians tidak sama (yang merupakan standar dalam beberapa perangkat lunak) tidak memiliki masalah dengan heteroskedastisitas.
tamu
Mengenai transitivitas; melaporkan cara sampel, atau perbedaan cara (yang alami menggunakan pendekatan uji-t) memberi pembaca sesuatu yang dapat mereka pertimbangkan ketika mengambil sampel dari populasi lain. Non-transitivitas tes Wilcoxon berarti bahwa pendekatan ini tidak memiliki analog; menggunakan jajaran data adalah pendekatan yang sangat terbatas.
tamu
1
(1) Tes Satterthwaite-Welch (varian yang tidak sama) tidak mengatasi kehilangan daya yang saya maksudkan (meskipun sedikit membantu). (2) Saya pikir Anda bersikap ekstrem dalam mengkarakterisasi menggunakan peringkat sebagai "terbatas." Dalam jawabannya, @Frank Harrell merujuk pada penelitian yang menunjukkan bagaimana uji Wilcoxon mempertahankan efisiensi tinggi di banyak pengaturan: ini menunjukkan bagaimana menggunakan peringkat itu efektif dan lebih fleksibel, tidak lebih terbatas, dibandingkan dengan tes t.
whuber
(1) Tidak, tetapi memberikan tingkat kesalahan Tipe I yang tepat, dalam sampel sedang hingga besar (2) Terima kasih, tetapi dengan hormat saya tidak setuju. Menggunakan uji-t pada Wilcoxon membuatnya lebih mudah untuk menjembatani kesenjangan antara pengujian dan menggunakan interval kepercayaan. Jika seseorang hanya ingin melakukan pengujian, dan tidak pernah melihat melampaui dua kelompok dalam sebuah studi, Wilcoxon tentu saja memiliki situasi di mana ia bekerja dengan baik. Namun seringkali kami tidak ingin hanya melakukan pengujian, dan ingin membantu pengguna menggeneralisasi hasil ke situasi lain; tes Wilcoxon tidak membantu.
tamu
0

Tentang penggunaan tes Wilcoxon-Mann-Whitney sebagai alternatif, saya merekomendasikan makalah The Wilcoxon-Man-Whitney test di bawah pengawasan

Sebagai uji rata-rata atau median, tes Wilcoxon-Mann-Whitney (WMW) bisa sangat tidak tahan untuk penyimpangan dari model pergeseran murni.

Ini adalah rekomendasi dari penulis makalah ini:

Transformasi peringkat dapat mengubah cara, standar deviasi, dan kemiringan kedua sampel secara berbeda. Satu-satunya situasi di mana transformasi peringkat dijamin untuk mencapai efek yang menguntungkan adalah ketika distribusi identik dan ukuran sampel sama. Untuk penyimpangan dari asumsi yang agak ketat ini, efek dari transformasi peringkat pada momen sampel tidak dapat diprediksi. Dalam studi simulasi makalah, tes WMW dibandingkan dengan uji Fligner-Policello (FP), tes Brunner-Munzel (BM), uji T dua sampel (T), uji Welch U (U), dan tes Welch U pada peringkat (RU). Empat tes berbasis peringkat (WMW, FP, BM, dan RU) melakukan hal yang sama, meskipun tes BM sering sedikit lebih baik daripada yang lain. Ketika ukuran sampel sama, tes parametrik (T dan U) lebih unggul dari tes berbasis peringkat di bawah hipotesis nol dari rata-rata yang sama, tetapi tidak di bawah hipotesis nol dari median yang sama. Ketika ukuran sampel tidak sama, tes BM, RU, dan U berkinerja terbaik. Untuk beberapa pengaturan, perubahan kecil dalam sifat populasi menyebabkan perubahan besar dalam kinerja tes. Singkatnya, sampel besar perkiraan uji WMW bisa menjadi metode yang buruk untuk membandingkan rata-rata atau median dari dua populasi, kecuali jika dua distribusi memiliki bentuk dan skala yang sama. Masalah ini juga tampaknya berlaku dalam berbagai tingkatan pada tes WMW yang tepat, tes FP, tes BM, dan tes Welch U pada peringkat. Ketika menggunakan tes WMW, penulis merekomendasikan bahwa sifat-sifat dari sampel berperingkat diperiksa secara menyeluruh untuk tanda-tanda kemiringan dan heterogenitas varians.

pengguna2310909
sumber