Sudahkah laporan kematian uji-t dilebih-lebihkan?

25

Membaca CV klasik sepanjang masa, saya menemukan pernyataan yang ingin saya klarifikasi. Ini adalah posting dan pertanyaan saya mengacu pada kata penutup: "Saya harus mencatat bahwa semua pengetahuan yang baru saja saya berikan agak usang; sekarang kami memiliki komputer, kami bisa melakukan lebih baik daripada uji-t. Seperti yang dicatat Frank, Anda mungkin ingin menggunakan tes Wilcoxon di mana pun Anda diajari untuk menjalankan uji-t. "

Kurangnya kekhawatiran tentang apakah masuk akal untuk berasumsi bahwa distribusi sampel berarti cukup normal untuk menjalankan uji-t jelas merupakan keuntungan yang sangat besar. Dan saya melihat bahwa komputer dapat membuat peringkat daftar panjang perbedaan antara dua vektor data dengan mudah ... Saya ingat melakukannya secara manual bertahun-tahun yang lalu, tetapi saya ngelantur ...

Jadi, adalah t -test benar-benar sesuatu dari masa lalu? Bagaimana dengan tes permutasi? Apakah mereka terlalu ad hoc dalam arti menulis beberapa baris kode?

Antoni Parellada
sumber
3
Apa yang membuat tes permutasi ad hoc ? Fisher menganggap uji-t sesuai sejauh tingkah laku mereka dekat dengan tes permutasi (maaf saya tidak memiliki kutipan yang tepat, jika saya menemukannya saya akan memberikannya), menunjukkan bahwa ia melihat tes permutasi sebagai lebih mendasar. Saya juga tidak melihat apa yang sulit tentang tes permutasi dua sisi. Tapi mungkin aku tersesat ke arah jawaban.
Glen_b -Reinstate Monica
1
Mungkin sesuatu yang mendukung uji-t sama-varians adalah hubungannya dengan estimasi parameter dalam model yang agak sederhana yang Anda mungkin ingin menghibur.
Scortchi

Jawaban:

22

Saya tidak akan mengatakan klasik satu sampel (termasuk pasangan) dan dua-sampel sama varians t-tes benar-benar usang, tetapi ada sejumlah alternatif yang memiliki sifat yang sangat baik dan dalam banyak kasus mereka harus digunakan.

Saya juga tidak akan mengatakan kemampuan untuk melakukan tes Wilcoxon-Mann-Whitney dengan cepat pada sampel besar - atau bahkan tes permutasi - baru-baru ini, saya melakukan keduanya secara rutin lebih dari 30 tahun yang lalu sebagai seorang siswa, dan kemampuan untuk melakukannya memiliki telah tersedia untuk waktu yang lama pada saat itu.

Jadi, inilah beberapa alternatif, dan mengapa mereka dapat membantu:

  1. Welch-Satterthwaite - ketika Anda tidak yakin varians akan mendekati sama (jika ukuran sampel sama, asumsi varians yang sama tidak kritis)

  2. Wilcoxon-Mann-Whitney - Sangat baik jika ekor normal atau lebih berat dari normal, terutama dalam kasus yang dekat dengan simetris. Jika ekor cenderung mendekati normal, tes permutasi pada sarana akan menawarkan kekuatan yang sedikit lebih besar.

  3. uji-t yang diperkuat - ada beragam tes yang memiliki daya yang baik di normal tetapi juga bekerja dengan baik (dan mempertahankan daya yang baik) di bawah alternatif yang lebih berat atau agak condong.

  4. GLMs - berguna untuk jumlah atau kasus kemiringan kanan kontinyu (misalnya gamma) misalnya; dirancang untuk menghadapi situasi di mana varians terkait dengan mean.

  5. efek acak atau model deret waktu mungkin berguna dalam kasus di mana ada bentuk ketergantungan tertentu

  6. Pendekatan Bayesian , bootstrap, dan sejumlah teknik penting lainnya yang dapat menawarkan keuntungan serupa dengan ide-ide di atas. Sebagai contoh, dengan pendekatan Bayesian sangat mungkin untuk memiliki model yang dapat menjelaskan proses kontaminasi, menangani jumlah atau data yang miring, dan menangani bentuk-bentuk ketergantungan tertentu, semuanya pada saat yang bersamaan .

Sementara ada banyak alternatif praktis, standar stok lama yang sama dengan varians dua-sampel t-tes sering dapat berkinerja baik dalam sampel besar, ukuran yang sama selama populasi tidak jauh dari normal (seperti menjadi ekor yang sangat berat) / Miring) dan kami hampir merdeka.

Alternatif tersebut berguna dalam sejumlah situasi di mana kita mungkin tidak begitu percaya diri dengan uji-t polos ... dan meskipun demikian umumnya berkinerja baik ketika asumsi uji-t terpenuhi atau hampir terpenuhi.

Welch adalah standar yang masuk akal jika distribusi cenderung tidak menyimpang terlalu jauh dari normal (dengan sampel yang lebih besar memungkinkan lebih banyak waktu luang).

Sementara tes permutasi sangat baik, tanpa kehilangan daya dibandingkan dengan uji-t ketika asumsi-asumsinya berlaku (dan manfaat yang berguna dari memberikan inferensi langsung tentang jumlah bunga), Wilcoxon-Mann-Whitney bisa dibilang merupakan pilihan yang lebih baik jika ekor mungkin berat; dengan asumsi tambahan kecil, WMW dapat memberikan kesimpulan yang berhubungan dengan pergantian-kejam. (Ada alasan lain yang mungkin lebih disukai daripada tes permutasi)

[Jika Anda tahu Anda sedang berhadapan dengan penghitungan suara, atau waktu tunggu atau jenis data serupa, rute GLM seringkali masuk akal. Jika Anda tahu sedikit tentang bentuk-bentuk potensial ketergantungan, itu juga sudah siap ditangani, dan potensi ketergantungan harus dipertimbangkan.]

Jadi sementara uji-t pasti tidak akan menjadi bagian dari masa lalu, Anda hampir selalu dapat melakukannya dengan baik atau hampir sama baiknya ketika itu berlaku, dan berpotensi mendapatkan banyak hal ketika tidak dengan mendaftar salah satu alternatif. . Artinya, saya secara luas setuju dengan sentimen di pos yang berkaitan dengan uji-t ... sebagian besar waktu Anda mungkin harus berpikir tentang asumsi Anda bahkan sebelum mengumpulkan data, dan jika salah satu dari mereka mungkin tidak benar-benar diharapkan untuk bertahan, dengan uji-t biasanya hampir tidak ada ruginya hanya karena tidak membuat asumsi karena alternatif biasanya bekerja dengan sangat baik.

Jika seseorang akan kesulitan besar dalam mengumpulkan data, tentu saja tidak ada alasan untuk tidak menginvestasikan sedikit waktu dengan tulus mempertimbangkan cara terbaik untuk mendekati kesimpulan Anda.

Perhatikan bahwa saya umumnya menyarankan pengujian asumsi secara eksplisit - tidak hanya menjawab pertanyaan yang salah, tetapi melakukan hal itu dan kemudian memilih analisis berdasarkan penolakan atau tidak adanya penolakan terhadap asumsi yang berdampak pada sifat dari kedua pilihan pengujian; jika Anda tidak dapat membuat asumsi dengan aman (baik karena Anda tahu tentang proses dengan cukup baik sehingga Anda dapat mengambilnya atau karena prosedurnya tidak peka terhadapnya dalam keadaan Anda), secara umum Anda lebih baik menggunakan prosedur tersebut itu tidak menganggapnya.


# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx  <- length(x)

# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)

# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))

# find p-value for permutation test
left  = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm

# this is easier: 
#      pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv))) 
# but I'd keep left and right above for adapting to other tests

# find p-value for randomization test
left  = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand

(Nilai p yang dihasilkan masing-masing adalah 0,538 dan 0,539; uji-t dua sampel biasa memiliki nilai-p 0,504 dan uji-Welch-Satterthwaite memiliki nilai p-nilai 0,522.)

Perhatikan bahwa kode untuk perhitungan dalam setiap kasus 1 baris untuk kombinasi untuk tes permutasi dan nilai p juga bisa dilakukan dalam 1 baris.

Menyesuaikan ini ke fungsi yang melakukan uji permutasi atau uji pengacakan dan menghasilkan keluaran lebih seperti uji-t akan menjadi masalah sepele.

Berikut tampilan hasilnya:

masukkan deskripsi gambar di sini

# Draw a display to show distn & p-vale region for both 
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)

par(opar)
Glen_b -Reinstate Monica
sumber
Pada baris kode 16 baris pertama ada kesalahan ketik kecil. Saya percaya itu harus membaca: # pvalue = rata-rata (abs (permmean-mean (xyv))> = abs (mean (x) -mean (xyv))). Juga, mengapa ekor kanan diuji sebagai right = mean (permmean> = 2 * mean (xyv) - mean (x))?
Antoni Parellada
Jawaban yang bagus (+1), tetapi secara umum saya tidak setuju dengan pernyataan bahwa biasanya ada sedikit kerugian dengan tidak membuat asumsi, kecuali itu hanya mengacu pada uji-t. Agak tidak jelas apakah ini seharusnya menjadi pernyataan umum atau tidak. Untuk model yang lebih kompleks dan asumsi ukuran sampel yang terbatas seringkali penting, misalnya dalam bentuk informasi yang lemah informatif.
Erik
1
@Erik Itu tidak dimaksudkan sebagai pernyataan umum. Biarkan saya mengklarifikasi
Glen_b -Reinstate Monica
1
tt
2
@Stephan ada begitu banyak pertimbangan lain di sana (dan sejumlah alternatif yang agak banyak digunakan, setidaknya jika kita melihat regresi berganda) yang akan menjawab dalam kasus itu akan lama dan memiliki beberapa perbedaan mendasar.
Glen_b -Reinstate Monica