Penilaian "Kira-kira Normal" untuk uji-t

12

Saya menguji persamaan cara menggunakan uji-t Welch. Distribusi yang mendasarinya jauh dari normal (lebih condong daripada contoh dalam diskusi terkait di sini ). Saya dapat memperoleh lebih banyak data tetapi ingin beberapa cara berprinsip untuk menentukan sejauh mana melakukannya.

  1. Apakah ada heuristik yang baik untuk membuat penilaian bahwa distribusi sampel dapat diterima? Penyimpangan manakah dari normalitas yang paling memprihatinkan?
  2. Apakah ada pendekatan lain - misalnya mengandalkan interval kepercayaan bootstrap untuk statistik sampel - yang akan lebih masuk akal?
cohoz
sumber
2
Ini pertanyaan yang bagus. Selain itu apakah pengujian normalitas "pada dasarnya tidak berguna"? (sudah ditautkan), dua pertanyaan terkait lainnya adalah Bagaimana memilih antara uji-t atau uji non-parametrik misalnya Wilcoxon dalam sampel kecil? dan T-test untuk non normal ketika N> 50? Jawaban yang bagus untuk pertanyaan ini berpotensi bermanfaat bagi pembaca dari dua pertanyaan terkait ini.
Silverfish
Sejauh yang saya tahu tidak ada cara berprinsip untuk menentukan berapa banyak data yang Anda butuhkan untuk distribusi menjadi "cukup normal." Ini karena "cukup normal" sulit untuk didefinisikan, dan akan tergantung pada seberapa tidak normal distribusi yang mendasarinya, di samping cara khusus Anda menyimpang dari normalitas. Jika Anda memiliki data yang sangat tidak normal, saya hanya akan menggunakan tes non-parametrik. Kelemahannya adalah Anda tidak akan bisa mendapatkan interval kepercayaan yang lebih berguna daripada tes hipotesis tunggal.
dsaxton
2
Saya setuju bahwa "cukup normal" sulit untuk didefinisikan, tetapi setiap praktisi harus melakukan penilaian sebelum beralasan tentang data empiris, itulah sebabnya saya terkejut betapa sedikit diskusi yang dapat saya temukan (mungkin saya mencari di tempat yang salah) . Untuk kasus penggunaan yang ada dalam pikiran saya di sini (yang terasa cukup umum) tes non-parametrik tidak memuaskan dibandingkan dengan mengumpulkan lebih banyak data untuk memastikan distribusi sampling "cukup normal".
cohoz

Jawaban:

1

Karena uji t mengasumsikan normal, dan distribusi yang mendasarinya tidak normal, tidak mungkin ada cara berprinsip untuk menentukan bahwa distribusi sampel dapat diterima. Namun, ketika ukuran sampel menjadi "besar", Teorema Limit Sentral dimulai, dan Anda dapat menggunakan uji-z sampel besar, yang pada dasarnya akan memberi Anda jawaban yang sama dengan uji- t karena uji t mendekati distribusi normal dengan sampel besar.

Buku / kursus Stats sering menyiratkan bahwa pada ukuran sampel 25 atau 30 CLT berperan penting. Namun, pengalaman saya adalah bahwa bahkan dengan ukuran sampel dalam ratusan sampel besar z-tes masih bisa sangat buruk (misalnya, dengan data jumlah).

Menurut pendapat saya, tes permutasi cocok untuk masalah Anda. Seharusnya memiliki kekuatan yang sama atau lebih baik daripada tes nonparametrik kalengan (misalnya, Mann-Whitney) dan Anda tidak perlu khawatir tentang masalah normalitas. Dan, mereka menyenangkan untuk menulis.

Tim
sumber