Dulu saya belajar bahwa distribusi normal diperlukan untuk menggunakan dua sampel T-test. Hari ini seorang kolega memberi tahu saya bahwa dia tahu bahwa untuk N> 50 distribusi normal tidak diperlukan. Benarkah itu?
Jika benar apakah itu karena teorema limit pusat?
Jawaban:
Asumsi normalitas dari uji-t
Pertimbangkan populasi besar tempat Anda dapat mengambil banyak sampel berbeda dengan ukuran tertentu. (Dalam studi tertentu, Anda biasanya hanya mengumpulkan satu dari sampel ini.)
Uji-t mengasumsikan bahwa rata-rata dari sampel yang berbeda terdistribusi secara normal; tidak berasumsi bahwa populasi terdistribusi secara normal.
Dengan teorema limit pusat, berarti sampel dari suatu populasi dengan varian terbatas mendekati distribusi normal terlepas dari distribusi populasi. Aturan praktis mengatakan bahwa mean sampel pada dasarnya terdistribusi normal selama ukuran sampel setidaknya 20 atau 30. Agar uji-t valid pada sampel dengan ukuran lebih kecil, distribusi populasi harus mendekati normal.
Uji-t tidak valid untuk sampel kecil dari distribusi tidak normal, tetapi valid untuk sampel besar dari distribusi tidak normal.
Sampel kecil dari distribusi tidak normal
Seperti yang dicatat Michael di bawah ini, ukuran sampel yang diperlukan untuk distribusi rata-rata untuk mendekati normalitas tergantung pada tingkat non-normalitas populasi. Untuk distribusi yang mendekati normal, Anda tidak perlu sampel sebesar distribusi yang sangat tidak normal.
Berikut adalah beberapa simulasi yang dapat Anda jalankan di R untuk merasakan hal ini. Pertama, berikut adalah beberapa distribusi populasi.
Berikutnya adalah beberapa simulasi sampel dari distribusi populasi. Di setiap baris ini, "10" adalah ukuran sampel, "100" adalah jumlah sampel dan fungsi setelahnya menentukan distribusi populasi. Mereka menghasilkan histogram dari rata-rata sampel.
Agar uji-t valid, histogram ini harus normal.
Utilitas uji-t
Saya harus mencatat bahwa semua pengetahuan yang baru saja saya berikan agak usang; sekarang kita memiliki komputer, kita bisa melakukan yang lebih baik daripada uji-t. Seperti yang dicatat Frank, Anda mungkin ingin menggunakan tes Wilcoxon di mana pun Anda diajari untuk menjalankan uji-t.
sumber
Teorema batas pusat kurang bermanfaat daripada yang dipikirkan orang dalam konteks ini. Pertama, seperti yang ditunjukkan oleh seseorang, seseorang tidak tahu apakah ukuran sampel saat ini "cukup besar". Kedua, CLT lebih tentang mencapai kesalahan tipe I yang diinginkan daripada tentang kesalahan tipe II. Dengan kata lain, uji-t dapat menjadi kekuatan yang tidak kompetitif. Itu sebabnya tes Wilcoxon sangat populer. Jika normalitas berlaku, 95% seefisien t-test. Jika normalitas tidak berlaku maka bisa lebih efisien daripada uji-t.
sumber
Lihat jawaban saya sebelumnya untuk pertanyaan tentang kekokohan uji-t .
Secara khusus, saya sarankan bermain-main dengan applet onlinestatsbook .
Gambar di bawah ini didasarkan pada skenario berikut:
Simulasi yang diperoleh menunjukkan bahwa alih-alih mendapatkan kesalahan Tipe I 5%, saya hanya mendapatkan 4,5% kesalahan Tipe I.
Apakah Anda menganggap ini tangguh tergantung pada perspektif Anda.
sumber
sunting : ya, per @ whuber's menangkap di komentar, contoh yang saya berikan tidak berarti nol, jadi pengujian untuk berarti nol tidak ada hubungannya dengan tipe I menilai.
Karena contoh lotere sering memiliki standar deviasi sampel nol, uji-t tersedak. Jadi sebagai gantinya, saya memberikan contoh kode menggunakan distribusi Gobert's Lambert W x Gaussian . Distribusi yang saya gunakan di sini memiliki kemiringan sekitar 1355.
Kode ini memberikan tingkat penolakan empiris pada tingkat nominal 0,05 untuk ukuran sampel yang berbeda. Untuk sampel ukuran 50, laju empiris adalah 0,40 (!); untuk ukuran sampel 250, 0,29; untuk ukuran sampel 1000, 0,21; untuk ukuran sampel 2000, 0,18. Jelas uji satu sampel menderita kemiringan.
sumber
Teorema batas pusat menetapkan (di bawah kondisi yang diperlukan) bahwa pembilang dari t-statistik adalah asimtotik normal. Statistik-t juga memiliki penyebut. Untuk memiliki distribusi-t, Anda perlu penyebutnya menjadi independen dan akar kuadrat dari a-chi-square-on-its-df.
Dan kita tahu itu tidak akan independen (yang menjadi ciri normal!)
Teorema Slutsky yang dikombinasikan dengan CLT akan memberi Anda bahwa t-statistik normal asimptotik (tetapi tidak harus pada tingkat yang sangat berguna).
Teorema apa yang akan menetapkan bahwa t-statistik sekitar t-didistribusikan ketika ada non-normalitas, dan seberapa cepat ia masuk? (Tentu saja, pada akhirnya t- akan mendekati normal juga, tetapi kami mengasumsikan bahwa perkiraan untuk perkiraan lain akan lebih baik daripada hanya menggunakan perkiraan normal ...)
sumber
Ya, Teorema Limit Pusat memberi tahu kita ini benar. Selama Anda menghindari sifat yang sangat berekor berat, non-Normalality tidak menimbulkan masalah pada sampel sedang hingga besar.
Inilah makalah ulasan yang sangat membantu;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Tes Wilcoxon (disebutkan oleh orang lain) dapat memiliki kekuatan yang mengerikan ketika alternatifnya bukan pergeseran lokasi dari distribusi asli. Lebih jauh, cara mengukur perbedaan antara distribusi tidak transitif.
sumber
Tentang penggunaan tes Wilcoxon-Mann-Whitney sebagai alternatif, saya merekomendasikan makalah The Wilcoxon-Man-Whitney test di bawah pengawasan
Sebagai uji rata-rata atau median, tes Wilcoxon-Mann-Whitney (WMW) bisa sangat tidak tahan untuk penyimpangan dari model pergeseran murni.
Ini adalah rekomendasi dari penulis makalah ini:
Transformasi peringkat dapat mengubah cara, standar deviasi, dan kemiringan kedua sampel secara berbeda. Satu-satunya situasi di mana transformasi peringkat dijamin untuk mencapai efek yang menguntungkan adalah ketika distribusi identik dan ukuran sampel sama. Untuk penyimpangan dari asumsi yang agak ketat ini, efek dari transformasi peringkat pada momen sampel tidak dapat diprediksi. Dalam studi simulasi makalah, tes WMW dibandingkan dengan uji Fligner-Policello (FP), tes Brunner-Munzel (BM), uji T dua sampel (T), uji Welch U (U), dan tes Welch U pada peringkat (RU). Empat tes berbasis peringkat (WMW, FP, BM, dan RU) melakukan hal yang sama, meskipun tes BM sering sedikit lebih baik daripada yang lain. Ketika ukuran sampel sama, tes parametrik (T dan U) lebih unggul dari tes berbasis peringkat di bawah hipotesis nol dari rata-rata yang sama, tetapi tidak di bawah hipotesis nol dari median yang sama. Ketika ukuran sampel tidak sama, tes BM, RU, dan U berkinerja terbaik. Untuk beberapa pengaturan, perubahan kecil dalam sifat populasi menyebabkan perubahan besar dalam kinerja tes. Singkatnya, sampel besar perkiraan uji WMW bisa menjadi metode yang buruk untuk membandingkan rata-rata atau median dari dua populasi, kecuali jika dua distribusi memiliki bentuk dan skala yang sama. Masalah ini juga tampaknya berlaku dalam berbagai tingkatan pada tes WMW yang tepat, tes FP, tes BM, dan tes Welch U pada peringkat. Ketika menggunakan tes WMW, penulis merekomendasikan bahwa sifat-sifat dari sampel berperingkat diperiksa secara menyeluruh untuk tanda-tanda kemiringan dan heterogenitas varians.
sumber