Latar belakang: Saya memberikan presentasi kepada kolega di tempat kerja tentang pengujian hipotesis, dan memahami sebagian besar dari itu baik-baik saja tetapi ada satu aspek yang saya mengikat diri dalam simpul yang mencoba memahami serta menjelaskannya kepada orang lain.
Ini yang saya pikir saya tahu (tolong perbaiki jika salah!)
- Statistik yang akan normal jika varians diketahui, ikuti distribusi- jika varians tidak diketahui
- CLT (Central Limit Theorem): Distribusi sampling dari rata-rata sampel kira-kira normal untuk n yang cukup besar (bisa , bisa sampai untuk distribusi yang sangat miring)
- The -Distribusi dapat dianggap normal untuk derajat kebebasan
Anda menggunakan -test jika:
- Populasi normal dan varians diketahui (untuk ukuran sampel apa pun)
- Populasi normal, varians tidak diketahui dan (karena CLT)
- Binomial populasi, ,
Anda menggunakan uji- jika:
- Populasi normal, varians tidak diketahui dan
- Tidak ada pengetahuan tentang populasi atau varians dan , tetapi data sampel terlihat normal / lulus tes dll sehingga populasi dapat dianggap normal
Jadi saya pergi dengan:
- Untuk sampel dan (?), Tidak ada pengetahuan tentang populasi dan varian yang diketahui / tidak diketahui.
Jadi pertanyaan saya adalah:
Pada ukuran sampel apa Anda dapat berasumsi (di mana tidak ada pengetahuan tentang distribusi populasi atau varians) bahwa distribusi sampling dari rata-rata adalah normal (yaitu CLT telah dimulai) ketika distribusi sampel terlihat tidak normal? Saya tahu bahwa beberapa distribusi memerlukan , tetapi beberapa sumber tampaknya mengatakan menggunakan -test setiap kali ...z n > 30
Untuk kasus-kasus yang saya tidak yakin, saya kira saya melihat data untuk normalitas. Sekarang, jika data sampel memang terlihat normal, apakah saya menggunakan uji- (karena menganggap populasi normal, dan karena )?
Bagaimana dengan di mana data sampel untuk kasus yang saya tidak yakin tentang tidak terlihat normal? Apakah ada keadaan di mana Anda masih akan menggunakan uji- atau uji- atau apakah Anda selalu berusaha mengubah / menggunakan tes non-parametrik? Saya tahu bahwa, karena CLT, pada beberapa nilai , distribusi sampling mean akan mendekati normal, tetapi data sampel tidak akan memberi tahu saya apa nilai itu; data sampel bisa non-normal sedangkan rata-rata sampel mengikuti normal / . Apakah ada kasus di mana Anda akan mengubah / menggunakan tes non-parametrik padahal sebenarnya distribusi sampling rata-rata normal / tetapi Anda tidak tahu? z n n t t
Jawaban:
@ AdamO benar, Anda hanya selalu menggunakan uji- jika Anda tidak tahu standar deviasi populasi a-priori. Anda tidak perlu khawatir kapan harus beralih ke -test, karena -distribusi 'beralih' untuk Anda. Lebih khusus lagi, -Distribusi konvergen ke normal, dengan demikian itu adalah distribusi yang benar untuk digunakan di setiap .t z t t NN
Ada juga kebingungan di sini tentang makna garis tradisional di . Ada dua jenis konvergensi yang dibicarakan orang:N=30
Bagaimanapun, untuk menjawab pertanyaan Anda secara lebih eksplisit, jika Anda yakin data mentah Anda (dalam kelompok) tidak terdistribusi secara normal, gunakan uji- Mann-Whitney ; jika Anda yakin data Anda terdistribusi secara normal, tetapi Anda tidak tahu SD a-priori, gunakan uji- ; dan jika Anda yakin data Anda terdistribusi secara normal dan Anda tahu SD a-priori, gunakan uji- .U t z
Ini dapat membantu Anda membaca jawaban terakhir @ GregSnow di sini: Interpretasi nilai-p dalam membandingkan proporsi antara dua kelompok kecil di R mengenai masalah ini juga.
sumber
Tidak ada yang membahas tentang masalah ini. Gunakan uji- selalu untuk uji nonparametrik perbedaan dalam rata-rata, kecuali jika alat resampling yang lebih canggih - misalnya permutasi atau bootstrap - diperlukan (berguna dalam sampel yang sangat kecil dengan keberangkatan besar dari normalitas).t
Jika derajat kebebasan benar-benar penting, maka uji- akan memberikan estimasi konsisten nilai-nilai kritis dan kesalahan standar untuk distribusi statistik uji di bawah hipotesis nol. Kalau tidak, uji- kira-kira sama dengan uji- .t zt t z
Perkiraan normal untuk pengujian parameter model parametrik, seperti uji proporsi populasi, agak tidak berfungsi. Ketika data cukup kecil sehingga benar-benar ada perbedaan antara nilai kritis yang dihasilkan dari distribusi atau , Anda benar-benar harus menggunakan uji proporsi yang tepat berdasarkan distribusi binomial berskala dari statistik uji. Tes resampling juga bekerja dengan cara ini. Membuat asumsi aturan praktis tentang ukuran sampel dan prevalensi kasus / kontrol dalam estimasi parameter Bernoulli membingungkan dan sangat rawan kesalahan.zt z
Konsep -test (varians "dikenal") membingungkan karena Anda tidak pernah "tahu" varians, Anda juga tidak menghabiskan banyak untuk memperkirakannya. Ketika biaya itu penting, hanya uji- mencerminkan dampaknya pada tingkat kebebasan.tz t
sumber