Memilih antara -test dan -test

20

Latar belakang: Saya memberikan presentasi kepada kolega di tempat kerja tentang pengujian hipotesis, dan memahami sebagian besar dari itu baik-baik saja tetapi ada satu aspek yang saya mengikat diri dalam simpul yang mencoba memahami serta menjelaskannya kepada orang lain.

Ini yang saya pikir saya tahu (tolong perbaiki jika salah!)

  • Statistik yang akan normal jika varians diketahui, ikuti distribusi- t jika varians tidak diketahui
  • CLT (Central Limit Theorem): Distribusi sampling dari rata-rata sampel kira-kira normal untuk n yang cukup besar n(bisa 30 , bisa sampai 300 untuk distribusi yang sangat miring)
  • The t -Distribusi dapat dianggap normal untuk derajat kebebasan >30

Anda menggunakan z -test jika:

  1. Populasi normal dan varians diketahui (untuk ukuran sampel apa pun)
  2. Populasi normal, varians tidak diketahui dan n>30 (karena CLT)
  3. Binomial populasi, np>10 , nq>10

Anda menggunakan uji- t jika:

  1. Populasi normal, varians tidak diketahui dan n<30
  2. Tidak ada pengetahuan tentang populasi atau varians dan n<30 , tetapi data sampel terlihat normal / lulus tes dll sehingga populasi dapat dianggap normal

Jadi saya pergi dengan:

  • Untuk sampel >30 dan <≈300 (?), Tidak ada pengetahuan tentang populasi dan varian yang diketahui / tidak diketahui.

Jadi pertanyaan saya adalah:

  1. Pada ukuran sampel apa Anda dapat berasumsi (di mana tidak ada pengetahuan tentang distribusi populasi atau varians) bahwa distribusi sampling dari rata-rata adalah normal (yaitu CLT telah dimulai) ketika distribusi sampel terlihat tidak normal? Saya tahu bahwa beberapa distribusi memerlukan , tetapi beberapa sumber tampaknya mengatakan menggunakan -test setiap kali ...z n > 30n>300zn>30

  2. Untuk kasus-kasus yang saya tidak yakin, saya kira saya melihat data untuk normalitas. Sekarang, jika data sampel memang terlihat normal, apakah saya menggunakan uji- (karena menganggap populasi normal, dan karena )?zn>30

  3. Bagaimana dengan di mana data sampel untuk kasus yang saya tidak yakin tentang tidak terlihat normal? Apakah ada keadaan di mana Anda masih akan menggunakan uji- atau uji- atau apakah Anda selalu berusaha mengubah / menggunakan tes non-parametrik? Saya tahu bahwa, karena CLT, pada beberapa nilai , distribusi sampling mean akan mendekati normal, tetapi data sampel tidak akan memberi tahu saya apa nilai itu; data sampel bisa non-normal sedangkan rata-rata sampel mengikuti normal / . Apakah ada kasus di mana Anda akan mengubah / menggunakan tes non-parametrik padahal sebenarnya distribusi sampling rata-rata normal / tetapi Anda tidak tahu? z n n t ttznntt

Hatti
sumber
4
" bisa mencapai 300 untuk distribusi yang sangat miring " ... dalam beberapa kasus, itu bisa menjadi lebih banyak; atau mungkin tidak pernah terjadi. Pilih , dan saya akan menunjukkan kepada Anda sebuah kasus di mana itu tidak cukup. n
Glen_b -Reinstate Monica
Terima kasih Glen_b - jadi selalu periksa data sampel terlihat normal untuk menggunakan parametrik?
Hatti
@Hatti tidak! T-test valid ketika data tampak tidak normal.
AdamO

Jawaban:

24

@ AdamO benar, Anda hanya selalu menggunakan uji- jika Anda tidak tahu standar deviasi populasi a-priori. Anda tidak perlu khawatir kapan harus beralih ke -test, karena -distribusi 'beralih' untuk Anda. Lebih khusus lagi, -Distribusi konvergen ke normal, dengan demikian itu adalah distribusi yang benar untuk digunakan di setiap . tzttNN

Ada juga kebingungan di sini tentang makna garis tradisional di . Ada dua jenis konvergensi yang dibicarakan orang: N=30

  1. Yang pertama adalah bahwa distribusi sampling dari statistik uji (yaitu, ) dihitung dari data mentah yang didistribusikan secara normal (dalam kelompok) konvergen ke distribusi normal sebagai meskipun fakta bahwa SD diperkirakan dari data. ( Distribusi- menangani hal ini untuk Anda, sebagaimana disebutkan di atas.) tNt
  2. Yang kedua adalah bahwa distribusi sampling dari rata-rata data mentah yang tidak terdistribusi normal (dalam kelompok) menyatu dengan distribusi normal (lebih lambat dari atas) sebagai . Orang-orang mengandalkan Teorema Batas Pusat untuk mengurus ini untuk mereka. Namun, tidak ada jaminan bahwa itu akan menyatu dalam ukuran sampel yang wajar - tentu saja tidak ada alasan untuk percaya (atau ) adalah angka ajaib. Bergantung pada besarnya dan sifat dari non-normalitas, ini bisa memakan waktu sangat lama (lih. @ Makro jawaban di sini: Regresi ketika residu OLS tidak terdistribusi secara normalN30 300 U U t30300). Jika Anda yakin data mentah Anda (dalam kelompok) tidak sangat normal, mungkin lebih baik untuk menggunakan berbagai jenis tes, seperti Mann-Whitney -testU . Perhatikan bahwa dengan data yang tidak normal, uji- Mann-Whitney kemungkinan akan lebih kuat daripada uji- , dan bisa jadi bahkan jika CLT telah berhasil. (Perlu juga menunjukkan bahwa pengujian untuk normalitas) kemungkinan akan membuat Anda tersesat, lihat: Apakah pengujian normal 'pada dasarnya tidak berguna'? )Ut

Bagaimanapun, untuk menjawab pertanyaan Anda secara lebih eksplisit, jika Anda yakin data mentah Anda (dalam kelompok) tidak terdistribusi secara normal, gunakan uji- Mann-Whitney ; jika Anda yakin data Anda terdistribusi secara normal, tetapi Anda tidak tahu SD a-priori, gunakan uji- ; dan jika Anda yakin data Anda terdistribusi secara normal dan Anda tahu SD a-priori, gunakan uji- . Utz

Ini dapat membantu Anda membaca jawaban terakhir @ GregSnow di sini: Interpretasi nilai-p dalam membandingkan proporsi antara dua kelompok kecil di R mengenai masalah ini juga.

gung - Reinstate Monica
sumber
Terima kasih, ini sangat membantu, saya tahu saya terlalu rumit karena uji-t untuk n yang lebih besar mendekati normal. Jadi sebenarnya, bahkan jika n adalah 1000 t-test harus digunakan jika SD tidak dikenal a-priori?
Hatti
Sama-sama. Sebenarnya, ya , tetapi perhatikan bahwa akan sangat sulit untuk membedakan antara distribusi- & distribusi normal pada saat itu. t
gung - Reinstate Monica
Iya tentu saja. Maaf sudah sangat rewel, hanya sulit mencoba memikirkan bagaimana menjelaskannya kepada orang lain dengan cara yang cukup hitam dan putih. Hargai bantuan Anda, terima kasih!
Hatti
Juga perhatikan bahwa menghitung hasil uji-t adalah untuk semua maksud dan tujuan tanpa biaya komputasi tambahan yang berarti saat ini. Kami tidak lagi mencari statistik uji dalam beberapa tabel kertas yang tidak dapat mencakup semua kasus, kami hanya bertanya pada komputer. Jadi, mengapa repot dan khawatir tentang apakah Anda mungkin juga bisa mendapatkan hasil yang sama menggunakan z-test?
Bjorn
11

Tidak ada yang membahas tentang masalah ini. Gunakan uji- selalu untuk uji nonparametrik perbedaan dalam rata-rata, kecuali jika alat resampling yang lebih canggih - misalnya permutasi atau bootstrap - diperlukan (berguna dalam sampel yang sangat kecil dengan keberangkatan besar dari normalitas).t

Jika derajat kebebasan benar-benar penting, maka uji- akan memberikan estimasi konsisten nilai-nilai kritis dan kesalahan standar untuk distribusi statistik uji di bawah hipotesis nol. Kalau tidak, uji- kira-kira sama dengan uji- .t zttz

Perkiraan normal untuk pengujian parameter model parametrik, seperti uji proporsi populasi, agak tidak berfungsi. Ketika data cukup kecil sehingga benar-benar ada perbedaan antara nilai kritis yang dihasilkan dari distribusi atau , Anda benar-benar harus menggunakan uji proporsi yang tepat berdasarkan distribusi binomial berskala dari statistik uji. Tes resampling juga bekerja dengan cara ini. Membuat asumsi aturan praktis tentang ukuran sampel dan prevalensi kasus / kontrol dalam estimasi parameter Bernoulli membingungkan dan sangat rawan kesalahan.ztz

Konsep -test (varians "dikenal") membingungkan karena Anda tidak pernah "tahu" varians, Anda juga tidak menghabiskan banyak untuk memperkirakannya. Ketika biaya itu penting, hanya uji- mencerminkan dampaknya pada tingkat kebebasan.tzt

AdamO
sumber
Gunakan uji-t selalu untuk uji nonparametrik perbedaan dalam mean .. maksudmu parametrik bukan?
Xavier Bourret Sicotte