Uji sampel independen: Apakah data benar-benar perlu didistribusikan secara normal untuk ukuran sampel yang besar?

Katakanlah saya ingin menguji apakah dua sampel independen memiliki cara yang berbeda. Saya tahu distribusi yang mendasarinya tidak normal .

Jika saya mengerti dengan benar, statistik pengujian saya adalah rata - rata , dan untuk ukuran sampel yang cukup besar, rata-rata harus didistribusikan secara normal bahkan jika sampel tidak. Jadi tes signifikansi parametrik harus valid dalam kasus ini, bukan? Saya telah membaca informasi yang bertentangan dan membingungkan tentang hal ini sehingga saya akan sangat menghargai konfirmasi (atau penjelasan mengapa saya salah).

Juga, saya telah membaca bahwa untuk ukuran sampel yang besar, saya harus menggunakan statistik z daripada statistik t. Tetapi dalam praktiknya, distribusi-t hanya akan menyatu dengan distribusi normal dan dua statistik harus sama, bukan?

Sunting : Di bawah ini adalah beberapa sumber yang menggambarkan uji-z. Keduanya menyatakan bahwa populasi harus terdistribusi secara normal:

Di sini , dikatakan "Terlepas dari jenis uji-Z yang digunakan, diasumsikan bahwa populasi dari mana sampel diambil adalah normal." Dan di sini , persyaratan untuk uji-z terdaftar sebagai "Dua populasi yang berdistribusi normal tetapi independen, σ diketahui".

t-test central-limit-theorem z-test Lisa
sumber

Apa yang Anda katakan masuk akal. Anda menggunakan teorema limit pusat untuk mengasumsikan normalitas dalam distribusi mean sampel. Selain itu, Anda menggunakan uji-t karena Anda tidak memiliki varians populasi, dan Anda memperkirakannya berdasarkan varians sampel. Tetapi bisakah Anda menautkan atau memposting salah satu sumber yang bertentangan ini?

Antoni Parellada

Terima kasih untuk balasan Anda! Di sini misalnya, persyaratan untuk uji-z terdaftar sebagai "Dua populasi yang terdistribusi normal tetapi independen, σ diketahui", sehingga mereka berbicara tentang distribusi populasi, bukan berarti - apakah itu salah?

Lisa

@AntoniParellada Saya memasukkan beberapa sumber ke pos asli!

Lisa

Lihat di Wikipedia

Antoni Parellada

Jika populasi asli diketahui normal maka kita memiliki situasi yang sempurna dan tidak dapat ditentang. Namun, CLT sering ada di sana, terutama dalam sampel besar, untuk menghindari tergantung pada urutan kondisi yang sangat tinggi ini ditunjukkan pada kertas Anda yang ditautkan.

Antoni Parellada

Jawaban:

Saya pikir ini adalah kesalahpahaman umum tentang CLT. CLT tidak hanya tidak ada hubungannya dengan melestarikan kesalahan tipe II (yang tidak ada yang disebutkan di sini) tetapi juga sering tidak berlaku ketika Anda harus memperkirakan varians populasi. Varians sampel bisa sangat jauh dari distribusi chi-kuadrat berskala ketika data non-Gaussian, sehingga CLT mungkin tidak berlaku bahkan ketika ukuran sampel melebihi puluhan ribu. Untuk banyak distribusi, SD bahkan bukan ukuran dispersi yang baik.

Untuk benar-benar menggunakan CLT, satu dari dua hal harus benar: (1) standar deviasi sampel berfungsi sebagai ukuran dispersi untuk distribusi benar tidak diketahui atau (2) standar deviasi populasi benar diketahui. Itu sangat sering tidak terjadi. Dan contoh n = 20.000 terlalu kecil untuk CLT untuk "bekerja" berasal dari menggambar sampel dari distribusi lognormal seperti yang dibahas di tempat lain di situs ini.

Standar deviasi sampel "berfungsi" sebagai ukuran dispersi jika misalnya distribusinya simetris dan tidak memiliki ekor yang lebih berat daripada distribusi Gaussian.

Saya tidak ingin mengandalkan CLT untuk analisis saya.

Frank Harrell
sumber

CLT mungkin sedikit herring merah. Seringkali dapat terjadi bahwa mean sampel memiliki distribusi yang jelas-jelas tidak normal dan sampel SD berbentuk non-chi, tetapi statistik-t berguna digunakan oleh distribusi t Student (sebagian karena ketergantungan antara keduanya. statistik). Apakah ini kasusnya harus dievaluasi dalam situasi tertentu. Namun, karena CLT sedikit menegaskan tentang sampel yang terbatas (dan mengatakan sama sekali tidak kuantitatif tentang mereka), permohonannya untuk mendukung asumsi distribusi biasanya tidak valid.

whuber

Apakah adil untuk mengatakan bahwa kita sedang mendiskusikan (dan belajar dalam kasus saya) prosedur (membandingkan dua sampel berarti dari distribusi tidak diketahui dengan uji-t) yang dilakukan secara rutin (dan mungkin tanpa berpikir) setiap hari di mana-mana, meskipun pembenaran bisa lemah? Dan, apakah ada penggunaan CLT dalam praktiknya, yang dapat ditoleransi / diterima, bahkan jika tidak ideal?

Antoni Parellada

The

-statistic sangat sering memiliki distribusi yang sangat jauh dari

distribusi bila data berasal dari distribusi non-Gaussian. Dan ya saya akan mengatakan bahwa pembenaran untuk menggunakan uji-

lebih lemah daripada yang dipikirkan oleh kebanyakan praktisi. Itu sebabnya saya lebih suka metode semi dan non-parametrik.

t

$t$

t

$t$

t

$t$

Frank Harrell

CLT benar-benar pernyataan asimptotik, dan ketika kebanyakan orang memintanya, saya menduga ide di kepala mereka benar-benar seperti teorema Berry – Esseen (mereka percaya bahwa konvergensi ke normalitas terjadi pada kecepatan "masuk akal", dan karena itu ukuran sampel mereka "cukup baik"). Tetapi bahkan alasan yang sedikit lebih canggih ini dapat mengarah pada kesimpulan yang salah tentang validitas uji-t. Saya ingin tahu apakah perlu disebutkan / ditekankan dalam jawaban ini bahwa bahkan Berry – Esseen tidak "menyelamatkan" daya tarik yang keliru kepada CLT.

Silverfish

@ Frankharrell Apa yang Anda maksud dengan "standar deviasi sampel berfungsi sebagai ukuran dispersi untuk distribusi yang tidak diketahui benar"? Akan sangat membantu jika Anda menambahkan penjelasan singkat (mungkin hanya satu kalimat) ke jawaban Anda.

mark999

Saya meninggalkan paragraf ini agar komentarnya masuk akal: Mungkin asumsi normalitas dalam populasi asli terlalu ketat, dan dapat dilupakan dengan fokus pada distribusi sampling, dan terima kasih pada teorema batas pusat, terutama untuk sampel besar.

$t$

Seperti yang Anda sebutkan, distribusi-t menyatu dengan distribusi normal ketika sampel meningkat, karena plot R cepat ini menunjukkan:

$t$

Jadi menerapkan z-test akan baik-baik saja dengan sampel besar.

Mengatasi masalah dengan jawaban awal saya. Terima kasih, Glen_b atas bantuan Anda dengan OP (kemungkinan kesalahan interpretasi baru sepenuhnya menjadi milik saya).

T STATISTIK BERIKUT DI DISTRIBUSI DI BAWAH ASUMSI NORMALITAS:

Mengesampingkan kerumitan dalam rumus untuk satu sampel vs dua sampel (berpasangan dan tidak berpasangan), statistik t umum yang berfokus pada kasus membandingkan rata-rata sampel dengan rata-rata populasi adalah:

$\text{t-test}= \Large \frac{\bar X-\mu}{\frac{s}{\sqrt{n}}}=\large\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{s^2}{\sigma^2}}} =\displaystyle \large\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{\frac{\sum_{x=1}^n(X - \bar{X})^2}{n-1}}{\sigma^2}}} \tag1$

$X$ $\mu$ $\sigma^2$

$(1)$ $\sim N(1,0)$
$(1)$ $\frac{s^2/\sigma^2}{n-1}\sim\frac{1}{n-1}\,\,\chi^2_{n-1}$ $(n-1)s^2/\sigma^2\sim\chi^2_{n-1}$
Numerator dan penyebut harus independen.

$\text{t-statistic} \sim t(df=n-1)$

TEORI BATAS TENGAH:

Kecenderungan ke arah normal dari distribusi sampling dari sampel berarti ketika ukuran sampel meningkat dapat membenarkan asumsi distribusi normal pembilang bahkan jika populasi tidak normal. Namun, itu tidak mempengaruhi dua kondisi lainnya (distribusi chi square dari penyebut dan independensi pembilang dari penyebut).

Tetapi tidak semua hilang, dalam posting ini dibahas bagaimana teorema Slutzky mendukung konvergensi asimptotik menuju distribusi normal bahkan jika distribusi chi penyebut tidak terpenuhi.

KEKERASAN:

Di atas kertas "Pandangan yang Lebih Realistis pada Robustness dan Tipe II Properti Kesalahan dari Uji t untuk Berangkat Dari Populality Normalality" oleh Sawilowsky SS dan Blair RC dalam Psychological Bulletin, 1992, Vol. 111, No. 2, 352-360 , di mana mereka menguji distribusi yang kurang ideal atau lebih "dunia nyata" (kurang normal) untuk kesalahan daya dan untuk kesalahan tipe I, pernyataan berikut dapat ditemukan: "Meskipun sifatnya konservatif berkenaan dengan Tipe Saya salah dalam uji t untuk beberapa distribusi nyata ini, ada sedikit pengaruh pada tingkat daya untuk berbagai kondisi perawatan dan ukuran sampel yang diteliti. Para peneliti dapat dengan mudah mengkompensasi sedikit kehilangan daya dengan memilih ukuran sampel yang sedikit lebih besar " .

" Pandangan yang berlaku tampaknya bahwa uji t sampel independen cukup kuat, sejauh kesalahan Tipe I terkait, dengan bentuk populasi non-Gaussian selama (a) ukuran sampel sama atau hampir sama, (b) sampel ukurannya cukup besar (Boneau, 1960, menyebutkan ukuran sampel 25 hingga 30), dan (c) tes dua sisi daripada satu ekor. Perhatikan juga bahwa ketika kondisi ini dipenuhi dan perbedaan antara alpha nominal dan alpha aktual dilakukan terjadi, perbedaan biasanya bersifat konservatif daripada liberal. "

Para penulis menekankan aspek kontroversial dari topik ini, dan saya berharap dapat mengerjakan beberapa simulasi berdasarkan distribusi lognormal seperti yang disebutkan oleh Profesor Harrell. Saya juga ingin membuat beberapa perbandingan Monte Carlo dengan metode non-parametrik (misalnya uji Mann-Whitney U). Jadi ini masih dalam proses ...

SIMULASI:

Penafian: Berikut ini adalah salah satu latihan ini dalam "membuktikan sendiri" dengan satu atau lain cara. Hasilnya tidak dapat digunakan untuk membuat generalisasi (setidaknya tidak oleh saya), tapi saya kira saya dapat mengatakan bahwa kedua (mungkin cacat) simulasi MC ini tampaknya tidak terlalu mengecewakan untuk penggunaan uji t dalam keadaan. dijelaskan.

Kesalahan tipe I:

Pada masalah kesalahan tipe I, saya menjalankan simulasi Monte Carlo menggunakan distribusi Lognormal. Mengekstraksi apa yang akan dianggap sampel yang lebih besar ( $n=50$ $\mu=0$ $\sigma=1$

$5\%$ $4.5\%$

Sebenarnya plot kepadatan uji t yang diperoleh tampaknya tumpang tindih pdf sebenarnya dari distribusi t:

Bagian yang paling menarik adalah melihat "penyebut" dari uji t, bagian yang seharusnya mengikuti distribusi chi-squared:

(n - 1) s^{2} / σ^{2} = 98 \frac{(49 ({SD}_{SEBUAH}^{2} + {SD}_{SEBUAH}^{2})) / 98}{(e^{σ^{2}} - 1) e^{2 μ + σ^{2}}}

$(n-1)s^2/\sigma^2=98\,\frac{(49 \, (\text{SD}_A^2 + \text{SD}_A^2))/98} {(e^{\sigma^2}-1) \, e^{2\mu+\sigma^2}}$ .

Di sini kita menggunakan standar deviasi umum, seperti pada entri Wikipedia ini :

S_{X_{1} X_{2}} = \sqrt{\frac{(n_{1} - 1) S_{X_{1}}^{2} + (n_{2} - 1) S_{X_{2}}^{2}}{n_{1} + n_{2} - 2}}

$S_{X_1X_2}=\sqrt{\frac{(n_1 -1)\,S_{X_1}^2 + (n_2 -1)\,S_{X_2}^2}{n_1+n_2-2}}$

Dan, yang mengejutkan (atau tidak) plotnya sangat berbeda dengan pdf chi-squared yang dilapiskan:

Kesalahan dan Kekuasaan Tipe II:

The distribusi tekanan darah mungkin log-normal , yang datang sangat berguna untuk mengatur skenario sintetis di mana kelompok pembanding terpisah nilai rata-rata jarak relevansi klinis, mengatakan dalam sebuah studi klinis menguji efek dari tekanan darah obat yang berfokus pada TD diastolik, efek yang signifikan dapat dianggap sebagai penurunan rata-rata $10$ mmHg (SD kira-kira $9$ mmHg terpilih):

Menjalankan uji-t perbandingan pada simulasi Monte Carlo yang hampir serupa untuk kesalahan tipe I antara kelompok-kelompok fiktif ini, dan dengan tingkat signifikansi $5\%$ kita berakhir dengan $0.024\%$ kesalahan tipe II, dan kekuatan hanya $99\%$ .

Kodenya ada di sini .

Antoni Parellada
sumber

Frank Harrell

Profesor Harrell, saya akan dengan senang hati menurunkan jabatan jika itu tidak benar. Ini mungkin kesalahpahaman yang sangat mendasar. Saya menyarankan bahwa CLT diterapkan pada distribusi sampel berarti yang memvalidasi, dalam sampel besar, perbandingan rata-rata dengan uji-z atau uji-t terlepas dari distribusi asal sampel. Ini tidak benar

Antoni Parellada

Itu akan benar jika (1) standar deviasi sampel berfungsi sebagai ukuran dispersi untuk distribusi yang tidak diketahui benar atau (2) standar deviasi populasi benar diketahui. Itu sangat sering tidak terjadi. Dan contoh n = 20.000 menjadi jauh terlalu kecil untuk CLT untuk "bekerja" berasal dari gambar sampel dari distribusi lognormal. Kesalahpahaman tentang poin-poin ini merajalela di antara para PhD dalam statistik dengan pengalaman 20 tahun.

Frank Harrell

Masalahnya, Lisa, adalah apakah Anda perlu membandingkan cara atau Anda hanya ingin membandingkan lokasi dari dua populasi. Dalam beberapa aplikasi, minat berfokus pada rata-rata atau jumlah, di mana menggantinya dengan beberapa parameter lain akan sedikit berguna. Ini khususnya kasus di mana populasi merupakan jumlah kumulatif alami, seperti uang atau pencemaran lingkungan.

whuber

Antoni, bagian terakhir Anda tentang ketahanan cukup tepat. Saya telah membuat banyak penelitian serupa dengan yang dijelaskan oleh Sawilosky dan Blair, dan telah membaca lebih banyak lagi, dan karena itu curiga kesimpulan mereka harus dibatasi pada jenis data yang sangat khusus. Uji t gagal total, terutama dalam hal kekuatan, di hadapan distribusi yang sangat miring. Apa yang mengejutkan saya selama bertahun-tahun adalah bahwa memang cukup kuat untuk penyimpangan lain dari normalitas, sampai saya melihat beberapa validitas dalam klaim bahwa itu adalah prosedur nonparametrik.

whuber