Pertanyaan tentang asumsi normalitas t-test

9

Untuk uji-t, menurut kebanyakan teks ada asumsi bahwa data populasi terdistribusi secara normal. Saya tidak mengerti mengapa demikian. Bukankah uji-t hanya mensyaratkan bahwa distribusi sampling dari sampel berarti terdistribusi secara normal, dan bukan pada populasi?

Jika itu adalah kasus bahwa uji-t hanya pada akhirnya memerlukan normalitas dalam distribusi sampling, populasi dapat terlihat seperti distribusi apa pun, bukan? Selama ada ukuran sampel yang masuk akal. Bukankah itu yang dinyatakan oleh teorema batas pusat?

(Saya merujuk di sini untuk satu-sampel atau sampel-independen t-tes)

Peter Nash
sumber
1
Nah, mean sampel sebagai variabel acak hanya bisa normal jika satu bagian juga normal. Tapi Anda benar: uji-t asimptotik nonparametrik (tidak ada distribusi normal), tetapi masih varian dalam kelompok (dalam situasi dua sampel) harus sama dan ada.
Michael M
Dengan varians dalam kelompok menjadi serupa, apakah Anda merujuk pada asumsi homogenitas varians? Jika demikian, uji-t welch benar untuk ini, benar?
Peter Nash
Ya persis. Jika derajat kebebasan Welch yang terkoreksi menjadi tak terhingga, maka juga prosedurnya akan bebas distribusi (rujukan perlu ...).
Michael M

Jawaban:

9

Untuk uji-t, menurut kebanyakan teks ada asumsi bahwa data populasi terdistribusi secara normal. Saya tidak mengerti mengapa demikian. Bukankah uji-t hanya mensyaratkan bahwa distribusi sampling dari sampel berarti terdistribusi secara normal, dan bukan pada populasi?

Statistik-t terdiri dari rasio dua kuantitas, kedua variabel acak. Itu tidak hanya terdiri dari pembilang.

Agar t-statistik memiliki distribusi t, Anda tidak perlu hanya bahwa mean sampel memiliki distribusi normal. Kamu juga membutuhkan:

  • bahwa dalam penyebut menjadi sedemikian sehingga s 2 / σ 2χ 2 d *ss2/σ2χd2

  • bahwa pembilang dan penyebut bersifat independen.

* (nilai tergantung pada tes mana - dalam satu sampel t kita memiliki d = n - 1 )dtd=n1

Agar ketiga hal tersebut benar-benar benar, Anda perlu agar data asli didistribusikan secara normal.

Jika itu adalah kasus bahwa uji-t hanya pada akhirnya memerlukan normalitas dalam distribusi sampling, populasi dapat terlihat seperti distribusi apa pun, bukan?

Mari kita ambil iid seperti yang diberikan sejenak. Agar CLT dapat menahan populasi harus sesuai dengan kondisi ... - populasi harus memiliki distribusi yang menerapkan CLT. Jadi tidak, karena ada distribusi populasi yang CLT tidak berlaku.

Selama ada ukuran sampel yang masuk akal. Bukankah itu yang dinyatakan oleh teorema batas pusat?

Tidak, CLT sebenarnya tidak mengatakan sepatah kata pun tentang "ukuran sampel yang masuk akal".

Sebenarnya tidak mengatakan apa-apa tentang apa yang terjadi pada ukuran sampel hingga.

n=1015n


Jadi, Anda memiliki masalah kembar:

A. Efek yang biasanya orang kaitkan dengan CLT - pendekatan yang semakin dekat dengan normalitas distribusi sampel berarti pada ukuran sampel kecil / sedang - sebenarnya tidak dinyatakan dalam CLT **.

B. "Sesuatu yang tidak jauh dari normal dalam pembilang" tidak cukup untuk membuat statistik memiliki distribusi-t

** (Sesuatu seperti teorema Berry-Esseen membuat Anda lebih menyukai apa yang dilihat orang ketika mereka melihat efek peningkatan ukuran sampel pada distribusi mean sampel.)


nn

Glen_b -Reinstate Monica
sumber
1
Untuk ketiga hal [normalitas rata-rata sampel, chi-squarity varian sampel, dan independensi keduanya] menjadi benar, Anda perlu agar data asli terdistribusi secara normal. Apakah Anda mengatakan bahwa hanya Normal yang memiliki tiga properti itu? Saya tidak membantah pernyataan itu salah, hanya ingin tahu apakah itu yang Anda katakan.
Andrew M
2
@AndrewM Tentu saja hanya yang normal memiliki ketiganya bersama. Selain itu yang pertama atau yang ketiga saja sudah cukup untuk menyiratkan yang normal - yang ketiga mencirikan yang normal ( Lukacs, 1942 ), dan untuk jumlah terbatas variabel acak independen, hanya yang normal yang memiliki yang pertama ( teorema dekomposisi Cramér ). Bisa dibayangkan ada cara lain untuk mendapatkan yang kedua, tapi saya tidak menyadarinya.
Glen_b -Reinstate Monica
@AndrewM sehubungan dengan yang kedua, karya Ahsanullah (1987,1989) mungkin relevan.
Glen_b -Reinstate Monica
1
XAXA
@AndrewM Perbedaannya adalah hasil yang Anda kutip tidak bergantung pada independensi, sedangkan hasil Cramer tidak. Keduanya berguna di tempat mereka.
Glen_b -Reinstate Monica