Mengapa distribusi t menjadi lebih normal karena ukuran sampel meningkat?

19

Sesuai Wikipedia, saya mengerti bahwa distribusi-t adalah distribusi pengambilan sampel dari nilai-t ketika sampel adalah pengamatan benar dari populasi yang berdistribusi normal. Namun, saya tidak mengerti secara intuisi mengapa hal itu menyebabkan bentuk distribusi-t berubah dari ekor berlemak menjadi sangat normal.

Saya mengerti bahwa jika Anda mengambil sampel dari distribusi normal maka jika Anda mengambil sampel besar itu akan menyerupai distribusi itu, tapi saya tidak mengerti mengapa itu dimulai dengan bentuk ekor-lemak yang dilakukannya.

user1205901 - Pasang kembali Monica
sumber

Jawaban:

22

Saya akan mencoba memberikan penjelasan yang intuitif.

Statistik-t * memiliki pembilang dan penyebut. Misalnya, statistik dalam uji-t satu sampel adalah

x¯μ0s/n

* (ada beberapa, tetapi diskusi ini semoga cukup umum untuk membahas yang Anda tanyakan)

Berdasarkan asumsi, pembilang memiliki distribusi normal dengan rata-rata 0 dan beberapa standar deviasi yang tidak diketahui.

Di bawah kumpulan asumsi yang sama, penyebut adalah perkiraan standar deviasi distribusi pembilang (kesalahan standar statistik pada pembilang). Ini tidak tergantung pada pembilang. Kuadratnya adalah variabel acak chi-kuadrat dibagi dengan derajat kebebasannya (yang juga merupakan d-distribusi t) kali .σnumerator

Ketika derajat kebebasannya kecil, penyebutnya cenderung condong ke kanan. Ini memiliki peluang tinggi untuk menjadi kurang dari rata-rata, dan peluang yang relatif baik untuk menjadi sangat kecil. Pada saat yang sama, ia juga memiliki peluang untuk menjadi jauh, jauh lebih besar dari rata-rata.

Di bawah asumsi normalitas, pembilang dan penyebut bersifat independen. Jadi jika kita menggambar secara acak dari distribusi t-statistik ini, kita memiliki angka acak normal dibagi dengan nilai acak kedua * yang dipilih dari distribusi kemiringan kanan yang rata-rata sekitar 1.

* tanpa memperhatikan ketentuan normal

Karena ada pada penyebut, nilai kecil dalam distribusi penyebut menghasilkan nilai t yang sangat besar. Kemiringan kanan dalam penyebut membuat statistik t berekor berat. Ekor kanan dari distribusi, ketika pada penyebut membuat distribusi-t lebih tajam daripada normal dengan deviasi standar yang sama dengan t .

Namun, ketika derajat kebebasan menjadi besar, distribusi menjadi jauh lebih terlihat normal dan jauh lebih "ketat" di sekitar rata-rata.

masukkan deskripsi gambar di sini

Dengan demikian, efek membagi oleh penyebut pada bentuk distribusi pembilang berkurang seiring dengan meningkatnya derajat kebebasan.

Akhirnya - seperti yang mungkin dikatakan teorema Slutsky kepada kita bisa terjadi - efek penyebutnya menjadi lebih seperti membagi dengan konstanta dan distribusi t-statistik sangat dekat dengan normal.


Dianggap dalam hal kebalikan dari penyebut

whuber menyarankan dalam komentar bahwa mungkin lebih mencerahkan untuk melihat kebalikan dari penyebut. Artinya, kita dapat menulis statistik-t kita sebagai pembilang (normal) kali timbal balik penyebut (miring kanan).

Misalnya, statistik satu sampel kami di atas akan menjadi:

n(x¯μ0)1/s

Sekarang perhatikan deviasi standar populasi asli , . Kita dapat melipatgandakan dan membaginya, seperti:Xiσx

n(x¯μ0)/σxσx/s

Istilah pertama adalah standar normal. Istilah kedua (akar kuadrat dari variabel acak terbalik terbalik-chi-kuadrat) kemudian menskala standar itu dengan nilai-nilai yang lebih besar atau lebih kecil dari 1, "menyebarkannya".

Di bawah asumsi normalitas, dua istilah dalam produk independen. Jadi jika kita menggambar secara acak dari distribusi t-statistik ini, kita memiliki angka acak normal (istilah pertama dalam produk) dikali nilai kedua yang dipilih secara acak (tanpa memperhatikan istilah normal) dari distribusi kemiringan kanan yaitu ' biasanya sekitar 1.

Ketika df besar, nilainya cenderung sangat dekat dengan 1, tetapi ketika df kecil, cukup miring dan penyebarannya besar, dengan ekor kanan yang besar dari faktor penskalaan ini membuat ekornya cukup gemuk:

masukkan deskripsi gambar di sini

Glen_b -Reinstate Monica
sumber
Terima kasih! Ini telah mengklarifikasi banyak, tetapi saya masih sedikit tidak yakin tentang "Kuadratnya adalah variabel acak chi-square dibagi dengan derajat kebebasannya (yang juga merupakan df dari distribusi-t) kali [standar deviasi dari] pembilang ". Apakah Anda menyebutkan itu hanya karena itu adalah hal yang berguna untuk diketahui, atau apakah itu sesuatu yang relevan langsung dengan jawaban pertanyaan saya? Saya mengerti bahwa itu adalah distribusi penyebut, yang bertentangan dengan distribusi kuadrat penyebut, yang digambarkan dalam gambar Anda.
user1205901
2
Distribusi statistik akan lebih berat dari biasanya bahkan jika itu tidak secara khusus akar kuadrat dari chi-square pada dfnya; dalam arti itu tidak akan secara langsung mengubah jawaban untuk meninggalkannya. Tapi paling tidak itu berfungsi sebagai penjelasan dari mana distribusi skala dalam diagram berasal.
Glen_b -Reinstate Monica
3
Saya pikir mungkin sedikit lebih mencerahkan untuk melakukan analisis ini berdasarkan kebalikan dari standar deviasi sampel. Itu, ditambah dengan argumen bahwa sampel SD independen dari mean sampel (ide kunci yang akan mendapat manfaat dari sedikit lebih banyak penekanan dan penjelasan, IMHO), akan membantu orang melihat bahwa pembagian sampel rata-rata oleh sampel SD harus menyebar apa yang sebaliknya akan menjadi distribusi Normal. (Ini tentu saja adalah inti dari penemuan Gossett.)
whuber
1
@whuber saya telah menambahkan bagian membahasnya dalam hal timbal balik, tetapi juga mempertahankan diskusi asli (bagi saya tampaknya lebih langsung, tetapi saya menghargai bahwa banyak orang mungkin mendapatkan lebih banyak dari itu dalam hal timbal balik) . Saya akan menambahkan sedikit tentang kemerdekaan juga
Glen_b -Reinstate Monica
1
s/nσ/ns/σσ/sσ
8

@ Glen_b memberi Anda intuisi tentang mengapa statistik t terlihat lebih normal dengan meningkatnya ukuran sampel. Sekarang, saya akan memberi Anda penjelasan yang sedikit lebih teknis untuk kasus ini ketika Anda sudah mendapatkan distribusi statistik.

n1n

(1+x2n1)n/2n1B(n12,12).

Adalah mungkin untuk menunjukkan itu

1n1B(n12,12)12π,

dan

(1+x2n1)n/2exp(x2/2),

n

Kruger
sumber
2
1/n(1+(x/n)2)1tnderajat kebebasan? Ia ingin tahu mengapa urutannya "dimulai dengan bentuk ekor berlemak seperti itu."
whuber
2
nn
2

Saya hanya ingin berbagi sesuatu yang membantu intuisi saya sebagai pemula (meskipun itu kurang keras daripada jawaban lainnya).

Z,Z1,...,Zn

ZZ12+...+Zn2n

n

n1Zn

E[Z2]=1nZi2nZi2

nZ1=Z

HJ_beginner
sumber