Saya akan mencoba memberikan penjelasan yang intuitif.
Statistik-t * memiliki pembilang dan penyebut. Misalnya, statistik dalam uji-t satu sampel adalah
x¯−μ0s/n−−√
* (ada beberapa, tetapi diskusi ini semoga cukup umum untuk membahas yang Anda tanyakan)
Berdasarkan asumsi, pembilang memiliki distribusi normal dengan rata-rata 0 dan beberapa standar deviasi yang tidak diketahui.
Di bawah kumpulan asumsi yang sama, penyebut adalah perkiraan standar deviasi distribusi pembilang (kesalahan standar statistik pada pembilang). Ini tidak tergantung pada pembilang. Kuadratnya adalah variabel acak chi-kuadrat dibagi dengan derajat kebebasannya (yang juga merupakan d-distribusi t) kali .σnumerator
Ketika derajat kebebasannya kecil, penyebutnya cenderung condong ke kanan. Ini memiliki peluang tinggi untuk menjadi kurang dari rata-rata, dan peluang yang relatif baik untuk menjadi sangat kecil. Pada saat yang sama, ia juga memiliki peluang untuk menjadi jauh, jauh lebih besar dari rata-rata.
Di bawah asumsi normalitas, pembilang dan penyebut bersifat independen. Jadi jika kita menggambar secara acak dari distribusi t-statistik ini, kita memiliki angka acak normal dibagi dengan nilai acak kedua * yang dipilih dari distribusi kemiringan kanan yang rata-rata sekitar 1.
* tanpa memperhatikan ketentuan normal
Karena ada pada penyebut, nilai kecil dalam distribusi penyebut menghasilkan nilai t yang sangat besar. Kemiringan kanan dalam penyebut membuat statistik t berekor berat. Ekor kanan dari distribusi, ketika pada penyebut membuat distribusi-t lebih tajam daripada normal dengan deviasi standar yang sama dengan t .
Namun, ketika derajat kebebasan menjadi besar, distribusi menjadi jauh lebih terlihat normal dan jauh lebih "ketat" di sekitar rata-rata.
Dengan demikian, efek membagi oleh penyebut pada bentuk distribusi pembilang berkurang seiring dengan meningkatnya derajat kebebasan.
Akhirnya - seperti yang mungkin dikatakan teorema Slutsky kepada kita bisa terjadi - efek penyebutnya menjadi lebih seperti membagi dengan konstanta dan distribusi t-statistik sangat dekat dengan normal.
Dianggap dalam hal kebalikan dari penyebut
whuber menyarankan dalam komentar bahwa mungkin lebih mencerahkan untuk melihat kebalikan dari penyebut. Artinya, kita dapat menulis statistik-t kita sebagai pembilang (normal) kali timbal balik penyebut (miring kanan).
Misalnya, statistik satu sampel kami di atas akan menjadi:
n−−√(x¯−μ0)⋅1/s
Sekarang perhatikan deviasi standar populasi asli , . Kita dapat melipatgandakan dan membaginya, seperti:Xiσx
n−−√(x¯−μ0)/σx⋅σx/s
Istilah pertama adalah standar normal. Istilah kedua (akar kuadrat dari variabel acak terbalik terbalik-chi-kuadrat) kemudian menskala standar itu dengan nilai-nilai yang lebih besar atau lebih kecil dari 1, "menyebarkannya".
Di bawah asumsi normalitas, dua istilah dalam produk independen. Jadi jika kita menggambar secara acak dari distribusi t-statistik ini, kita memiliki angka acak normal (istilah pertama dalam produk) dikali nilai kedua yang dipilih secara acak (tanpa memperhatikan istilah normal) dari distribusi kemiringan kanan yaitu ' biasanya sekitar 1.
Ketika df besar, nilainya cenderung sangat dekat dengan 1, tetapi ketika df kecil, cukup miring dan penyebarannya besar, dengan ekor kanan yang besar dari faktor penskalaan ini membuat ekornya cukup gemuk:
@ Glen_b memberi Anda intuisi tentang mengapa statistik t terlihat lebih normal dengan meningkatnya ukuran sampel. Sekarang, saya akan memberi Anda penjelasan yang sedikit lebih teknis untuk kasus ini ketika Anda sudah mendapatkan distribusi statistik.
Adalah mungkin untuk menunjukkan itu
dan
sumber
Saya hanya ingin berbagi sesuatu yang membantu intuisi saya sebagai pemula (meskipun itu kurang keras daripada jawaban lainnya).
sumber