Mengapa tidak menggunakan distribusi-T untuk memperkirakan rata-rata ketika sampel besar?

17

Kursus statistik dasar sering menyarankan menggunakan distribusi normal untuk memperkirakan rata-rata parameter populasi ketika ukuran sampel n besar (biasanya lebih dari 30 atau 50). Distribusi T siswa digunakan untuk ukuran sampel yang lebih kecil untuk menjelaskan ketidakpastian dalam standar deviasi sampel. Ketika ukuran sampel besar, standar deviasi sampel memberikan informasi yang baik tentang standar deviasi populasi, memungkinkan untuk estimasi distribusi normal. Saya mengerti.

Tetapi mengapa menggunakan estimasi ketika Anda bisa mendapatkan interval kepercayaan diri Anda dengan tepat? Terlepas dari ukuran sampel, apa gunanya menggunakan distribusi normal jika itu hanya perkiraan sesuatu yang bisa Anda peroleh dengan distribusi-T?

Pertinax
sumber
@ Glen_b Ya, itu akan menjadi penaksir interval. Mengenai interval ini: "Anda harus menggunakan tabel t-distribusi ketika bekerja masalah ketika standar deviasi populasi (σ) tidak diketahui dan ukuran sampel kecil (n <30)" (dari web.pdx.edu/~stipakb/ unduh / PA551 / NormalVersusTdistribution.doc). Mengapa orang tidak menggunakan distribusi-T sepanjang waktu ketika standar deviasi populasi tidak diketahui (bahkan ketika n> 30)?
Pertinax

Jawaban:

15

Hanya untuk mengklarifikasi tentang kaitannya dengan judul, kami tidak menggunakan distribusi-t untuk memperkirakan rata-rata (dalam arti estimasi titik setidaknya), tetapi untuk membangun interval untuk itu.

Tetapi mengapa menggunakan estimasi ketika Anda bisa mendapatkan interval kepercayaan diri Anda dengan tepat?

Ini adalah pertanyaan yang bagus (selama kita tidak terlalu bersikeras tentang 'tepatnya', karena asumsi untuk itu tepat t-didistribusikan tidak akan benar-benar berlaku).

"Anda harus menggunakan tabel distribusi-t ketika mengerjakan masalah ketika standar deviasi populasi (σ) tidak diketahui dan ukuran sampel kecil (n <30)"

Mengapa orang tidak menggunakan T-distribusi sepanjang waktu ketika standar deviasi populasi tidak diketahui (bahkan ketika n> 30)?

Saya menganggap saran itu sebagai - paling-paling - berpotensi menyesatkan. Dalam beberapa situasi, distribusi t masih harus digunakan ketika derajat kebebasan jauh lebih besar dari itu.

Di mana yang normal adalah perkiraan yang wajar tergantung pada berbagai hal (dan juga tergantung pada situasinya). Namun, karena (dengan komputer) sama sekali tidak sulit untuk hanya menggunakan t , bahkan jika df sangat besar, Anda harus bertanya-tanya mengapa perlu khawatir melakukan sesuatu yang berbeda pada n = 30.

Jika ukuran sampel benar-benar besar, itu tidak akan membuat perbedaan nyata pada interval kepercayaan, tapi saya tidak berpikir n = 30 selalu cukup dekat dengan 'sangat besar'.


Ada satu keadaan di mana mungkin masuk akal untuk menggunakan normal daripada t - saat itulah data Anda jelas tidak memenuhi kondisi untuk mendapatkan distribusi-t, tetapi Anda masih bisa berdebat untuk perkiraan normalitas rata-rata (jika n cukup besar). Namun, dalam keadaan itu, seringkali t adalah pendekatan yang baik dalam praktik, dan mungkin agak 'lebih aman'. [Dalam situasi seperti itu, aku mungkin cenderung menyelidiki melalui simulasi.]

Glen_b -Reinstate Monica
sumber
2
Saya telah membaca di suatu tempat dalam dokumen ini bahwa baik ketika α = 5 % . Tapi saya tidak yakin itu cukup. n=30α=5%
Stéphane Laurent
1
@ StéphaneLaurent Untuk sebagian besar tujuan itu harusnya baik-baik saja pada 5%, tetapi penilaian seperti itu sangat tergantung pada individu. Ada beberapa situasi - saya hanya bertemu satu hari ini - di mana tingkat kesalahan itu mungkin cukup untuk masalah.
Glen_b -Reinstate Monica
2
@ StéphaneLaurent Anda mungkin mendapatkan wawasan yang layak dari Johnson, VE (2013). Revisi standar untuk bukti statistik . Prosiding National Academy of Sciences , 110 (48): 19313–19317. Artikel ini cocok dengan post- Mengapa temuan penelitian yang paling dipublikasikan adalah kritik palsu penelitian ( ala How Science Goes Wrong )
Alexis
4
@ StéphaneLaurent Artikel Anda menjawab pertanyaan saya. Sebagai catatan, terjemahan kasar kesimpulannya: "Penggunaan distribusi normal sebagai perkiraan t-distribusi Student secara eksklusif merupakan produk dari keterbatasan teknologi abad ke-20. Batasan ini telah menghilang dengan perangkat lunak statistik modern, dan tidak ada lagi alasan untuk menggunakan perkiraan non-konservatif ini ".
Pertinax
2
@TheThunderChimp Peringatan: jika varians populasi diketahui (misalnya memperkirakan proporsi populasi - rata-rata variabel dikotomi), maka standar normal ( z ), dan bukan distribusi t yang sesuai.
Alexis
7

Ini adalah anakronisme sejarah. Ada banyak dari mereka dalam statistik.

Jika Anda tidak memiliki komputer, sulit untuk menggunakan distribusi-t, dan jauh lebih mudah untuk menggunakan distribusi normal. Begitu ukuran sampel menjadi besar, mereka dua distribusi menjadi serupa (seberapa besar 'besar' adalah pertanyaan lain).

Jeremy Miles
sumber
1
Itu sepertinya jawaban yang cukup dangkal untuk pertanyaan yang lebih dalam.
Alexis
2
Tidak yakin apa yang kamu maksud. Anda tidak berpikir itu alasannya? (Jawaban yang paling banyak dipilih menyatakan hal yang sama - meskipun lebih fasih dan rumit.)
Jeremy Miles
1
Saya menurunkan suara karena jawaban Anda berbunyi seperti: Karena sejarah. Rekapitulasi singkat pertanyaan Anda.
Alexis
2
Terima kasih telah memberi tahu saya - ini lebih baik daripada downvote anonim yang saya tidak tahu alasannya.
Jeremy Miles
3
Secara historis, satu "menggunakan" distribusi ini dengan mencari nilai dalam tabel. Satu-satunya cara dimana akan lebih mudah untuk menggunakan distribusi Normal adalah bahwa seseorang tidak harus memilih kolom yang sesuai dengan derajat kebebasan. Itu hampir tidak menjadi perhatian. Apa yang lakukan penggunaan batas adalah bahwa di beberapa titik itu masuk akal untuk memperluas tabel untuk derajat besar kebebasan: buku akan menjadi terlalu besar.
whuber
1

ex2n

VictorZurkowski
sumber
1
Pada ukuran manakah kesalahan numerik dalam mengestimasi t lebih besar daripada keuntungan dari menggunakannya?
jona
2
tentu saja Anda dapat menghitung nilai-t dengan presisi sewenang-wenang, dan sehingga mereka bisa setepat jumlah yang Anda bandingkan.
Neil G
"Dengan kata lain, nilai-t" tepat "tidak" tepat ", dan dalam kesalahan perkiraan, nilainya sama dengan nilai CDF untuk standar normal." Saya tidak yakin ini adalah aturan praktis yang dapat diandalkan.
shadowtalker
2
25.9325×1016
1
Whuber, kamu benar. Saya menggunakan "kesalahan numerik" secara tidak benar. Saya maksudkan semua kesalahan penanganan angka: perkiraan numerik integral, kesalahan numerik untuk bekerja dengan presisi terbatas, dan kesalahan numerik karena pemotongan. Jika seseorang dapat bekerja dengan ketepatan yang tak terbatas, tidak akan ada pembenaran untuk mengganti distribusi-t dengan yang normal
VictorZurkowski