Kursus statistik dasar sering menyarankan menggunakan distribusi normal untuk memperkirakan rata-rata parameter populasi ketika ukuran sampel n besar (biasanya lebih dari 30 atau 50). Distribusi T siswa digunakan untuk ukuran sampel yang lebih kecil untuk menjelaskan ketidakpastian dalam standar deviasi sampel. Ketika ukuran sampel besar, standar deviasi sampel memberikan informasi yang baik tentang standar deviasi populasi, memungkinkan untuk estimasi distribusi normal. Saya mengerti.
Tetapi mengapa menggunakan estimasi ketika Anda bisa mendapatkan interval kepercayaan diri Anda dengan tepat? Terlepas dari ukuran sampel, apa gunanya menggunakan distribusi normal jika itu hanya perkiraan sesuatu yang bisa Anda peroleh dengan distribusi-T?
Jawaban:
Hanya untuk mengklarifikasi tentang kaitannya dengan judul, kami tidak menggunakan distribusi-t untuk memperkirakan rata-rata (dalam arti estimasi titik setidaknya), tetapi untuk membangun interval untuk itu.
Ini adalah pertanyaan yang bagus (selama kita tidak terlalu bersikeras tentang 'tepatnya', karena asumsi untuk itu tepat t-didistribusikan tidak akan benar-benar berlaku).
Saya menganggap saran itu sebagai - paling-paling - berpotensi menyesatkan. Dalam beberapa situasi, distribusi t masih harus digunakan ketika derajat kebebasan jauh lebih besar dari itu.
Di mana yang normal adalah perkiraan yang wajar tergantung pada berbagai hal (dan juga tergantung pada situasinya). Namun, karena (dengan komputer) sama sekali tidak sulit untuk hanya menggunakant , bahkan jika df sangat besar, Anda harus bertanya-tanya mengapa perlu khawatir melakukan sesuatu yang berbeda pada n = 30.
Jika ukuran sampel benar-benar besar, itu tidak akan membuat perbedaan nyata pada interval kepercayaan, tapi saya tidak berpikir n = 30 selalu cukup dekat dengan 'sangat besar'.
Ada satu keadaan di mana mungkin masuk akal untuk menggunakan normal daripadat - saat itulah data Anda jelas tidak memenuhi kondisi untuk mendapatkan distribusi-t, tetapi Anda masih bisa berdebat untuk perkiraan normalitas rata-rata (jika n cukup besar). Namun, dalam keadaan itu, seringkali t adalah pendekatan yang baik dalam praktik, dan mungkin agak 'lebih aman'. [Dalam situasi seperti itu, aku mungkin cenderung menyelidiki melalui simulasi.]
sumber
Ini adalah anakronisme sejarah. Ada banyak dari mereka dalam statistik.
Jika Anda tidak memiliki komputer, sulit untuk menggunakan distribusi-t, dan jauh lebih mudah untuk menggunakan distribusi normal. Begitu ukuran sampel menjadi besar, mereka dua distribusi menjadi serupa (seberapa besar 'besar' adalah pertanyaan lain).
sumber
sumber