Untuk menghitung interval kepercayaan (CI) untuk rata-rata dengan deviasi standar populasi yang tidak diketahui (SD) kami memperkirakan deviasi standar populasi dengan menggunakan t-distribusi. Khususnya, mana . Tetapi karena, kami tidak memiliki estimasi titik standar deviasi populasi, kami memperkirakan melalui perkiraan mana
Sebaliknya, untuk proporsi populasi, untuk menghitung CI, kami memperkirakan sebagai mana asalkan dan
Pertanyaan saya adalah, mengapa kita puas dengan distribusi standar untuk proporsi populasi?
Jawaban:
Baik distribusi t Normal dan Pelajar standar merupakan perkiraan yang kurang baik untuk distribusi
untuk kecil sangat buruk sehingga kesalahan mengecilkan perbedaan antara dua distribusi ini.n,
Berikut ini adalah perbandingan dari ketiga distribusi (menghilangkan kasus di mana atau adalah nol, di mana rasio tidak terdefinisi) untukp^ 1−p^ n=10,p=1/2:
Distribusi "empiris" adalah dari yang harus diskrit karena estimasi terbatas pada himpunan terbatasZ, p { 0 , 1 / n , 2 / n , ... , n / n } .p^ {0,1/n,2/n,…,n/n}.
The distribusi muncul untuk melakukan pekerjaan yang lebih baik dari perkiraan.t
Untuk dan Anda dapat melihat perbedaan antara distribusi t Normal dan Pelajar standar benar-benar dapat diabaikan:n=30 p=1/2,
Karena distribusi t Student lebih rumit daripada Normal normal (itu benar-benar seluruh keluarga distribusi diindeks oleh "derajat kebebasan," sebelumnya membutuhkan seluruh bab tabel daripada satu halaman), standar Normal digunakan untuk hampir semua perkiraan
sumber
Pembenaran untuk menggunakan distribusi t dalam interval kepercayaan untuk rata-rata bergantung pada asumsi bahwa data yang mendasarinya mengikuti distribusi normal, yang mengarah ke distribusi chi-kuadrat ketika memperkirakan standar deviasi, dan dengan demikian . Ini adalah hasil yang tepat dengan asumsi bahwa data persis normal yang mengarah ke interval kepercayaan dengan cakupan tepat 95% saat menggunakan , dan cakupan kurang dari 95% jika menggunakan .x¯−μs/n√∼tn−1 t z
Dalam kasus interval Wald untuk proporsi, Anda hanya mendapatkan normalitas asimptotik untuk saat n cukup besar, yang tergantung pada hal. Probabilitas cakupan aktual dari prosedur, karena jumlah keberhasilan yang mendasari adalah diskrit, kadang-kadang di bawah dan kadang-kadang di atas probabilitas cakupan nominal 95% tergantung pada tidak diketahui . Jadi, tidak ada justifikasi teoretis untuk menggunakan , dan tidak ada jaminan bahwa dari perspektif praktis bahwa menggunakan hanya untuk membuat interval lebih luas sebenarnya akan membantu mencapai cakupan nominal 95%.p^−pp^(1−p^)/n√ p t t
Probabilitas cakupan dapat dihitung dengan tepat, meskipun cukup mudah untuk mensimulasikannya. Contoh berikut menunjukkan probabilitas cakupan simulasi ketika n = 35. Ini menunjukkan bahwa probabilitas cakupan untuk menggunakan z-interval umumnya sedikit lebih kecil dari 0,95, sedangkan probabilitas cakupan untuk t-interval umumnya dapat lebih dekat dengan 0,95 rata-rata tergantung pada keyakinan Anda sebelumnya pada nilai-nilai yang masuk akal dari p .
sumber
Baik AdamO dan Jsk memberikan jawaban yang bagus.
Saya akan mencoba mengulangi poin mereka dengan bahasa Inggris:
Ketika distribusi yang mendasarinya normal, Anda tahu ada dua parameter: mean dan varians . Distribusi T menawarkan cara untuk melakukan inferensi pada mean tanpa mengetahui nilai yang tepat dari varians. Alih-alih menggunakan varians yang sebenarnya, hanya sampel sarana dan sampel varians diperlukan. Karena ini adalah distribusi yang tepat, Anda tahu persis apa yang Anda dapatkan. Dengan kata lain, probabilitas cakupannya benar. Penggunaan t hanya mencerminkan keinginan untuk mengatasi varians populasi yang tidak diketahui.
Ketika kita melakukan inferensi pada proporsi, bagaimanapun, distribusi yang mendasarinya adalah binomial. Untuk mendapatkan distribusi yang tepat, Anda perlu melihat interval kepercayaan Clopper-Pearson. Formula yang Anda berikan adalah formula untuk interval kepercayaan Wald. Ini menggunakan distribusi normal untuk mendekati distribusi binomial, karena distribusi normal adalah distribusi terbatas dari distribusi binomial. Dalam hal ini, karena Anda hanya mendekati, tingkat ketepatan tambahan dari menggunakan statistik t menjadi tidak perlu, semuanya berujung pada kinerja empiris. Seperti yang disarankan dalam jawaban BruceET, Agresti-Coull adalah formula sederhana dan standar saat ini untuk perkiraan seperti itu.
Profesor saya Dr Longnecker dari Texas A&M telah melakukan simulasi sederhana untuk menggambarkan bagaimana pendekatan yang berbeda bekerja dibandingkan dengan CI berbasis binomial.
Informasi lebih lanjut dapat ditemukan di artikel Estimasi Interval untuk Proporsi Binomial dalam Ilmu Statistik , Vol. 16, hal.101-133, oleh L. Brown, T. Cai dan A. DasGupta. Pada dasarnya, AC CI direkomendasikan untuk n> = 40.
sumber
sumber
Juga, harus dicatat bahwa pertanyaan ini mencerminkan jawaban yang diminta oleh pertanyaan ini .
sumber