Mengapa kami tidak menggunakan distribusi-t untuk membangun interval kepercayaan untuk proporsi?

18

Untuk menghitung interval kepercayaan (CI) untuk rata-rata dengan deviasi standar populasi yang tidak diketahui (SD) kami memperkirakan deviasi standar populasi dengan menggunakan t-distribusi. Khususnya, mana . Tetapi karena, kami tidak memiliki estimasi titik standar deviasi populasi, kami memperkirakan melalui perkiraan manaCI=X¯±Z95%σX¯σX¯=σnCI=X¯±t95%(se)se=sn

Sebaliknya, untuk proporsi populasi, untuk menghitung CI, kami memperkirakan sebagai CI=p^±Z95%(se) mana se=p^(1p^)n asalkan np^15 dan n(1p^)15

Pertanyaan saya adalah, mengapa kita puas dengan distribusi standar untuk proporsi populasi?

Abhijit
sumber
1
Intuisi saya mengatakan ini karena untuk mendapatkan kesalahan standar dari rata-rata Anda memiliki yang kedua tidak diketahui, σ , yang diperkirakan dari sampel untuk menyelesaikan perhitungan. Kesalahan standar untuk proporsi tidak melibatkan tambahan yang tidak diketahui.
Pasang kembali Monica - G. Simpson
@GavinSimpson Kedengarannya meyakinkan. Sebenarnya alasan kami memperkenalkan distribusi t adalah untuk mengkompensasi kesalahan yang diperkenalkan untuk mengkompensasi perkiraan standar deviasi.
Abhijit
3
Saya menemukan ini kurang meyakinkan sebagian karena distribusi muncul dari independensi varians sampel dan rata-rata sampel dalam sampel dari distribusi Normal, sedangkan untuk sampel dari distribusi Binomial dua kuantitas tidak independen. t
whuber
@ Abhijit Beberapa buku teks menggunakan t-distribusi sebagai perkiraan untuk statistik ini (dalam kondisi tertentu) - mereka tampaknya menggunakan n-1 sebagai df. Sementara saya belum melihat argumen formal yang bagus untuk itu, perkiraannya tampaknya sering bekerja dengan cukup baik; untuk kasus-kasus yang telah saya periksa, biasanya sedikit lebih baik daripada perkiraan normal (tetapi untuk itu ada argumen asimptotik yang solid, pendekatan-t kurang). [Sunting: cek saya sendiri kurang lebih mirip dengan pertunjukan whuber itu; perbedaan antara z dan t yang jauh lebih kecil daripada perbedaan mereka dari statistik]
Glen_b -Reinstate Monica
1
Mungkin ada argumen yang mungkin (mungkin didasarkan pada syarat awal ekspansi seri misalnya) yang dapat menetapkan bahwa t harus hampir selalu diharapkan menjadi lebih baik, atau mungkin bahwa itu harus lebih baik dalam beberapa kondisi tertentu, tetapi saya belum melihat argumen semacam ini. Secara pribadi saya biasanya tetap pada z tetapi saya tidak khawatir jika seseorang menggunakan t.
Glen_b -Reinstate Monica

Jawaban:

20

Baik distribusi t Normal dan Pelajar standar merupakan perkiraan yang kurang baik untuk distribusi

Z=p^pp^(1p^)/n

untuk kecil sangat buruk sehingga kesalahan mengecilkan perbedaan antara dua distribusi ini.n,

Berikut ini adalah perbandingan dari ketiga distribusi (menghilangkan kasus di mana atau adalah nol, di mana rasio tidak terdefinisi) untukp^1p^n=10,p=1/2:

Gambar 1

Distribusi "empiris" adalah dari yang harus diskrit karena estimasi terbatas pada himpunan terbatasZ,p { 0 , 1 / n , 2 / n , ... , n / n } .p^{0,1/n,2/n,,n/n}.

The distribusi muncul untuk melakukan pekerjaan yang lebih baik dari perkiraan.t

Untuk dan Anda dapat melihat perbedaan antara distribusi t Normal dan Pelajar standar benar-benar dapat diabaikan:n=30p=1/2,

Gambar 2

Karena distribusi t Student lebih rumit daripada Normal normal (itu benar-benar seluruh keluarga distribusi diindeks oleh "derajat kebebasan," sebelumnya membutuhkan seluruh bab tabel daripada satu halaman), standar Normal digunakan untuk hampir semua perkiraan

whuber
sumber
2
Jawaban berkualitas. +1
Demetri Pananos
10

Pembenaran untuk menggunakan distribusi t dalam interval kepercayaan untuk rata-rata bergantung pada asumsi bahwa data yang mendasarinya mengikuti distribusi normal, yang mengarah ke distribusi chi-kuadrat ketika memperkirakan standar deviasi, dan dengan demikian . Ini adalah hasil yang tepat dengan asumsi bahwa data persis normal yang mengarah ke interval kepercayaan dengan cakupan tepat 95% saat menggunakan , dan cakupan kurang dari 95% jika menggunakan .x¯μs/ntn1tz

Dalam kasus interval Wald untuk proporsi, Anda hanya mendapatkan normalitas asimptotik untuk saat n cukup besar, yang tergantung pada hal. Probabilitas cakupan aktual dari prosedur, karena jumlah keberhasilan yang mendasari adalah diskrit, kadang-kadang di bawah dan kadang-kadang di atas probabilitas cakupan nominal 95% tergantung pada tidak diketahui . Jadi, tidak ada justifikasi teoretis untuk menggunakan , dan tidak ada jaminan bahwa dari perspektif praktis bahwa menggunakan hanya untuk membuat interval lebih luas sebenarnya akan membantu mencapai cakupan nominal 95%.p^pp^(1p^)/nptt

Probabilitas cakupan dapat dihitung dengan tepat, meskipun cukup mudah untuk mensimulasikannya. Contoh berikut menunjukkan probabilitas cakupan simulasi ketika n = 35. Ini menunjukkan bahwa probabilitas cakupan untuk menggunakan z-interval umumnya sedikit lebih kecil dari 0,95, sedangkan probabilitas cakupan untuk t-interval umumnya dapat lebih dekat dengan 0,95 rata-rata tergantung pada keyakinan Anda sebelumnya pada nilai-nilai yang masuk akal dari p .

enter image description here

enter image description here

jsk
sumber
3
+1 Ini adalah ilustrasi yang sangat baik dari klaim yang saya buat (hanya berdasarkan pemeriksaan grafik CDF, bukan demonstrasi yang ketat) tentang akurasi relatif t Student dan CI normal.
whuber
6

Baik AdamO dan Jsk memberikan jawaban yang bagus.

Saya akan mencoba mengulangi poin mereka dengan bahasa Inggris:

Ketika distribusi yang mendasarinya normal, Anda tahu ada dua parameter: mean dan varians . Distribusi T menawarkan cara untuk melakukan inferensi pada mean tanpa mengetahui nilai yang tepat dari varians. Alih-alih menggunakan varians yang sebenarnya, hanya sampel sarana dan sampel varians diperlukan. Karena ini adalah distribusi yang tepat, Anda tahu persis apa yang Anda dapatkan. Dengan kata lain, probabilitas cakupannya benar. Penggunaan t hanya mencerminkan keinginan untuk mengatasi varians populasi yang tidak diketahui.

Ketika kita melakukan inferensi pada proporsi, bagaimanapun, distribusi yang mendasarinya adalah binomial. Untuk mendapatkan distribusi yang tepat, Anda perlu melihat interval kepercayaan Clopper-Pearson. Formula yang Anda berikan adalah formula untuk interval kepercayaan Wald. Ini menggunakan distribusi normal untuk mendekati distribusi binomial, karena distribusi normal adalah distribusi terbatas dari distribusi binomial. Dalam hal ini, karena Anda hanya mendekati, tingkat ketepatan tambahan dari menggunakan statistik t menjadi tidak perlu, semuanya berujung pada kinerja empiris. Seperti yang disarankan dalam jawaban BruceET, Agresti-Coull adalah formula sederhana dan standar saat ini untuk perkiraan seperti itu.

Profesor saya Dr Longnecker dari Texas A&M telah melakukan simulasi sederhana untuk menggambarkan bagaimana pendekatan yang berbeda bekerja dibandingkan dengan CI berbasis binomial.

Comparison of Various 95% C.I.’s for Proportion

Informasi lebih lanjut dapat ditemukan di artikel Estimasi Interval untuk Proporsi Binomial dalam Ilmu Statistik , Vol. 16, hal.101-133, oleh L. Brown, T. Cai dan A. DasGupta. Pada dasarnya, AC CI direkomendasikan untuk n> = 40.

enter image description here

Qilin Wang
sumber
3

X1,X2,XnμσH0:μ=μ0Ha:μμ0Z=X¯μ0σ/n.H0ZNorm(0,1),H0|Z|1.96.

μμ0μ.X¯±1.96σ/n,±1.96

σS,T=X¯μ0S/n.TnSσ.

TT(ν=n1),n1σX¯±tS/n,±tT(n1).

n>30,t21.96.Sσσn>30,

Xnp^=X/np.H0:p=p0Ha:pp>0,Z=p^p0p0(1p0)/n.H0,ZaprxNorm(0,1).H0|Z|1.96.

p,p^±1.96p(1p)n.pn,p^p.p^±1.96p^(1p^)n.n

nˇ=n+4pˇ=(X+2)/nˇpˇ±1.96pˇ(1pˇ)nˇ.

μp

Sσσ

p^pp^p.pn.

BruceET
sumber
2

σ

σ

σ

σ

Juga, harus dicatat bahwa pertanyaan ini mencerminkan jawaban yang diminta oleh pertanyaan ini .

AdamO
sumber
2
Nama samaran Gosset yang diterbitkan di bawah adalah "Student", bukan "Student-T". Dia juga tidak benar-benar datang dengan standar t-distribusi itu sendiri, juga bukan statistik dia berurusan dengan sebenarnya t-statistik (dia melakukan hal-hal yang setara, pada dasarnya berurusan dengan skala t, tetapi hampir semua formalisme yang kita miliki sekarang datang dari pekerjaan Fisher). Fisher menulis statistik dengan cara kami menulisnya. Fisher menyebutnya t. Fisher secara resmi menurunkan distribusi statistik (menunjukkan kombinasi aljabar, intuisi, dan argumen simulasi simulasi Gosset tentang versi statistiknya sudah benar)
Glen_b -Reinstate Monica
1
Lihat makalah Gosset tahun 1908 di sini: archive.org/details/biometrika619081909pear/page/n13 - ada juga pdf yang dapat dibaca yang bagus dari kertas yang diulang di LaTeX di sini . Perhatikan bahwa ini adalah dari hak cipta karena datang lebih dari beberapa tahun sebelum Steamboat Willie .
Glen_b -Reinstate Monica
@Glen_b Terima kasih! Saya menghapus anekdot yang kelihatannya salah dalam sejarah.
AdamO