Saya punya dua pertanyaan tentang interval kepercayaan:
Rupanya interval kepercayaan yang sempit menyiratkan bahwa ada kemungkinan lebih kecil untuk mendapatkan pengamatan dalam interval itu, oleh karena itu, akurasi kami lebih tinggi.
Interval kepercayaan 95% juga lebih sempit dari interval kepercayaan 99% yang lebih luas.
Interval kepercayaan 99% lebih akurat daripada 95%.
Dapatkah seseorang memberikan penjelasan sederhana yang dapat membantu saya memahami perbedaan antara akurasi dan kesempitan ini?
confidence-interval
di atas
sumber
sumber
a narrow confidence interval implies that there is a smaller chance of obtaining an observation within that interval
itu benar. Bisakah Anda jelaskan di mana saya melakukan kesalahan?Jawaban:
95% tidak terikat secara numerik sama sekali pada seberapa yakin Anda bahwa Anda telah membahas efek sebenarnya dalam percobaan Anda. Mungkin mengenali bahwa "interval menggunakan perhitungan rentang cakupan 95%" mungkin nama yang lebih akurat untuk itu. Anda dapat membuat pilihan untuk memutuskan bahwa interval berisi nilai sebenarnya; dan Anda akan benar jika Anda melakukannya secara konsisten 95% dari waktu. Tetapi Anda benar-benar tidak tahu seberapa besar kemungkinannya untuk eksperimen khusus Anda tanpa lebih banyak informasi.
T1: Permintaan pertama Anda mengonfigurasi dua hal dan menyalahgunakan istilah. Tidak heran Anda bingung. Interval kepercayaan yang lebih sempit mungkin lebih tepat tetapi, ketika dihitung dengan cara yang sama, seperti metode 95%, mereka semua memiliki akurasi yang sama. Mereka menangkap nilai sebenarnya dengan proporsi waktu yang sama.
Selain itu, hanya karena sempit, bukan berarti Anda kecil kemungkinannya untuk menemukan sampel yang termasuk dalam interval kepercayaan sempit itu. Interval kepercayaan yang sempit dapat dicapai dengan satu dari tiga cara. Metode eksperimental atau sifat data hanya bisa memiliki varians yang sangat rendah. Interval kepercayaan di sekitar titik didih air keran di permukaan laut cukup kecil, terlepas dari ukuran sampel. Interval kepercayaan di sekitar berat rata-rata orang mungkin agak besar karena orang sangat bervariasi tetapi orang dapat membuat interval kepercayaan itu lebih kecil dengan hanya memperoleh lebih banyak pengamatan. Dalam hal itu, ketika Anda mendapatkan lebih banyak kepastian tentang di mana Anda percaya nilai sebenarnya, dengan mengumpulkan lebih banyak sampel dan membuat interval kepercayaan yang lebih sempit, maka kemungkinan bertemu dengan seseorang dalam interval kepercayaan itu turun. (Ini turun dalam hal apa pun ketika Anda meningkatkan ukuran sampel, tetapi Anda mungkin tidak repot-repot mengumpulkan sampel besar dalam wadah air mendidih). Akhirnya, bisa jadi sempit karena sampel Anda tidak representatif. Dalam hal ini, Anda sebenarnya cenderung memiliki salah satu dari 5% interval yang tidak mengandung nilai sebenarnya. Ini sedikit paradoks mengenai lebar CI dan sesuatu yang harus Anda periksa dengan mengetahui literatur dan bagaimana variabel data ini biasanya. Dalam hal ini, Anda sebenarnya cenderung memiliki salah satu dari 5% interval yang tidak mengandung nilai sebenarnya. Ini sedikit paradoks mengenai lebar CI dan sesuatu yang harus Anda periksa dengan mengetahui literatur dan bagaimana variabel data ini biasanya. Dalam hal ini, Anda sebenarnya cenderung memiliki salah satu dari 5% interval yang tidak mengandung nilai sebenarnya. Ini sedikit paradoks mengenai lebar CI dan sesuatu yang harus Anda periksa dengan mengetahui literatur dan bagaimana variabel data ini biasanya.
Lebih lanjut pertimbangkan bahwa interval kepercayaan adalah tentang mencoba memperkirakan nilai rata-rata sebenarnya dari populasi. Jika Anda tahu tempat itu maka Anda akan lebih tepat (dan akurat) dan bahkan tidak memiliki kisaran perkiraan. Tetapi probabilitas Anda untuk menemukan pengamatan dengan nilai yang persis sama akan jauh lebih rendah daripada menemukan satu dalam CI berdasarkan sampel tertentu.
T2 : Interval kepercayaan 99% lebih lebar dari 95%. Oleh karena itu, kemungkinan besar itu akan mengandung nilai sebenarnya. Lihat perbedaan di atas antara tepat dan akurat, Anda menggabungkan keduanya. Jika saya membuat interval kepercayaan lebih sempit dengan variabilitas yang lebih rendah dan ukuran sampel yang lebih tinggi menjadi lebih tepat, nilai-nilai yang mungkin mencakup rentang yang lebih kecil. Jika saya meningkatkan cakupan dengan menggunakan perhitungan 99% menjadi lebih akurat, nilai sebenarnya lebih mungkin berada dalam kisaran.
sumber
Untuk dataset yang diberikan, meningkatkan tingkat kepercayaan dari interval kepercayaan hanya akan menghasilkan interval yang lebih besar (atau setidaknya tidak lebih kecil ). Itu bukan tentang akurasi atau ketepatan melainkan tentang seberapa besar risiko yang Anda bersedia untuk kehilangan nilai sebenarnya.
Jika Anda membandingkan interval kepercayaan untuk jenis parameter yang sama dari beberapa set data dan satu lebih kecil dari yang lain, Anda bisa mengatakan bahwa yang lebih kecil lebih tepat . Saya lebih suka berbicara tentang ketelitian daripada ketepatan dalam situasi ini (lihat artikel Wikipedia yang relevan ini ).
sumber
Pertama-tama, CI untuk persentase kepercayaan tertentu (eg95%) berarti, untuk semua tujuan praktis (meskipun secara teknis tidak benar) bahwa Anda yakin bahwa nilai sebenarnya ada dalam interval.
Jika interval ini "sempit" (perhatikan bahwa ini hanya dapat dianggap secara relatif, jadi, untuk perbandingan dengan yang berikut, katakanlah lebar 1 unit), itu berarti bahwa tidak ada banyak ruang untuk bermain: nilai mana pun Anda memilih interval yang akan mendekati nilai sebenarnya (karena intervalnya sempit), dan Anda cukup yakin akan hal itu (95%).
Bandingkan ini dengan CI 95% yang relatif lebar (untuk mencocokkan contoh sebelumnya, katakanlah 100 unit lebar): di sini, Anda masih 95% yakin bahwa nilai sebenarnya akan berada dalam interval ini, namun itu tidak memberi tahu Anda banyak, karena ada relatif banyak nilai dalam interval (sekitar faktor 100 sebagai lawan 1 - dan saya meminta, sekali lagi, puritan untuk mengabaikan penyederhanaan).
Biasanya, Anda akan membutuhkan interval yang lebih besar ketika Anda ingin menjadi 99% yakin bahwa nilai sebenarnya ada di dalamnya, daripada ketika Anda hanya perlu 95% pasti (catatan: ini mungkin tidak benar jika interval tidak bersarang ), jadi memang, semakin banyak kepercayaan yang Anda butuhkan, semakin luas interval yang akan Anda pilih.
Di sisi lain, Anda adalah lebih tertentu dengan interval keyakinan yang lebih tinggi. Jadi, jika saya memberi Anda 2 interval dengan lebar yang sama, dan saya katakan satu adalah 95% CI dan yang lainnya adalah 99% CI, saya harap Anda lebih suka yang 99%. Dalam hal ini, 99% CI lebih akurat: Anda memiliki sedikit keraguan bahwa Anda akan melewatkan kebenaran.
sumber
Saya menambahkan beberapa jawaban bagus di sini yang saya berikan upvotes. Saya pikir ada sedikit lagi yang harus dikatakan untuk sepenuhnya menjernihkan kesimpulan. Saya suka istilah yang akurat dan tepat karena Efron mendefinisikannya. Saya memberikan diskusi panjang tentang hal ini baru-baru ini pada pertanyaan yang berbeda. Whuber sedang benar-benar menyukai jawaban itu. Saya tidak akan pergi ke lnegth yang sama untuk mengulanginya di sini. Namun untuk Efron akurasi berhubungan dengan tingkat kepercayaan dan kebenaran dengan lebar atau ketatnya interval. Tetapi Anda tidak dapat berbicara tentang sesak tanpa mempertimbangkan keakuratan terlebih dahulu. Beberapa interval kepercayaan tepat yang akurat karena mereka memiliki cakupan aktual yang mereka iklankan. Interval kepercayaan 95% juga bisa merupakan perkiraan karena menggunakan distribusi asimptotik. Interval perkiraan berdasarkan asimptotik adalah untuk ukuran sampel terbatas dan tidak akan memiliki cakupan yang diiklankan yang merupakan cakupan yang akan Anda dapatkan jika distribusi asimptotik adalah distribusi yang tepat. Jadi interval perkiraan bisa menyamar (yaitu beriklan 95% ketika cakupan aktualnya hanya 91%) atau dalam kasus tersembunyi tetapi kurang serius (yaitu cakupan yang diiklankan adalah 95% tetapi aktual di 98%). Dalam kasus sebelumnya, kami khawatir tentang seberapa dekat cakupan sebenarnya dengan cakupan yang diiklankan). Ukuran kedekatan adalah urutan akurasi yang bisa dikatakan 1 / √n atau 1 / n. Jika tingkat kepercayaan aktual dekat, kami menyebutnya akurat. Accuray penting dengan interval kepercayaan bootstrap yang tidak pernah tepat tetapi beberapa varian lebih akurat daripada yang lain.
Definisi keakuratan ini mungkin berbeda dengan yang OP maksudkan tetapi harus jelas sekarang apa definisi Efron dan mengapa penting untuk menjadi akurat. Sekarang jika Anda memiliki dua metode yang tepat, kami dapat memilih satu dari yang lain jika untuk tingkat kepercayaan apa pun ia memiliki lebar yang diharapkan lebih kecil. Interval kepercayaan yang paling baik dalam hal ini (kadang-kadang disebut terpendek) adalah yang akan dipilih. Tetapi ini membutuhkan ketelitian. Jika tingkat kepercayaannya hanya perkiraan, kita bisa membandingkan apel dan jeruk. Satu bisa lebih sempit daripada yang lain hanya karena kurang akurat dan karenanya memiliki cakupan aktual yang lebih rendah daripada cakupan yang diiklankan.
Jika dua interval kepercayaan keduanya sangat akurat atau satu tepat dan yang lainnya sangat akurat membandingkan lebar yang diharapkan mungkin baik-baik saja karena setidaknya sekarang kita melihat hanya dua dua varietas apel.
sumber