Morey et al (2015) berpendapat bahwa interval kepercayaan menyesatkan dan ada beberapa bias terkait dengan pemahaman mereka. Antara lain, mereka menggambarkan kekeliruan presisi sebagai berikut:
Kesalahan Presisi
Lebar interval kepercayaan menunjukkan ketepatan pengetahuan kita tentang parameter. Interval kepercayaan sempit menunjukkan pengetahuan yang tepat, sementara kesalahan kepercayaan yang luas menunjukkan pengetahuan yang tidak tepat.Tidak ada hubungan yang diperlukan antara ketepatan estimasi dan ukuran interval kepercayaan. Salah satu cara untuk melihat ini adalah dengan membayangkan dua peneliti - seorang peneliti senior dan seorang mahasiswa PhD - sedang menganalisis data dari peserta dari percobaan. Sebagai latihan untuk keuntungan mahasiswa PhD, peneliti senior memutuskan untuk secara acak membagi peserta menjadi dua set sehingga masing-masing dapat secara terpisah menganalisis setengah dari set data. Dalam pertemuan berikutnya, kedua berbagi dengan satu sama lain Student mereka interval kepercayaan untuk mean. CI mahasiswa PhD adalah , dan 95 \% CI peneliti senior 53 \ pm 4 .
Peneliti senior mencatat bahwa hasil mereka konsisten secara luas, dan bahwa mereka dapat menggunakan rata-rata tertimbang rata-rata dari dua estimasi poin masing-masing, , sebagai perkiraan keseluruhan dari rata-rata sebenarnya.
Mahasiswa PhD, bagaimanapun, berpendapat bahwa dua cara mereka tidak boleh ditimbang secara merata: ia mencatat bahwa CI-nya setengah lebar dan berpendapat bahwa perkiraannya lebih tepat dan karenanya harus ditimbang lebih berat. Penasihatnya mencatat bahwa ini tidak mungkin benar, karena estimasi dari pembobotan dua cara yang tidak rata akan berbeda dari perkiraan dari menganalisis set data lengkap, yang harus . Kesalahan mahasiswa PhD adalah mengasumsikan bahwa CI secara langsung menunjukkan ketepatan pasca data.
Contoh di atas tampaknya menyesatkan. Jika kita secara acak membagi sampel menjadi dua, menjadi dua sampel, maka kita akan mengharapkan rata-rata sampel dan kesalahan standar menjadi dekat. Dalam kasus seperti itu seharusnya tidak ada perbedaan antara menggunakan rata-rata tertimbang (misalnya ditimbang dengan kesalahan terbalik) dan menggunakan rata-rata aritmatika sederhana. Namun jika perkiraan berbeda dan kesalahan dalam salah satu sampel terasa lebih besar, ini dapat menyarankan "masalah" dengan sampel tersebut.
Jelas, dalam contoh di atas, ukuran sampel sama sehingga "menyatukan kembali" data dengan mengambil rata-rata berarti sama dengan mengambil rata-rata seluruh sampel. Masalahnya adalah bahwa seluruh contoh mengikuti logika yang tidak jelas bahwa sampel pertama-tama dibagi menjadi beberapa bagian, kemudian digabungkan kembali untuk perkiraan akhir.
Contohnya dapat diutarakan kembali untuk mengarah pada kesimpulan sebaliknya:
Peneliti dan siswa memutuskan untuk membagi dataset mereka menjadi dua bagian dan menganalisisnya secara terpisah. Setelah itu, mereka membandingkan perkiraan mereka dan tampak bahwa sampel berarti bahwa mereka menghitung sangat berbeda, apalagi kesalahan standar estimasi siswa jauh lebih besar. Siswa takut bahwa ini dapat menyarankan masalah dengan ketepatan perkiraannya, tetapi peneliti menyiratkan bahwa tidak ada hubungan antara interval kepercayaan dan ketepatan, sehingga kedua perkiraan sama-sama dapat dipercaya dan mereka dapat menerbitkan salah satu dari mereka, dipilih secara acak, sebagai estimasi akhir mereka.
Menyatakannya secara lebih formal, interval kepercayaan "standar", seperti Student , didasarkan pada kesalahan
di mana adalah konstanta. Dalam kasus seperti itu, mereka berhubungan langsung dengan presisi, bukan ..?
Jadi pertanyaan saya adalah:
Apakah kekeliruan presisi benar-benar kekeliruan? Apa yang dikatakan interval kepercayaan tentang presisi?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). Kesalahan menempatkan kepercayaan dalam interval kepercayaan. Buletin & Ulasan Psikonomis, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Jawaban:
Dalam makalah ini, kami benar-benar menunjukkan kesalahan presisi dalam berbagai cara. Yang Anda tanyakan - yang pertama di koran - Contoh ini dimaksudkan untuk menunjukkan bahwa "CI = presisi" sederhana salah. Ini bukan untuk mengatakan bahwa frequentist kompeten, Bayesian, atau likelihoodist akan bingung dengan ini.
Berikut cara lain untuk melihat apa yang terjadi: Jika kami hanya diberi tahu CI, kami masih tidak dapat menggabungkan informasi dalam sampel bersama-sama; kita perlu mengetahui , dan dari situ kita bisa menguraikan CI menjadi ˉ x dan s 2 , dan dengan demikian menggabungkan kedua sampel dengan benar. Alasan kita harus melakukan ini adalah bahwa informasi dalam CI bersifat marjinal di atas parameter gangguan. Kita harus memperhitungkan bahwa kedua sampel mengandung informasi tentang parameter gangguan yang sama . Ini melibatkan komputasi nilai kedua s 2 , menggabungkan mereka untuk mendapatkan estimasi keseluruhan σ 2 , kemudian menghitung CI baru.N x¯ s2 s2 σ2
Adapun demonstrasi ketepatan presisi lainnya, lihat
Jawaban atas teka-teki ini adalah "presisi", setidaknya dalam cara advokat CI memikirkannya (penilaian pasca-eksperimental tentang seberapa "dekat" suatu estimasi terhadap suatu parameter) sama sekali bukan karakteristik yang dimiliki interval kepercayaan secara umum. , dan mereka tidak dimaksudkan untuk itu. Prosedur kepercayaan khusus mungkin ... atau tidak.
Lihat juga diskusi di sini: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
sumber
Pertama-tama, mari batasi diri kita pada prosedur CI yang hanya menghasilkan interval dengan lebar benar-benar positif terbatas (untuk menghindari kasus patologis).
Dalam hal ini, hubungan antara presisi dan lebar CI dapat ditunjukkan secara teoritis. Ambil taksiran untuk rata-rata (bila ada). Jika CI Anda untuk rata-rata sangat sempit, maka Anda memiliki dua interpretasi: apakah Anda memiliki nasib buruk dan sampel Anda terlalu padat (peluang priori 5% dari hal itu terjadi), atau interval Anda mencakup rata-rata yang sebenarnya (95% kesempatan a priori). Tentu saja, CI yang diamati dapat merupakan salah satu dari dua ini, tetapi , kami menyiapkan perhitungan kami sehingga yang terakhir jauh lebih mungkin terjadi (yaitu, 95% kemungkinan a priori) ... maka, kami memiliki tingkat tinggi dari keyakinanbahwa interval kami mencakup rata-rata, karena kami mengatur semuanya secara probabilistik jadi ini memang demikian. Dengan demikian, CI 95% bukan interval probabilitas (seperti Bayesian Credible Interval), tetapi lebih seperti "penasihat tepercaya" ... seseorang yang, secara statistik, benar 95% dari waktu, jadi kami mempercayai jawaban mereka meskipun jawaban tertentu apa pun bisa saja salah.
Dalam 95% kasus di mana ia benar-benar menutupi parameter aktual, maka lebarnya memberitahu Anda sesuatu tentang kisaran nilai yang masuk akal yang diberikan data (yaitu, seberapa baik Anda dapat mengikat nilai sebenarnya), maka itu bertindak seperti ukuran presisi . Dalam 5% kasus di mana tidak, maka CI menyesatkan (karena sampel menyesatkan).
Jadi, apakah lebar CI 95% menunjukkan presisi ... Saya akan mengatakan ada kemungkinan 95% melakukannya (asalkan lebar CI Anda terbatas-positif) ;-)
Apa itu CI yang masuk akal?
Sebagai tanggapan terhadap posting penulis asli, saya telah merevisi tanggapan saya untuk (a) memperhitungkan bahwa contoh "sampel terpisah" memiliki tujuan yang sangat spesifik, dan (b) untuk memberikan latar belakang yang lebih seperti yang diminta oleh komentator:
Dalam dunia ideal (frequentist), semua distribusi sampel akan menerima statistik penting yang bisa kita gunakan untuk mendapatkan interval kepercayaan yang tepat. Apa yang hebat tentang statistik penting? Distribusi mereka dapat diturunkan tanpa mengetahui nilai aktual dari parameter yang diperkirakan! Dalam kasus-kasus yang bagus ini, kami memiliki distribusi yang tepat dari statistik sampel kami relatif terhadap parameter sebenarnya (walaupun mungkin tidak gaussian) tentang parameter ini.
Secara lebih ringkas: Kita tahu distribusi kesalahan (atau beberapa transformasi darinya).
Kualitas beberapa penaksir inilah yang memungkinkan kami membentuk interval kepercayaan yang masuk akal. Interval ini tidak hanya memenuhi definisi mereka ... mereka melakukannya berdasarkan diturunkan dari distribusi kesalahan estimasi yang sebenarnya.
Distribusi Gaussian dan statistik Z yang terkait adalah contoh kanonik dari penggunaan kuantitas penting untuk mengembangkan CI yang tepat untuk rata-rata. Ada contoh yang lebih esoteris, tetapi ini umumnya yang memotivasi "teori sampel besar", yang pada dasarnya merupakan upaya menerapkan teori di balik Gaussian CIs untuk distribusi yang tidak mengakui kuantitas sangat penting. Dalam kasus ini, Anda akan membaca tentang jumlah yang kira-kira penting, atau sangat penting asimtotis (dalam ukuran sampel) atau interval kepercayaan "perkiraan" ... ini didasarkan pada teori kemungkinan - khususnya, fakta bahwa distribusi kesalahan untuk banyak MLEs mendekati distribusi normal.
Pendekatan lain untuk menghasilkan CI yang masuk akal adalah "membalikkan" suatu uji hipotesis. Idenya adalah bahwa tes "baik" (misalnya, UMP) akan menghasilkan CI yang baik (baca: sempit) untuk tingkat kesalahan Tipe I yang diberikan. Ini tidak cenderung memberikan cakupan yang tepat, tetapi memberikan cakupan batas bawah (catatan: definisi sebenarnya dari X% -CI hanya mengatakan itu harus mencakup parameter sebenarnya setidaknya X% dari waktu).
Penggunaan tes hipotesis tidak secara langsung memerlukan kuantitas penting atau distribusi kesalahan - kepekaannya berasal dari kepekaan tes yang mendasarinya. Misalnya, jika kami memiliki tes yang wilayah penolakannya memiliki panjang 0 5% dari waktu dan panjang tak terbatas 95% dari waktu, kami akan kembali ke tempat kami dengan CI - tetapi jelas bahwa tes ini tidak tergantung pada data, dan karenanya tidak akan memberikan informasi apa pun tentang parameter mendasar yang sedang diuji.
Gagasan yang lebih luas ini - bahwa perkiraan ketelitian harus bergantung pada data, kembali ke Fischer dan gagasan statistik tambahan. Anda dapat yakin bahwa jika hasil tes atau prosedur CI Anda TIDAK dikondisikan oleh data (yaitu, perilaku kondisionalnya sama dengan perilaku tanpa syarat), maka Anda memiliki metode yang dipertanyakan di tangan Anda.
sumber
Alasan mengapa saya tidak berpikir kita harus peduli tentang kesalahan jelas ini adalah bahwa meskipun benar bahwa tidak ada koneksi yang diperlukan antara lebar interval keyakinan dan presisi, ada adalah koneksi hampir universal antara kesalahan standar dan presisi, dan di kebanyakan kasus, lebar interval kepercayaan sebanding dengan kesalahan standar.
sumber
Saya pikir perbedaan yang dapat dibuktikan antara "interval kepercayaan" dan "presisi" (lihat jawaban dari @dsaxton) penting karena perbedaan itu menunjukkan masalah dalam penggunaan umum kedua istilah.
Mengutip dari Wikipedia :
Dengan demikian, orang mungkin berpendapat bahwa interval kepercayaan yang sering terjadi memang mewakili tipe ketepatan skema pengukuran . Jika seseorang mengulangi skema yang sama, CI 95% yang dihitung untuk setiap pengulangan akan berisi satu nilai sebenarnya dari parameter dalam 95% dari pengulangan.
Namun, ini bukan yang diinginkan banyak orang dari ukuran kepraktisan praktis. Mereka ingin tahu seberapa dekat nilai diukur dengan benar nilai . Interval kepercayaan sering tidak secara ketat memberikan ukuran ketelitian. Daerah kredibel Bayesian lakukan.
Beberapa kebingungannya adalah bahwa, dalam contoh praktis, interval kepercayaan yang sering terjadi dan wilayah Bayesian yang kredibel "akan lebih atau kurang tumpang tindih" . Pengambilan sampel dari distribusi normal, seperti dalam beberapa komentar di OP, adalah contohnya. Itu mungkin juga merupakan kasus dalam praktik untuk beberapa jenis analisis yang lebih luas yang ada dalam pikiran @Bey, berdasarkan perkiraan kesalahan standar dalam proses yang memiliki distribusi normal dalam batas tersebut.
Jika Anda tahu bahwa Anda berada dalam situasi seperti itu , maka mungkin tidak ada bahaya praktis dalam menafsirkan 95% CI tertentu, dari implementasi tunggal dari skema pengukuran, karena memiliki kemungkinan 95% mengandung nilai sebenarnya. Interpretasi interval kepercayaan itu, bagaimanapun, bukan dari statistik frequentist, yang nilainya sebenarnya baik atau tidak dalam interval tertentu.
Jika interval kepercayaan dan wilayah kredibel berbeda nyata, interpretasi seperti interval kepercayaan frequentist Bayesian bisa menyesatkan atau salah, seperti yang ditunjukkan oleh makalah terkait di atas dan literatur sebelumnya yang dirujuk di dalamnya. Ya, "akal sehat" mungkin membantu menghindari kesalahpahaman seperti itu, tetapi dalam pengalaman saya "akal sehat" tidak begitu umum.
Halaman CrossValidated lainnya mengandung lebih banyak informasi tentang interval kepercayaan dan perbedaan antara interval kepercayaan dan wilayah yang kredibel . Tautan dari halaman tersebut juga sangat informatif.
sumber
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Dengan memilikinya. Tidak ada hubungan yang diperlukan antara skor dan kinerja atau harga dan kualitas atau bau dan rasa. Namun yang satu biasanya menginformasikan tentang yang lain.
Seseorang dapat membuktikan dengan induksi bahwa seseorang tidak dapat memberikan kuis. Pada pemeriksaan dekat ini berarti seseorang tidak dapat menjamin kuis itu kejutan. Namun sebagian besar waktu akan terjadi.
Kedengarannya seperti Morey et al menunjukkan bahwa ada kasus di mana lebarnya tidak informatif. Meskipun itu cukup untuk mengklaim "Tidak ada hubungan yang diperlukan antara ketepatan estimasi dan ukuran interval kepercayaan", tidak cukup untuk menyimpulkan lebih lanjut bahwa CI umumnya tidak mengandung informasi tentang ketepatan. Hanya bahwa mereka tidak dijamin melakukannya.
(Poin tidak cukup untuk + @ Bey jawaban.)
sumber