Kapan interval kepercayaan berguna?

30

Jika saya mengerti dengan benar, interval kepercayaan parameter adalah interval yang dibangun oleh metode yang menghasilkan interval yang berisi nilai sebenarnya untuk proporsi sampel tertentu. Jadi 'kepercayaan' adalah tentang metode daripada interval yang saya hitung dari sampel tertentu.

Sebagai pengguna statistik, saya selalu merasa tertipu oleh ini karena ruang semua sampel adalah hipotetis. Yang saya miliki hanyalah satu sampel dan saya ingin tahu apa yang dikatakan sampel tentang parameter.

Apakah penilaian ini salah? Adakah cara melihat interval kepercayaan, setidaknya dalam beberapa keadaan, yang akan berarti bagi pengguna statistik?

[Pertanyaan ini muncul dari pikiran kedua setelah menyela interval kepercayaan dalam jawaban math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-onased-oncidence-level/7572/7572 # 7572 ]

Jyotirmoy Bhattacharya
sumber

Jawaban:

15

Saya suka menganggap CI sebagai cara untuk keluar dari kerangka kerja Pengujian Hipotesis (HT), setidaknya kerangka kerja keputusan biner mengikuti pendekatan Neyman , dan tetap sejalan dengan teori pengukuran dalam beberapa cara. Lebih tepatnya, saya melihat mereka lebih dekat dengan keandalan estimasi (perbedaan cara, misalnya), dan sebaliknya HT lebih dekat dengan penalaran hipotetis-deduktif, dengan perangkapnya (kami tidak dapat menerima nol, alternatifnya adalah sering stokastik, dll). Namun, dengan estimasi interval dan HT kita harus bergantung pada asumsi distribusi sebagian besar waktu (misalnya distribusi sampling di bawah ), yang memungkinkan untuk membuat kesimpulan dari sampel kami ke populasi umum atau yang representatif (setidaknya dalam pendekatan frequentist).H0

Dalam banyak konteks, CIs adalah pelengkap untuk HT biasa, dan saya melihatnya seperti pada gambar berikut (berada di bawah ):H0

teks alternatif

yaitu, di bawah kerangka kerja HT (kiri), Anda melihat seberapa jauh statistik Anda dari nol, sementara dengan CI (kanan) Anda melihat efek nol "dari statistik Anda", dalam arti tertentu.

Juga, perhatikan bahwa untuk jenis statistik tertentu, seperti odds-rasio, HT sering tidak berarti dan lebih baik untuk melihat CI terkait yang asimetris dan memberikan informasi yang lebih relevan mengenai arah dan ketepatan asosiasi, jika ada.

chl
sumber
Mengapa Anda mengatakan tes hipotesis sering tidak berarti untuk rasio odds, lebih dari perkiraan efek lainnya? Sebagai gantinya, saya menekankan bahwa interval kepercayaan lebih berguna daripada kesalahan standar untuk rasio odds dan perkiraan lainnya dengan distribusi sampling asimetris dalam sampel terbatas.
Onestop
@onestop Yah, saya sebagian berpikir tentang apa yang Anda katakan tentang "distribusi sampel asimetris ..." (dan sepertinya saya tidak begitu jelas), tetapi juga fakta bahwa dalam studi epidemiologi kita umumnya paling tertarik pada CI (bahwa adalah, seberapa akurat perkiraan kami) daripada HT.
chl
+1. Ini mengingatkan saya bahwa saya telah menggunakan skrip Anda untuk mempelajari asimtot dengan melompat dan mengubah berbagai hal, mencoba berbagai hal. Terima kasih sekali lagi untuk itu, sangat membantu untuk memulai.
ars
@ars Sebenarnya, saya sepertinya ingat bahwa gambar ini dibuat dengan PStricks. Bagaimanapun, titik awal yang baik untuk Asymptote adalah piprime.fr/asymptote .
chl
@ chl, ini mungkin di luar topik, tetapi bisakah Anda memberi tahu saya jika Anda membuat grafik ini dalam R?
suncoolsu
7

Pendekatan alternatif yang relevan dengan Q kedua Anda, "Apakah ada cara untuk melihat interval kepercayaan, setidaknya dalam beberapa keadaan, yang akan bermakna bagi pengguna statistik?":

Anda harus melihat inferensi Bayesian dan interval yang kredibel yang dihasilkan . Interval kredibel 95% dapat diartikan sebagai interval yang Anda yakini memiliki 95% probabilitas termasuk nilai parameter yang sebenarnya. Harga yang Anda bayar adalah bahwa Anda harus menempatkan distribusi probabilitas sebelumnya pada nilai-nilai yang Anda yakini kemungkinan akan diambil oleh parameter sebenarnya sebelum mengumpulkan data. Dan prioritas Anda mungkin berbeda dari prioritas orang lain, sehingga interval yang dapat dipercaya yang Anda buat juga mungkin berbeda bahkan ketika Anda menggunakan data yang sama.

Ini hanya upaya cepat dan kasar saya untuk meringkas! Buku teks terbaru yang bagus dengan fokus praktis adalah:

Andrew Gelman, John B. Carlin, Hal S. Stern dan Donald B. Rubin. "Analisis Data Bayesian" (edisi ke-2). Chapman & Hall / CRC, 2003. ISBN 978-1584883883

onestop
sumber
Terima kasih. Tetapi bagaimana dengan interval kepercayaan frequentist khusus? Apakah ada keadaan di mana mereka akan relevan?
Jyotirmoy Bhattacharya
Saya percaya memiliki prior yang berbeda bukanlah masalah (setidaknya dari sudut pandang Bayesian yang objektif), jika kebetulan Anda memiliki pengetahuan yang berbeda tentang situasi yang dihadapi. Kami senang melihat para prior sebagai cara menyampaikan informasi a priori kami. Saya tahu bahwa ini tidak sederhana ...
Penggoda
@Jyotirmoy Tentang pendekatan bayesian vs. sering, poin menarik dibuat di sini: stats.stackexchange.com/questions/1611/…
chl
6

Saya pikir premis dari pertanyaan ini cacat karena menyangkal perbedaan antara yang tidak pasti dan yang diketahui .

Menjelaskan flip koin memberikan analogi yang baik. Sebelum koin dibalik, hasilnya tidak pasti; setelah itu, itu tidak lagi "hipotetis." Membingungkan fait kaki ini dengan situasi aktual yang ingin kita pahami (perilaku koin, atau keputusan yang harus dibuat sebagai hasil dari hasilnya) pada dasarnya menyangkal peran probabilitas dalam memahami dunia.

Kontras ini dilemparkan dalam relief tajam dalam arena eksperimental atau peraturan. Dalam kasus seperti itu ilmuwan atau regulator tahu mereka akan dihadapkan pada situasi yang hasilnya, kapan saja sebelumnya, tidak diketahui, namun mereka harus membuat penentuan penting seperti bagaimana merancang percobaan atau menetapkan kriteria untuk digunakan dalam menentukan kepatuhan terhadap peraturan. (untuk pengujian obat-obatan, keselamatan di tempat kerja, standar lingkungan, dan sebagainya). Orang-orang ini dan lembaga-lembaga tempat mereka bekerja membutuhkan metode dan pengetahuan tentang karakteristik probabilistik dari metode-metode tersebut untuk mengembangkan strategi yang optimal dan dapat dipertahankan, seperti desain eksperimen yang baik dan prosedur pengambilan keputusan yang adil yang sesedikit mungkin dilakukan.

Interval kepercayaan, meskipun pembenarannya buruk secara klasik, cocok dengan kerangka kerja teoretik keputusan ini. Ketika suatu metode membangun interval acak memiliki kombinasi sifat-sifat yang baik, seperti memastikan cakupan interval minimal yang diharapkan dan meminimalkan panjang interval yang diharapkan - keduanya sifat priori , bukan yang posteriori - kemudian berakhir karir panjang menggunakan metode itu kita dapat meminimalkan biaya yang terkait dengan tindakan yang ditunjukkan oleh metode itu.

whuber
sumber
Berikan contoh menggunakan interval kepercayaan untuk membuat keputusan. Atau, lebih baik lagi, bandingkan dua interval kepercayaan dan bagaimana Anda akan membuat keputusan yang berbeda dengan masing-masing, sambil tetap sepenuhnya dalam kerangka sering.
BrainPermafrost
@Brain Setiap buku teks statistik pengantar akan memberikan contoh seperti itu. Salah satu yang sering muncul tanpa malu-malu adalah Freedman, Pisani, dan Purves, Statistics (semua edisi).
Whuber
6

Anda benar dalam mengatakan bahwa interval kepercayaan 95% adalah hal-hal yang dihasilkan dari menggunakan metode yang bekerja di 95% kasus, daripada setiap interval individu yang memiliki kemungkinan 95% berisi nilai yang diharapkan.

"Dasar logis dan interpretasi batas kepercayaan, bahkan sekarang, adalah masalah kontroversi." {David Colquhoun, 1971, Ceramah tentang Biostatistik}

Kutipan itu diambil dari buku teks statistik yang diterbitkan pada tahun 1971, tetapi saya berpendapat bahwa itu masih benar pada tahun 2010. Kontroversi ini mungkin paling ekstrim dalam hal interval kepercayaan untuk proporsi binomial. Ada banyak metode yang bersaing untuk menghitung interval kepercayaan itu, tetapi mereka semua tidak akurat dalam satu atau lebih pengertian dan bahkan metode berkinerja terburuk memiliki pendukung di antara para penulis buku teks. Bahkan interval yang disebut 'tepat' gagal menghasilkan properti yang diharapkan dari interval kepercayaan.

Dalam sebuah makalah yang ditulis untuk ahli bedah (dikenal luas karena minat mereka dalam statistik!), John Ludbrook dan saya berpendapat untuk penggunaan rutin interval kepercayaan yang dihitung dengan menggunakan Bayesian yang seragam sebelumnya karena interval tersebut memiliki sifat frequentist sebaik metode lainnya (rata-rata). tepatnya cakupan 95% dari semua proporsi sebenarnya) tetapi, yang penting, cakupan jauh lebih baik dari semua proporsi yang diamati (tepatnya cakupan 95%). Makalah ini, karena target audiensnya, tidak terlalu rinci sehingga tidak meyakinkan semua ahli statistik, tetapi saya sedang mengerjakan makalah lanjutan dengan set lengkap hasil dan pembenaran.

Ini adalah kasus di mana pendekatan Bayesian memiliki sifat frequentist sebaik pendekatan frequentist, sesuatu yang terjadi cukup sering. Asumsi seragam sebelumnya tidak bermasalah karena distribusi seragam proporsi populasi dibangun ke dalam setiap perhitungan cakupan sering yang saya temui.

Anda bertanya: "Apakah ada cara untuk melihat interval kepercayaan, setidaknya dalam beberapa keadaan, yang akan bermakna bagi pengguna statistik?" Jawaban saya, kemudian, adalah untuk interval kepercayaan binomial seseorang bisa mendapatkan interval yang mengandung proporsi populasi tepat 95% dari waktu untuk semua proporsi yang diamati. Itu adalah ya. Namun, penggunaan interval kepercayaan secara konvensional mengharapkan cakupan untuk semua proporsi populasi dan untuk itu jawabannya adalah "Tidak!"

Panjangnya jawaban untuk pertanyaan Anda, dan berbagai respons terhadapnya menunjukkan bahwa interval kepercayaan banyak disalahpahami. Jika kami mengubah tujuan kami dari cakupan untuk semua nilai parameter benar ke cakupan nilai parameter benar untuk semua nilai sampel, mungkin akan lebih mudah karena interval kemudian akan dibentuk agar relevan langsung dengan nilai yang diamati daripada untuk kinerja metode per se.

Michael Lew
sumber
5

Ini diskusi yang bagus. Saya merasa bahwa interval kredibel Bayesian dan interval dukungan kemungkinan adalah cara yang harus ditempuh, serta probabilitas posterior Bayes tentang peristiwa yang menarik (misalnya, obat manjur). Tetapi menggantikan nilai-P dengan interval kepercayaan adalah keuntungan besar. Hampir setiap masalah jurnal medis terbaik seperti NEJM dan JAMA memiliki makalah dengan "tidak adanya bukti bukanlah bukti ketidakhadiran" masalah dalam abstrak mereka. Penggunaan interval kepercayaan sebagian besar akan mencegah kesalahan seperti itu. Sebuah teks kecil yang hebat adalah http://www.amazon.com/Statistics-Confidence-Intervals-Statistics-Guidelines/dp/0727913751

Frank Harrell
sumber
3

Untuk menjawab pertanyaan Anda secara langsung: Misalkan Anda merenungkan penggunaan mesin untuk mengisi kotak sereal dengan jumlah sereal tertentu. Jelas, Anda tidak ingin memenuhi sampai melimpahi kotak. Anda ingin menilai keandalan mesin. Anda melakukan serangkaian tes seperti: (a) Gunakan mesin untuk mengisi kotak dan (b) Ukur jumlah sereal yang diisi dalam kotak.

Dengan menggunakan data yang dikumpulkan, Anda membuat interval kepercayaan untuk jumlah sereal yang kemungkinan besar akan diisi mesin. Interval kepercayaan ini memberi tahu kita bahwa interval yang kita peroleh memiliki probabilitas 95% bahwa itu akan mengandung jumlah sereal yang sebenarnya yang akan dimasukkan mesin ke dalam kotak. Seperti yang Anda katakan, interpretasi interval kepercayaan bergantung pada hipotesis, sampel tak terlihat yang dihasilkan oleh metode yang dipertimbangkan. Tetapi, inilah tepatnya yang kita inginkan dalam konteks kita. Dalam konteks di atas, kita akan menggunakan mesin berulang kali untuk mengisi kotak dan dengan demikian kita peduli dengan realisasi hipotetis yang tak terlihat dari jumlah sereal yang diisi mesin di dalam kotak.

Untuk mengambil abstrak dari konteks di atas: interval kepercayaan memberi kami jaminan bahwa jika kami menggunakan metode yang sedang diselidiki (dalam contoh di atas metode = mesin) berulang kali ada kemungkinan 95% bahwa interval kepercayaan akan memiliki parameter sebenarnya .


sumber
2
μσ2μ
1
@Jyotirmoy Tentu saja, CI tertentu mungkin jalan keluar. Dengan kata lain, ada kemungkinan 5% bahwa CI tidak mengandung nilai sebenarnya. Namun demikian, interpretasi yang saya berikan konsisten dengan bagaimana CI sebenarnya dibangun. Kami membayangkan menggunakan metode berulang kali dan membangun CI sedemikian sehingga probabilitas bahwa CI yang diamati mengandung nilai sebenarnya adalah 0,95. Perhatikan bahwa jawaban saya tidak mengatakan apa-apa tentang probabilitas di mana nilai sebenarnya terletak karena itu adalah pernyataan yang hanya dapat dibuat dengan interval yang kredibel dan bukan interval kepercayaan.
1
(100α)H0tz
@Srikant. Saya mungkin salah paham "metode = mesin" dalam jawabannya. Saya pikir Anda mengatakan bahwa 95% dari semua kotak yang keluar dari jalur perakitan akan memiliki bobot dalam interval kepercayaan 95% yang berasal dari sampel kotak tertentu.
Jyotirmoy Bhattacharya