Apakah interval kepercayaan berguna?

11

Dalam statistik frequentist, interval kepercayaan 95% adalah prosedur penghasil interval yang, jika diulang berkali-kali, akan mengandung parameter sebenarnya 95% dari waktu. Mengapa ini berguna?

Interval kepercayaan sering disalahpahami. Mereka bukan interval yang kita dapat yakin 95% parameter dalam (kecuali jika Anda menggunakan interval kredibilitas Bayesian serupa). Interval kepercayaan diri terasa seperti umpan-dan-beralih ke saya.

Satu kasus penggunaan yang dapat saya pikirkan adalah untuk memberikan rentang nilai yang kami tidak bisa menolak hipotesis nol bahwa parameternya adalah nilai itu. Bukankah nilai-p memberikan informasi ini, tetapi lebih baik? Tanpa terlalu menyesatkan?

Singkatnya: Mengapa kita membutuhkan interval kepercayaan? Bagaimana mereka, ketika ditafsirkan dengan benar, bermanfaat?

ungu ungu
sumber
Interval kredibilitas Bayesian bukanlah interval yang kita dapat memastikan 95% parameternya.
Sextus Empiricus
@ MartijnWeterings: kecuali Anda 100% yakin dengan yang sebelumnya.
Xi'an
@ Xi'an yang berfungsi ketika parameter adalah 100% pasti dapat dianggap sebagai variabel acak dan eksperimen seperti pengambilan sampel dari distribusi frekuensi gabungan , yaitu Anda menggunakan aturan Bayes sebagai:P ( θ , x ) P ( θ | x ) = P ( θ , x ) / P ( x ) X θθP(θ,x)P(θ|x)=P(θ,x)/P(x) tanpa 'prior' sebelumnya. Itu tidak sama untuk parameter yang dianggap diperbaiki. Maka keyakinan posterior akan mengharuskan Anda untuk juga 'memperbarui' distribusi frekuensi gabungan lama dan . Agak tidak masuk akal untuk mengklaim memperbarui 'kepercayaan sebelumnya' yang 100% pasti. Xθ
Sextus Empiricus

Jawaban:

10

Selama interval kepercayaan diperlakukan sebagai acak (yaitu, dilihat dari perspektif memperlakukan data sebagai satu set variabel acak yang belum kita lihat) maka kita memang bisa membuat pernyataan probabilitas yang berguna tentang hal itu. Secara khusus, misalkan Anda memiliki interval kepercayaan pada level untuk parameter , dan interval tersebut memiliki batas . Maka kita dapat mengatakan bahwa:1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Bergerak di luar paradigma frequentist dan meminggirkan untuk setiap distribusi sebelumnya memberikan hasil probabilitas marginal yang sesuai (lebih lemah):θ

P(L(X)θU(X))=1α.

Setelah kami memperbaiki batasan interval kepercayaan dengan memperbaiki data ke , kami tidak lagi mengajukan pernyataan probabilitas ini, karena kami sekarang telah memperbaiki data. Namun, jika interval kepercayaan diperlakukan sebagai interval acak maka kita memang dapat membuat pernyataan probabilitas ini --- yaitu, dengan probabilitas parameter akan jatuh dalam interval (acak).X=x 1 - α θ1αθ

Dalam statistik frequentist, pernyataan probabilitas adalah pernyataan tentang frekuensi relatif selama percobaan berulang yang tak terbatas. Tapi itu benar dari setiap pernyataan probabilitas dalam paradigma frequentist, jadi jika keberatan Anda adalah pernyataan frekuensi relatif, itu bukan keberatan yang khusus untuk interval kepercayaan. Jika kita bergerak di luar paradigma frequentist maka kita dapat secara sah mengatakan bahwa interval kepercayaan mengandung parameter target dengan probabilitas yang diinginkan, selama kita membuat pernyataan probabilitas ini secara marginal (yaitu, tidak tergantung pada data) dan dengan demikian kita memperlakukan interval kepercayaan dalam arti acak.

Saya tidak tahu tentang orang lain, tetapi bagi saya itu merupakan hasil probabilitas yang cukup kuat, dan pembenaran yang masuk akal untuk bentuk interval ini. Saya sendiri lebih menyukai metode Bayesian, tetapi kemungkinan hasil yang mendukung interval kepercayaan (dalam pengertian acak mereka) adalah hasil yang kuat yang tidak boleh diendus.

Ben - Pasang kembali Monica
sumber
1
"Bergerak di luar paradigma frequentist" bukankah itu masalahnya? Secara umum kami menginginkan interval yang berisi nilai sebenarnya dari parameter yang diminati dengan beberapa probabilitas. Tidak ada analisis frequentist yang dapat memberi kita hal itu, dan secara implisit menafsirkannya kembali sebagai analisis Bayesian mengarah pada kesalahpahaman. Lebih baik menjawab pertanyaan secara langsung melalui interval kredibel Bayesian. Ada kegunaan untuk interval kepercayaan di mana Anda berulang kali melakukan "percobaan", misalnya kontrol kualitas.
Dikran Marsupial
Ini bukan masalah menafsirkan secara implisit sebagai Bayesian (yang terakhir akan mengkondisikan data untuk mendapatkan posterior). Jawabannya hanya menunjukkan OP bahwa kita dapat membuat pernyataan probabilitas yang berguna tentang interval kepercayaan. Adapun keberatan yang lebih umum terhadap paradigma frequentist, itu baik dan bagus, tetapi mereka tidak keberatan khusus untuk interval kepercayaan.
Ben - Pasang kembali Monica
1
Seperti yang dapat Anda lihat dari pernyataan probabilitas di atas, kami dapat menjamin bahwa CI berisi parameter dengan beberapa probabilitas, selama kami melihat ini sebagai apriori .
Ben - Reinstate Monica
1
Jika Anda telah keluar dari paradigma frequentist, tetapi tidak pindah ke kerangka Bayesian, kerangka apa itu? Saya tidak menyatakan keberatan atas seringnya, saya percaya Anda harus menggunakan kerangka kerja yang paling langsung menjawab pertanyaan yang sebenarnya ingin Anda ajukan. Interval kepercayaan dan kredibilitas menjawab berbagai pertanyaan.
Dikran Marsupial
1
@ Dikran: Pernyataan probabilitas berdiri seperti yang tertulis, dan merupakan pernyataan matematika murni. Saya benar-benar tidak melihat bagaimana Anda bisa keberatan dengan ini.
Ben - Pasang kembali Monica
5

Saya setuju dengan @Ben di atas, dan saya pikir saya akan memberikan contoh sederhana di mana interval Bayesian versus Frequentist akan bernilai dalam keadaan yang sama.

Bayangkan sebuah pabrik dengan jalur perakitan paralel. Menghentikan garis yang mahal, dan pada saat yang sama, mereka ingin menghasilkan produk yang berkualitas. Mereka prihatin tentang positif palsu dan negatif palsu dari waktu ke waktu. Bagi pabrik, ini adalah proses rata-rata: baik daya maupun perlindungan yang dijamin terhadap hal-hal positif palsu. Interval kepercayaan, serta interval toleransi, penting bagi pabrik. Meskipun demikian, mesin akan keluar dari jalur, yaituθΘ , dan alat deteksi akan mengamati kejadian palsu. Hasil rata-rata penting sedangkan hasil spesifik adalah detail operasional.

Di sisi yang berlawanan dari ini adalah pelanggan tunggal yang membeli produk tunggal atau banyak produk. Mereka tidak peduli dengan sifat pengulangan dari jalur perakitan. Mereka peduli dengan satu produk yang mereka beli. Mari kita bayangkan pelanggannya adalah NASA dan mereka membutuhkan produk untuk memenuhi spesifikasi, katakanlahγΓ. Mereka tidak peduli dengan kualitas bagian yang tidak mereka beli. Mereka membutuhkan interval Bayesian dari beberapa bentuk. Lebih jauh, satu kegagalan tunggal dapat membunuh banyak astronot dan menelan biaya miliaran dolar. Mereka perlu tahu bahwa setiap bagian yang dibeli memenuhi spesifikasi. Rata-rata akan mematikan. Untuk roket Saturn V, tingkat cacat satu persen akan menyiratkan 10.000 bagian yang rusak selama penerbangan Apollo. Mereka membutuhkan 0% cacat pada semua misi.

Anda khawatir memiliki interval kepercayaan ketika Anda bekerja di ruang sampel seperti yang dilakukan pabrik. Ini menciptakan ruang sampel. Anda khawatir tentang interval yang kredibel ketika Anda bekerja di ruang parameter, seperti yang dilakukan pelanggan. Jika Anda tidak peduli dengan pengamatan di luar Anda, maka Anda adalah Bayesian. Jika Anda peduli dengan sampel yang tidak terlihat, tetapi bisa dilihat, maka Anda adalah seorang Frequentist.

Apakah Anda khawatir dengan rata-rata jangka panjang atau peristiwa tertentu?

Dave Harris
sumber
Apakah NASA benar-benar membeli suku cadang berdasarkan interval Bayesian? Saya mengerti maksud Anda, tetapi apakah mereka benar - benar melakukannya?
Aksakal
@ Aksakal saya tidak tahu. Juran, tentu saja, menulis karya yang luar biasa tentang jaminan kualitas di NASA, tetapi saya tidak dapat mengingat sama sekali jika proses pengujian dibahas karena sudah lebih dari satu dekade sejak saya membacanya. Saya tahu bahwa W Edwards Deming menentang interval kepercayaan demi interval kredibel, tetapi sekali lagi, itu tidak secara langsung berkaitan. Tebakan saya, dan saya memang tahu orang yang akan tahu tetapi tidak nyaman untuk bertanya saat ini, apakah mereka menggunakan metode Frequentist karena itulah yang dilatih kebanyakan orang. Anda menggunakan palu yang Anda miliki.
Dave Harris
Apakah ini kasus "palu"? Mungkin itu ada hubungannya dengan cara hal-hal di bidang teknik?
Aksakal
@ Akakal Saya tidak memenuhi syarat untuk berpendapat tentang itu.
Dave Harris
Katakanlah sebuah perusahaan membuat bagian, dengan uji hipotesis komposit tingkat Anda telah menguji mereka untuk kesalahan: dari mereka lulus tanpa kesalahan dan dari mereka gagal. Anda bisa memberi NASA jaminan yang masuk akal. Jumlah maksimum produk yang secara tidak sengaja dapat lulus tes (salah dipertimbangkan tanpa kesalahan) adalah . Mengetahui bahwa Anda menjual item, Anda dapat menghitung probabilitas maksimum bahwa bagian yang dijual sebenarnya tidak sesuai dengan hipotesis alternatif . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Sextus Empiricus
4

Perhatikan bahwa dengan definisi interval kepercayaan yang ketat , ada kemungkinan bahwa mereka sama sekali tidak berarti, yaitu, tidak informatif tentang parameter yang menarik. Namun, dalam praktiknya, mereka umumnya sangat bermakna.

Sebagai contoh interval kepercayaan yang tidak berarti, misalkan saya memiliki prosedur yang 95% waktunya menghasilkan , dan 5% dari waktu menghasilkan [ , ], di mana adalah pasangan variabel acak apa saja sehingga . Maka ini adalah prosedur yang menangkap setiap peluang paling sedikit 95% dari waktu, sehingga secara teknis interval kepercayaan berlaku untuk probabilitas apapun. Namun jika saya mengatakan bahwa interval yang dihasilkan oleh prosedur ini adalah untuk diberikan , Anda harus menyadari bahwa Anda benar-benar tidak belajar apa-apa tentang[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0,01 , 0,011 ] p pUmin<Umax[0.01,0.011]pp .

Di sisi lain, sebagian besar interval kepercayaan dibangun dengan cara yang lebih berguna. Misalnya, jika saya katakan itu dibuat menggunakan prosedur Interval Wald, maka kita tahu itu

p^ ˙ N(p,se)

di mana adalah kesalahan standar. Ini adalah pernyataan yang sangat bermakna tentang bagaimana berhubungan dengan . Mengubah ini menjadi interval kepercayaan hanyalah upaya untuk menyederhanakan hasil ini kepada seseorang yang tidak begitu akrab dengan distribusi normal. Itu juga bukan hanya untuk mengatakan bahwa itu hanya alat untuk orang-orang yang tidak tahu tentang distribusi normal; misalnya, bootstrap persentil adalah alat untuk meringkas kesalahan antara estimator dan parameter sebenarnya ketika distribusi kesalahan ini mungkin non-Gaussian.sep pp^p

Cliff AB
sumber
2

Interval kepercayaan tidak hanya berguna, tetapi penting dalam beberapa bidang, seperti fisika. Sayangnya, keributan paling banyak mengenai CI berasal dari Bayesia yang terjebak dalam perdebatan palsu dengan Frequentists, biasanya dalam konteks "ilmu" sosial dan disiplin ilmu seperti lainnya.

Misalkan saya mengukur kuantitas dalam Fisika, seperti muatan listrik. Saya akan selalu menyediakannya dengan ukuran ketidakpastian nilai, yang biasanya merupakan standar deviasi. Karena, dalam Fisika kesalahan sering kali Gaussian, ini langsung diterjemahkan ke dalam CI. Namun, ketika kesalahan bukan Gaussian, itu menjadi sedikit rumit, beberapa integral perlu dievaluasi dll. Tidak ada yang terlalu esoteris meskipun biasanya.

Berikut adalah presentasi singkat tentang CI dalam fisika partikel, dan definisi:

pernyataan kuantitatif tentang fraksi kali interval seperti itu akan mengandung nilai sebenarnya dari parameter dalam sejumlah besar percobaan berulang

Perhatikan, bahwa dalam Fisika "eksperimen berulang" sering kali memiliki makna literal: diasumsikan Anda benar-benar dapat mengulangi eksperimen di koran, dan akan benar - benar mengamati fraksi itu. Jadi, CI memiliki makna yang hampir harfiah bagi Anda, dan hanya cara untuk mengekspresikan informasi tentang ketidakpastian pengukuran. Ini bukan eksperimen pikiran, bukan opini subjektif, bukan perasaan Anda atau saya tentang kemungkinan dll. Ini adalah apa yang dapat Anda rancang dari eksperimen, dan apa yang harus saya amati ketika mereproduksi eksperimen Anda.

Aksakal
sumber
1

Utas ini telah berpindah dengan cepat ke dalam perdebatan Frequentist vs Bayesian, dan itu tidak mudah diselesaikan. Matematika dalam kedua pendekatan itu solid, sehingga selalu turun ke preferensi filosofis. Interpretasi frequentist tentang probabilitas sebagai batas frekuensi relatif suatu peristiwa dibenarkan oleh hukum yang kuat dari sejumlah besar; terlepas dari interpretasi probabilitas yang Anda sukai, frekuensi relatif suatu peristiwa akan menyatu dengan probabilitasnya dengan probabilitas 1.

Interval kepercayaan sering benar-benar lebih sulit untuk ditafsirkan daripada interval kredibel Bayesian. Dengan memperlakukan kuantitas yang tidak diketahui sebagai variabel acak, Bayesians dapat menyatakan bahwa satu interval berisi jumlah itu dengan beberapa probabilitas. Frequentists menolak untuk memperlakukan beberapa kuantitas sebagai variabel acak, dan persamaan apa pun yang hanya berisi konstanta hanya bisa benar atau salah. Jadi ketika memperkirakan konstanta yang tidak diketahui, frequentist harus mengikat mereka dengan interval RANDOM untuk melibatkan probabilitas sama sekali. Alih-alih satu interval berisi variabel acak dengan beberapa probabilitas, metode frequentist menghasilkan banyak interval yang berbeda, beberapa di antaranya berisi konstanta yang tidak diketahui. Jika probabilitas cakupan cukup tinggi, itu adalah lompatan iman yang masuk akal untuk menyatakan bahwa interval tertentu berisi konstanta yang tidak diketahui (catatan, bukan "

Seorang Bayesian akan menolak keras pada lompatan iman seperti halnya seorang Frequentist menolak memperlakukan kuantitas yang tidak diketahui sebagai variabel acak. Metode konstruksi Neyman yang sering terjadi ternyata mengungkap masalah yang memalukan dengan lompatan iman yang demikian. Tanpa secara aktif mencegahnya (lihat Feldman dan Cousins, 1997 untuk satu pendekatan), hasil yang jarang dapat menghasilkan interval kepercayaan KOSONG untuk parameter distribusi. Lompatan iman seperti itu akan sangat tidak masuk akal! Saya telah melihat beberapa orang Bayesian menggunakan contoh itu untuk mengolok-olok metode-metode frequentist, sementara frequentist biasanya merespons dengan "sebagian besar waktu saya masih benar, dan tanpa membuat asumsi yang salah." Saya akan menunjukkan bahwa kebuntuan Bayesian / sering tidak penting bagi kebanyakan yang menerapkan metode mereka.

BatWannaBe
sumber