(Untuk mengetahui mengapa saya menulis ini, periksa komentar di bawah jawaban saya untuk pertanyaan ini .)
Tipe III kesalahan dan teori keputusan statistik
Memberikan jawaban yang benar untuk pertanyaan yang salah kadang-kadang disebut kesalahan Tipe III. Teori keputusan statistik adalah formalisasi pengambilan keputusan di bawah ketidakpastian; ini menyediakan kerangka kerja konseptual yang dapat membantu seseorang menghindari kesalahan tipe III. Elemen kunci dari kerangka kerja ini disebut fungsi kerugian . Dibutuhkan dua argumen: yang pertama adalah (bagian yang relevan dari) keadaan sebenarnya dari dunia (misalnya, dalam masalah estimasi parameter, nilai parameter sebenarnya ); yang kedua adalah elemen dalam himpunan tindakan yang mungkin (misalnya, dalam masalah estimasi parameter, estimasiq ). Outputnya memodelkan kerugian yang terkait dengan setiap tindakan yang mungkin terjadi sehubungan dengan setiap kemungkinan kondisi dunia yang sebenarnya. Misalnya, dalam masalah estimasi parameter, beberapa fungsi kerugian yang terkenal adalah:
- hilangnya kesalahan absolut
- kerugian kesalahan kuadrat
- Kehilangan LINEX Hal Varian
Meneliti jawaban untuk menemukan pertanyaan
Ada kasus yang orang mungkin mencoba untuk membuat kesalahan tipe III dapat dihindari dengan berfokus pada merumuskan fungsi kerugian yang benar dan melanjutkan melalui sisa pendekatan teoretik-keputusan (tidak dirinci di sini). Itu bukan uraian singkat saya - lagipula, ahli statistik dilengkapi dengan banyak teknik dan metode yang bekerja dengan baik meskipun mereka tidak berasal dari pendekatan semacam itu. Tetapi hasil akhirnya, menurut saya, adalah bahwa sebagian besar ahli statistik tidak tahu dan tidak peduli dengan teori keputusan statistik, dan saya pikir mereka kehilangan. Bagi para ahli statistik, saya berpendapat bahwa alasan mereka mungkin menganggap teori keputusan statistik berharga dalam hal menghindari kesalahan Tipe III adalah karena memberikan kerangka kerja untuk menanyakan prosedur analisis data yang diajukan:fungsi kerugian apa (jika ada) yang ditangani oleh prosedur secara optimal? Yaitu, dalam situasi pengambilan keputusan apa, tepatnya, apakah itu memberikan jawaban terbaik?
Kerugian yang diperkirakan posterior
Dari perspektif Bayesian, fungsi kerugian adalah semua yang kita butuhkan. Kami dapat cukup banyak melewatkan sisa teori keputusan - hampir menurut definisi, hal terbaik untuk dilakukan adalah untuk meminimalkan posterior diharapkan kerugian, yaitu, menemukan tindakan yang meminimalkan .˜ L ( a ) = ∫ Θ L ( θ , a ) p ( θ | D ) d θ
(Dan untuk perspektif non-Bayesian? Nah, itu adalah teorema teori keputusan yang sering terjadi - khususnya, Teorema Kelas Lengkap Wald - bahwa tindakan optimal akan selalu meminimalkan kerugian posterior Bayesian yang diharapkan sehubungan dengan beberapa (mungkin tidak tepat)) Kesulitan dengan hasil ini adalah bahwa itu adalah teorema keberadaan yang tidak memberikan pedoman yang sebelum digunakan.Tetapi itu berbuah membatasi kelas prosedur yang kita dapat "membalikkan" untuk mencari tahu persis pertanyaan mana yang kita Menjawab Secara khusus, langkah pertama dalam membalikkan prosedur non-Bayesian adalah untuk mencari tahu mana (jika ada) prosedur Bayesian yang direplikasi atau didekati.)
Hei Cyan, Anda tahu ini adalah situs tanya jawab, kan?
Yang membawa saya - akhirnya - ke pertanyaan statistik. Dalam statistik Bayesian, ketika memberikan estimasi interval untuk parameter univariat, dua prosedur interval kredibel yang umum adalah interval kredibel berbasis kuantil dan interval kredibilitas posterior kepadatan tertinggi. Apa fungsi kerugian di balik prosedur ini?
Jawaban:
Dalam estimasi interval univariat, himpunan tindakan yang mungkin adalah himpunan pasangan berurutan yang menentukan titik akhir interval. Biarkan elemen set tersebut diwakili oleh .(a,b), a≤b
Interval kepadatan posterior tertinggi
Biarkan kerapatan posterior menjadi . Interval kepadatan posterior tertinggi sesuai dengan fungsi kehilangan yang menghukum suatu interval yang gagal mengandung nilai sebenarnya dan juga menghukum interval dalam proporsi dengan panjangnya:f(θ)
di mana adalah fungsi indikator . Ini memberikan kerugian posterior yang diharapkanI(⋅)
Mengatur menghasilkan kondisi yang diperlukan untuk suatu optimal lokal di bagian dalam ruang parameter: - persis aturan untuk interval HPD, seperti yang diharapkan.f(a)=f(b)=k∂∂aL~HPD=∂∂bL~HPD=0 f(a)=f(b)=k
Bentuk memberikan beberapa wawasan mengapa interval HPD tidak berbeda dengan transformasi monoton peningkatan dari parameter. The -space HPD selang berubah menjadi ruang berbeda dari -space HPD selang karena dua interval sesuai dengan fungsi kerugian yang berbeda: -space HPD Interval bersesuaian dengan penalti panjang yang diubah .g(θ)θg(θ)g(θ)g(θ)k(g(b)-g(a))L~HPD((a,b);k) g(θ) θ g(θ) g(θ) g(θ) k(g(b)–g(a))
Interval kredibel berbasis kuantitas
Pertimbangkan estimasi titik dengan fungsi kerugian
Kerugian yang diharapkan posterior adalah
Pengaturan menghasilkan persamaan implisitddθ^L~q=0
yaitu, optimal adalah % quantile dari distribusi posterior, seperti yang diharapkan.θ^ (100p)
Jadi untuk mendapatkan estimasi interval berbasis kuantil, fungsi kerugiannya adalah
sumber
Interval ukuran minimal
Salah satu pilihan yang jelas dari fungsi kehilangan untuk pemilihan interval (baik Bayesian dan frequentist) adalah menggunakan ukuran interval yang diukur dalam distribusi marjinal. Jadi, mulailah dengan properti yang diinginkan atau fungsi kerugian, dan turunkan interval yang optimal. Ini cenderung tidak dilakukan, seperti yang dicontohkan oleh pertanyaan saat ini, meskipun itu mungkin. Untuk set yang kredibel Bayesian, ini sesuai untuk meminimalkan probabilitas sebelumnya dari interval, atau untuk memaksimalkan keyakinan relatif, misalnya, sebagaimana diuraikan dalam Evans (2016). Ukuran ini juga dapat digunakan untuk memilih set kepercayaan yang sering terjadi (Schafer 2009). Kedua pendekatan tersebut saling terkait dan dapat diimplementasikan dengan cukup mudah melalui aturan keputusan yang secara istimewa memasukkan keputusan dengan informasi timbal balik yang besar (Bartels 2017).
Bartels, C., 2017. Menggunakan pengetahuan sebelumnya dalam tes yang sering dilakukan. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3
Evans, M., 2016. Mengukur bukti statistik menggunakan kepercayaan relatif. Jurnal bioteknologi komputasi dan struktural, 14, hlm.91-96.
Schafer, CM dan Stark, PB, 2009. Membangun wilayah kepercayaan dengan ukuran yang diharapkan optimal. Jurnal Asosiasi Statistik Amerika, 104 (487), hlm.1080-1089.
sumber