Saya mencoba mempelajari kembali statistik Bayesian (setiap kali saya pikir saya akhirnya mendapatkannya, sesuatu yang lain muncul yang tidak saya pertimbangkan sebelumnya ....) tetapi tidak jelas (bagi saya) apa proses pembuatan data dalam Bayesian Framework sebenarnya.
Kerangka kerja frequentist jelas bagi saya. Ada beberapa parameter "true" dan parameter itu menghasilkan data sesuai dengan distribusi yang diparameterinya.
Namun, dalam pengaturan Bayesian, kami memodelkan parameter sebagai variabel acak. Bagian itu tidak membingungkan saya. Masuk akal, karena seorang Bayesian menafsirkan probabilitas ini sebagai ketidakpastian dalam keyakinannya sendiri. Mereka baik-baik saja dengan menetapkan probabilitas untuk acara yang tidak dapat diulang. Jadi cara saya menafsirkan "Bayesianisme" adalah bahwa, ia percaya bahwa ada beberapa parameter yang menghasilkan data, itu pasti tidak diketahui tetapi tetap, setelah itu diputuskan oleh "alam" (dan mungkin alam memang memutuskan secara acak apa yang seharusnya menjadi). Namun demikian, itu tetap dan karenanya penciptaan itu adalah "peristiwa yang tidak dapat diulang". Meskipun itu tidak dapat diulang, kami hanya mencoba memperbarui kepercayaan kami sendiri tentangdata yang diberikan. Oleh karena itu, data mungkin dihasilkan oleh salah satu parameter yang dipertimbangkan oleh distribusi probabilitas kami (sebelumnya), namun demikian, parameternya tetap dan tidak diketahui. Kami hanya melampirkan nilai probabilitas ke sana.
Dengan pandangan ini, masuk akal bagi saya untuk berasumsi bahwa proses pembuatan data hampir identik dengan yang sering terjadi. "Nature" memilih parameter menggunakan distribusi "true" "prior" dan begitu variabel acak mengambil realisasinya "benar" (tetapi tetap), ia mulai menghasilkan data yang kami amati.
Apakah ini cara standar untuk menginterpretasikan proses pembuatan data dalam kerangka Bayesian?
Hal utama tentang pandangan saya adalah bahwa, parameter sudah pasti diperbaiki (dilihat sebagai realisasi dari rv), dan menghasilkan data sesuai dengan . Oleh karena itu, poin lain yang sangat penting pada pandangan saya adalah, bagi saya, bahwa prior kami hanya cara terukur untuk mengekspresikan ketidakpastian kami pada peristiwa tetap (dan tidak dapat diulang) untuk membuat parameter . Apakah itu cara orang mengartikan sebelumnya ?
Catatan sisi lucu:
Saya berharap bisa bertanya "Alam" bagaimana dia melakukannya dan menyelesaikan ini sekali dan untuk semua ... lol.
sumber
Jawaban:
Ini sangat mudah: tidak ada perbedaan antara Bayesians dan frequentists mengenai gagasan model penghasil data.
Untuk memahami hal ini, pertimbangkan terlebih dahulu bahwa model penghasil data dikodekan secara matematis dalam kemungkinannya, yang merupakan dasar bagi kesimpulan orang Bayesia dan yang sering melakukan hal yang sama. Dan tidak ada perbedaan antara kemungkinan Bayesian dan frequentist.
Sekarang, Anda dapat mengatakan: itu tidak berarti bahwa Bayesian berpikir bahwa parameter dari proses pembuatan data adalah tetap. Tentu, tetapi sungguh, sangat tidak masuk akal untuk berpikir sebaliknya - apa gunanya memperkirakan kuantitas yang tidak tetap? Apa artinya itu secara matematis? Tentu saja, bisa jadi Anda memiliki kuantitas yang bukan nilai, tetapi distribusi. Tetapi kemudian Anda memperkirakan distribusi, jadi itu diperbaiki lagi.
Perbedaan nyata, seperti yang dikatakan @ Xi'an, bukan pada asumsi tentang bagaimana data kita dihasilkan, tetapi dalam kesimpulan. Jadi, ketika Anda mengatakannya
Saya tidak setuju - kami memodelkan pengetahuan kami / ketidakpastian tentang parameter sebenarnya sebagai variabel acak - yaitu perbedaan yang halus, tetapi penting - kami memperlakukan parameter sebagai variabel acak untuk mengeksplorasi ketidakpastian kami tentang nilai "benar" mereka.
sumber
Halaman 3 dan 4 dari BDA oleh Gelman et al., Edisi ke-3, mencerahkan. Statistik Bayesian bertujuan untuk membuat kesimpulan dari data menggunakan model probabilitas untuk jumlah yang dapat diobservasi dan yang tidak dapat diobservasi. Kami merujuk pada kuantitas yang tidak dapat diobservasi sebagai parameter, meskipun perbedaannya tidak selalu jelas. Dalam statistik Bayesian, semua ketidakpastian tentang variabel yang terlibat dalam model direpresentasikan menggunakan probabilitas. Jadi kita perlu menyiapkan model probabilitas penuh, yaitu, probabilitas gabungan di antara semuavariabel yang terlibat dalam masalah kami, baik yang diamati maupun yang tidak dapat diamati, yaitu parameter. Ini berarti bahwa kami menggunakan variabel acak untuk mewakili keduanya. Itu tidak berarti bahwa kami percaya bahwa parameter itu acak: itu hanya berarti bahwa pengetahuan kami tentang nilai sebenarnya dari parameter itu terbatas, dan kami mewakili pengetahuan terbatas apa pun yang kami miliki sebelum mengamati data melalui distribusi probabilitas sebelumnya. Kami kemudian mengamati data dan kondisi pada data yang diamati menggunakan model untuk proses menghasilkan data (yang menimbulkan fungsi kemungkinan tertentu) dan aturan Bayes, untuk mendapatkan distribusi probabilitas posterior, yang menghitung ketidakpastian yang tersisa dalam pengetahuan kami tentang jumlah yang tidak dapat diobservasi.
Dengan kata lain kami menggunakan variabel acak untuk parameter bukan karena kami percaya bahwa tidak ada parameter yang benar, tetapi karena kami memiliki pengetahuan terbatas tentang mereka, yang membaik setelah mengamati data untuk variabel yang dapat diukur, tetapi itu tidak hilang sepenuhnya. Faktanya, ada kondisi teknis di mana distribusi posterior cenderung ke Dirac delta (sehingga variabel acak yang digunakan untuk mewakili parameter menjadi merosot) dalam batas jumlah pengamatan yang menjadi 0. Jika tidak ada Nilai "true" untuk parameter, ini tidak masuk akal. Sekarang, tentu saja kondisi ini tidak selalu valid, tetapi dalam banyak analisis Bayesian standar (bahkan jika tidak semua) kita tidak meragukan keberadaan model yang benar, dan nilai yang benar atau tetap untuk yang tidak dapat diobservasi.
sumber
Tidak, ini bukan interpretasi standar. Bahkan, Anda telah mengakui dalam pertanyaan Anda interpretasi "subyektif" dari probabilitas , yang merupakan dasar standar dari statistik Bayesian. Di bawah interpretasi "subjektivis" (lebih tepat disebut interpretasi "epistemik"), distribusi probabilitas sebelum dan posterior untuk parameter digunakan untuk mewakili ketidakpastian pengguna tentang parameter yang tidak diketahui dalam model. Berdasarkan akun ini tidak ada asumsi proses metafisik yang sesuai yang terjadi di alam, atau keacakan di alam. Memang, di bawah pandangan ini, paradigma Bayes tidak memberikan teori sama sekalitentang "proses pembuatan data" dari alam; itu hanya memberi kita cara matematis untuk memodelkan ketidakpastian kita tentang hal-hal di alam, dan karenanya membentuk teori inferensial dan prediktif .
Deskripsi terakhir Anda adalah contoh dari teori kecenderungan probabilitas , yang menyatakan bahwa ada proses metafisik yang terjadi di alam yang analog dengan kalkulus probabilitas. Interpretasi probabilitas ini mengasumsikan bahwa ada beberapa "kecenderungan" metafisik inbuilt di alam untuk hasil terjadi secara acak sesuai dengan hukum probabilitas. Seperti kebanyakan orang Bayesian, saya selalu menganggap akun kecenderungan agak konyol. Ini benar-benar contoh kecenderungan manusia untuk memproyeksikan cara berpikir kita sendiri pada alam, dan berasumsi bahwa ada analog di alam dengan metode dan konstruksi epistemologis kita. (Dengan demikian, "interpretasi kecenderungan" lebih tepat teori kecenderungan manusia daripada salah satu probabilitas!)
Sekarang, Anda mungkin memutuskan untuk mengadopsi interpretasi subjektivis tentang probabilitas, atau Anda mungkin tidak setuju dengan saya dan memutuskan untuk mengadopsi interpretasi kecenderungan. Bagaimanapun, Anda akan membuat diri Anda berantakan jika Anda menghindari dua interpretasi yang berbeda ini. Mungkin itulah yang memberi Anda kesulitan saat ini.
sumber
Parameterθ hanya dapat dianggap sebagai tetap tetapi tidak diketahui jika Anda menganggap bahwa model yang mendasari bahwa Anda bekerja dengan adalah representasi sempurna dari sistem yang sebenarnya. Namun, karena alam biasanya jauh lebih kompleks daripada model matematika yang kita gunakan, asumsi ini tidak dapat dibuat. Karenanya, tidak ada parameter 'one true fix' dari model Anda.
Secara matematis, saat Anda menambahkan lebih banyak data, Anda akan konvergen ke parameter tertentuθ . Namun, ini disebabkan oleh ketidakcukupan asumsi Anda dalam proses pemodelan. Anda harus berhati-hati untuk menyebutnya parameter tetap yang sebenarnya dari sistem yang mendasarinya. Bahkan jika parameter dalam model Anda memiliki makna fisik - itu hanya asumsi bahwa parameter posterior mempertahankan interpretasi ini sepenuhnya.
Data dalam tampilan Bayesian dihasilkan oleh 'sistem yang sebenarnya' - yang Anda tidak akan pernah bisa memodelkannya dengan benar. Oleh karena itu, parameter sebenarnya yang mendasari model yang Anda asumsikan tidak ada.
sumber