Bagaimana data dihasilkan dalam kerangka Bayesian dan apa sifat pada parameter yang menghasilkan data?

9

Saya mencoba mempelajari kembali statistik Bayesian (setiap kali saya pikir saya akhirnya mendapatkannya, sesuatu yang lain muncul yang tidak saya pertimbangkan sebelumnya ....) tetapi tidak jelas (bagi saya) apa proses pembuatan data dalam Bayesian Framework sebenarnya.

Kerangka kerja frequentist jelas bagi saya. Ada beberapa parameter "true" dan parameter itu menghasilkan data sesuai dengan distribusi yang diparameterinya.θ

Namun, dalam pengaturan Bayesian, kami memodelkan parameter sebagai variabel acak. Bagian itu tidak membingungkan saya. Masuk akal, karena seorang Bayesian menafsirkan probabilitas ini sebagai ketidakpastian dalam keyakinannya sendiri. Mereka baik-baik saja dengan menetapkan probabilitas untuk acara yang tidak dapat diulang. Jadi cara saya menafsirkan "Bayesianisme" adalah bahwa, ia percaya bahwa ada beberapa parameter yang menghasilkan data, itu pasti tidak diketahui tetapi tetap, setelah itu diputuskan oleh "alam" (dan mungkin alam memang memutuskan secara acak apa yang seharusnya menjadi). Namun demikian, itu tetap dan karenanya penciptaan itu adalah "peristiwa yang tidak dapat diulang". Meskipun itu tidak dapat diulang, kami hanya mencoba memperbarui kepercayaan kami sendiri tentangθdata yang diberikan. Oleh karena itu, data mungkin dihasilkan oleh salah satu parameter yang dipertimbangkan oleh distribusi probabilitas kami (sebelumnya), namun demikian, parameternya tetap dan tidak diketahui. Kami hanya melampirkan nilai probabilitas ke sana.

Dengan pandangan ini, masuk akal bagi saya untuk berasumsi bahwa proses pembuatan data hampir identik dengan yang sering terjadi. "Nature" memilih parameter menggunakan distribusi "true" "prior" dan begitu variabel acak mengambil realisasinya "benar" (tetapi tetap), ia mulai menghasilkan data yang kami amati.θP(θ)

Apakah ini cara standar untuk menginterpretasikan proses pembuatan data dalam kerangka Bayesian?

Hal utama tentang pandangan saya adalah bahwa, parameter sudah pasti diperbaiki (dilihat sebagai realisasi dari rv), dan menghasilkan data sesuai dengan . Oleh karena itu, poin lain yang sangat penting pada pandangan saya adalah, bagi saya, bahwa prior kami hanya cara terukur untuk mengekspresikan ketidakpastian kami pada peristiwa tetap (dan tidak dapat diulang) untuk membuat parameter . Apakah itu cara orang mengartikan sebelumnya ?θθθP(θ)


Catatan sisi lucu:

Saya berharap bisa bertanya "Alam" bagaimana dia melakukannya dan menyelesaikan ini sekali dan untuk semua ... lol.

Pinokio
sumber
4
Saya tidak berpikir kita menempatkan kuantifikasi pada "peristiwa pembuatan parameter θ". Sebaliknya, pemodelan sebelumnya adalah kuantifikasi keterbatasan keyakinan dan pengetahuan kami sebelumnya tentang θ.
Xi'an
4
Bagi saya metode pembuatan data persis sama untuk Bayesian seperti halnya untuk non-Bayesian, yaitu ada beberapa nilai parameter yang benar dan parameter yang menghasilkan data sesuai dengan asumsi model Anda (jika model itu benar).
jaradniemi
@jaradniemi Saya pikir bagi saya itu hampir identik, namun, ia menolak dalam satu detail, menentukan caranya θdipilih di tempat pertama. Bagi saya, pertama variabel acakθ mengambil nilai yang dipilih secara alami sesuai dengan "prior" yang sebenarnya P(x)dan kemudian mulai menghasilkan data seperti yang saya jelaskan.
Pinocchio
2
@ Xi'an (+1). Namun demikian, Anda menulis "Alih-alih, pemodelan sebelumnya adalah kuantifikasi dari keterbatasan keyakinan dan pengetahuan kami sebelumnya tentang". Saya tidak mengerti tujuan kata "batasan". Bisakah Anda menjelaskan ini untuk saya?
peuhp

Jawaban:

3

Ini sangat mudah: tidak ada perbedaan antara Bayesians dan frequentists mengenai gagasan model penghasil data.

Untuk memahami hal ini, pertimbangkan terlebih dahulu bahwa model penghasil data dikodekan secara matematis dalam kemungkinannya, yang merupakan dasar bagi kesimpulan orang Bayesia dan yang sering melakukan hal yang sama. Dan tidak ada perbedaan antara kemungkinan Bayesian dan frequentist.

Sekarang, Anda dapat mengatakan: itu tidak berarti bahwa Bayesian berpikir bahwa parameter dari proses pembuatan data adalah tetap. Tentu, tetapi sungguh, sangat tidak masuk akal untuk berpikir sebaliknya - apa gunanya memperkirakan kuantitas yang tidak tetap? Apa artinya itu secara matematis? Tentu saja, bisa jadi Anda memiliki kuantitas yang bukan nilai, tetapi distribusi. Tetapi kemudian Anda memperkirakan distribusi, jadi itu diperbaiki lagi.

Perbedaan nyata, seperti yang dikatakan @ Xi'an, bukan pada asumsi tentang bagaimana data kita dihasilkan, tetapi dalam kesimpulan. Jadi, ketika Anda mengatakannya

Namun, dalam pengaturan Bayesian, kami memodelkan parameter sebagai variabel acak.

Saya tidak setuju - kami memodelkan pengetahuan kami / ketidakpastian tentang parameter sebenarnya sebagai variabel acak - yaitu perbedaan yang halus, tetapi penting - kami memperlakukan parameter sebagai variabel acak untuk mengeksplorasi ketidakpastian kami tentang nilai "benar" mereka.

Florian Hartig
sumber
"Apa gunanya memperkirakan jumlah yang tidak tetap?" Secara umum, di dunia nyata, kami memiliki sistem dinamis, yang berubah seiring waktu, sehingga akan ada kasus penggunaan perkiraan jumlah yang berubah seiring waktu.
nbro
Ya, tapi bukan itu intinya. Pertanyaannya adalah apakah kesimpulan Bayesian mengasumsikan bahwa nilai yang benar (tetap) untuk hal-hal yang Anda perkirakan ada. Dalam contoh Anda, pertanyaannya adalah apakah kesimpulan tersebut mengasumsikan bahwa sistem dinamik memiliki keadaan sebenarnya pada setiap titik waktu.
Florian Hartig
2

Halaman 3 dan 4 dari BDA oleh Gelman et al., Edisi ke-3, mencerahkan. Statistik Bayesian bertujuan untuk membuat kesimpulan dari data menggunakan model probabilitas untuk jumlah yang dapat diobservasi dan yang tidak dapat diobservasi. Kami merujuk pada kuantitas yang tidak dapat diobservasi sebagai parameter, meskipun perbedaannya tidak selalu jelas. Dalam statistik Bayesian, semua ketidakpastian tentang variabel yang terlibat dalam model direpresentasikan menggunakan probabilitas. Jadi kita perlu menyiapkan model probabilitas penuh, yaitu, probabilitas gabungan di antara semuavariabel yang terlibat dalam masalah kami, baik yang diamati maupun yang tidak dapat diamati, yaitu parameter. Ini berarti bahwa kami menggunakan variabel acak untuk mewakili keduanya. Itu tidak berarti bahwa kami percaya bahwa parameter itu acak: itu hanya berarti bahwa pengetahuan kami tentang nilai sebenarnya dari parameter itu terbatas, dan kami mewakili pengetahuan terbatas apa pun yang kami miliki sebelum mengamati data melalui distribusi probabilitas sebelumnya. Kami kemudian mengamati data dan kondisi pada data yang diamati menggunakan model untuk proses menghasilkan data (yang menimbulkan fungsi kemungkinan tertentu) dan aturan Bayes, untuk mendapatkan distribusi probabilitas posterior, yang menghitung ketidakpastian yang tersisa dalam pengetahuan kami tentang jumlah yang tidak dapat diobservasi.

Dengan kata lain kami menggunakan variabel acak untuk parameter bukan karena kami percaya bahwa tidak ada parameter yang benar, tetapi karena kami memiliki pengetahuan terbatas tentang mereka, yang membaik setelah mengamati data untuk variabel yang dapat diukur, tetapi itu tidak hilang sepenuhnya. Faktanya, ada kondisi teknis di mana distribusi posterior cenderung ke Dirac delta (sehingga variabel acak yang digunakan untuk mewakili parameter menjadi merosot) dalam batas jumlah pengamatan yang menjadi 0. Jika tidak ada Nilai "true" untuk parameter, ini tidak masuk akal. Sekarang, tentu saja kondisi ini tidak selalu valid, tetapi dalam banyak analisis Bayesian standar (bahkan jika tidak semua) kita tidak meragukan keberadaan model yang benar, dan nilai yang benar atau tetap untuk yang tidak dapat diobservasi.

DeltaIV
sumber
1
jadi untuk orang-orang dengan interpretasi bayesian (yaitu ada model yang benar, kami hanya bodoh), tampaknya proses pembuatan data harus sama dengan normal, yaitu parameter yang benar menghasilkan data (x, y) dan hanya itu?
Pinocchio
1
Pastinya ya. Seperti yang saya tulis di atas, dan seperti yang dibahas oleh @FlorianHartig, proses pembuatan data mendefinisikan fungsi kemungkinan, dan fungsi kemungkinan didefinisikan dengan cara yang sama di kedua paradigma.
DeltaIV
1

Apakah ini cara standar untuk menginterpretasikan proses pembuatan data dalam kerangka Bayesian?

Tidak, ini bukan interpretasi standar. Bahkan, Anda telah mengakui dalam pertanyaan Anda interpretasi "subyektif" dari probabilitas , yang merupakan dasar standar dari statistik Bayesian. Di bawah interpretasi "subjektivis" (lebih tepat disebut interpretasi "epistemik"), distribusi probabilitas sebelum dan posterior untuk parameter digunakan untuk mewakili ketidakpastian pengguna tentang parameter yang tidak diketahui dalam model. Berdasarkan akun ini tidak ada asumsi proses metafisik yang sesuai yang terjadi di alam, atau keacakan di alam. Memang, di bawah pandangan ini, paradigma Bayes tidak memberikan teori sama sekalitentang "proses pembuatan data" dari alam; itu hanya memberi kita cara matematis untuk memodelkan ketidakpastian kita tentang hal-hal di alam, dan karenanya membentuk teori inferensial dan prediktif .

Deskripsi terakhir Anda adalah contoh dari teori kecenderungan probabilitas , yang menyatakan bahwa ada proses metafisik yang terjadi di alam yang analog dengan kalkulus probabilitas. Interpretasi probabilitas ini mengasumsikan bahwa ada beberapa "kecenderungan" metafisik inbuilt di alam untuk hasil terjadi secara acak sesuai dengan hukum probabilitas. Seperti kebanyakan orang Bayesian, saya selalu menganggap akun kecenderungan agak konyol. Ini benar-benar contoh kecenderungan manusia untuk memproyeksikan cara berpikir kita sendiri pada alam, dan berasumsi bahwa ada analog di alam dengan metode dan konstruksi epistemologis kita. (Dengan demikian, "interpretasi kecenderungan" lebih tepat teori kecenderungan manusia daripada salah satu probabilitas!)

Sekarang, Anda mungkin memutuskan untuk mengadopsi interpretasi subjektivis tentang probabilitas, atau Anda mungkin tidak setuju dengan saya dan memutuskan untuk mengadopsi interpretasi kecenderungan. Bagaimanapun, Anda akan membuat diri Anda berantakan jika Anda menghindari dua interpretasi yang berbeda ini. Mungkin itulah yang memberi Anda kesulitan saat ini.

Ben - Pasang kembali Monica
sumber
-1

Parameter θhanya dapat dianggap sebagai tetap tetapi tidak diketahui jika Anda menganggap bahwa model yang mendasari bahwa Anda bekerja dengan adalah representasi sempurna dari sistem yang sebenarnya. Namun, karena alam biasanya jauh lebih kompleks daripada model matematika yang kita gunakan, asumsi ini tidak dapat dibuat. Karenanya, tidak ada parameter 'one true fix' dari model Anda.

Secara matematis, saat Anda menambahkan lebih banyak data, Anda akan konvergen ke parameter tertentu θ. Namun, ini disebabkan oleh ketidakcukupan asumsi Anda dalam proses pemodelan. Anda harus berhati-hati untuk menyebutnya parameter tetap yang sebenarnya dari sistem yang mendasarinya. Bahkan jika parameter dalam model Anda memiliki makna fisik - itu hanya asumsi bahwa parameter posterior mempertahankan interpretasi ini sepenuhnya.

Data dalam tampilan Bayesian dihasilkan oleh 'sistem yang sebenarnya' - yang Anda tidak akan pernah bisa memodelkannya dengan benar. Oleh karena itu, parameter sebenarnya yang mendasari model yang Anda asumsikan tidak ada.

Puncak
sumber
5
Saya tidak setuju dengan interpretasi di atas: analisis standar Bayesian tidak menempatkan ketidakpastian pada kesesuaian model. Distribusi sebelumnya merupakan ketidakpastian pada informasi yang tersedia pada parameter. Ini tidak berarti tidak ada parameter nilai tetap atau tidak ada parameter sebenarnya.
Xi'an
@ Xi'an: Seperti yang Anda katakan, analisis Bayesian standar tidak menempatkan ketidakpastian pada kesesuaian model: Model probabilistik mewakili kepercayaan kami sebelumnya - apakah mereka sesuai atau tidak adalah pertanyaan yang berbeda. Namun, siapa yang dapat mengklaim bahwa modelnya benar-benar dapat mewakili sistem dasar yang benar secara sempurna? Jika tautan ini tidak ada, Anda mungkin berakhir dengan parameter tetap. TETAPI BUKAN 'parameter sejati' - jika Anda mendefinisikan 'parameter sebenarnya' sebagai parameter yang benar-benar menghasilkan data.
KTT