Pemilihan model Bayesian dan interval yang kredibel

9

Saya memiliki dataset dengan tiga variabel, di mana semua variabel kuantitatif. Sebut saja y , x1 dan x2 . Saya menyesuaikan model regresi dalam perspektif Bayesian via MCMC denganrjags

Saya melakukan analisis eksplorasi dan sebar y×x2 menunjukkan bahwa istilah kuadrat harus digunakan. Lalu saya memasang dua model

(1) y=β0+β1x1+β2x2

(2) y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

Dalam model 1 ukuran efek dari setiap parameter tidak kecil dan interval kredibel 95% tidak mengandung nilai 0 .

Dalam model 2 ukuran efek dari parameter β3 dan β4 kecil dan masing-masing interval kredibel untuk semua parameter berisi 0 .

Fakta bahwa interval yang kredibel berisi 0 sudah cukup untuk mengatakan bahwa parameternya tidak signifikan?

Kemudian saya menyesuaikan model berikut

(3) y=β0+β1x1+β2x2+β3x22

β10

Mana cara yang tepat untuk melakukan pemilihan variabel dalam statistik Bayesian?

log(σ)=δδX
δδδδ

βjδj

Estimasi untuk model Gaussian adalah

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

Estimasi untuk model Lasso adalah

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

δ2δ4

δ2


sumber
2
Bagian 18.4 dari DBDA2E * adalah tentang pemilihan variabel dalam regresi berganda. Dengan sangat hati-hati Anda dapat memasukkan indikator inklusi dengan masing-masing koefisien dan melihat probabilitas posterior inklusi. Ketika menafsirkan distribusi parameter posterior, HDI 95% termasuk nol tidak menunjukkan kesetaraan ke nol. * DBDA2E = Melakukan Analisis Data Bayesian Edisi ke-2.
John K. Kruschke
2
Cara alami untuk membandingkan model dalam kerangka Bayesian adalah melalui kemungkinan marjinal, bukan interval yang kredibel. Alternatif yang terhubung dengan rata-rata model adalah dengan menggunakan representasi campuran dan disimpulkan dari bobot masing-masing model / komponen yang modelnya disukai oleh data.
Xi'an
@ Xi'an tetapi membandingkan dua model atau lebih melalui kemungkinan marjinal tidak akan sama dengan menggunakan faktor Bayes, jika semua model diberi probabilitas sebelumnya yang sama?
DeltaIV
Yang terhormat Prof Kruschke, saya memiliki keraguan mengenai perhitungan interval yang dapat ditentukan. Apa yang saya pahami bahwa ada banyak interval kredibel tergantung pada masuk akal posterior berdasarkan pada prior yang berbeda. Tetapi di sini bagaimana cara menentukan prior mana yang paling masuk akal yang pada gilirannya memberikan posterior paling masuk akal? Pertanyaan lain adalah, saya menggunakan Variational Inference (VI) untuk menghitung eksterior dan akhirnya menghitung batas bawah bukti model. Bagaimana cara menghitung interval yang kredibel untuk posisi dalam kasus VI? Selain itu, bagaimana cara melanjutkan untuk Faktor Bayes dalam kasus VI?
Sandipan Karmakar

Jawaban:

9

Sudah diketahui bahwa membangun model berdasarkan apa yang signifikan (atau kriteria lain seperti AIC, apakah interval yang kredibel berisi 0 dll) cukup bermasalah, terutama jika Anda kemudian melakukan inferensi seolah-olah Anda belum melakukan pembangunan model. Melakukan analisis Bayesian tidak mengubah itu (lihat juga https://stats.stackexchange.com/a/201931/86652 ). Yaitu Anda tidak harus melakukan pemilihan variabel, tetapi lebih memilih model rata-rata (atau sesuatu yang bisa membuat Anda koefisien nol, tetapi mencerminkan seluruh proses pemodelan, seperti LASSO atau jaring elastis).

exp(BIC/2)

Anda bisa juga mengekspresikan model rata-rata sebagai prior yang merupakan campuran antara massa titik (berat massa titik adalah probabilitas sebelumnya dari efek yang persis nol = efeknya tidak ada dalam model) dan distribusi kontinu (mis. paku-dan-lempengan prior). Pengambilan sampel MCMC bisa sangat sulit untuk prior.

Carvalho et al. memotivasi penyusutan tapal kuda sebelum dengan menyarankan bahwa itu bekerja seperti perkiraan terus menerus untuk spike-and-slab prior. Ini juga merupakan kasus menanamkan masalah dalam model hirarkis, di mana sampai batas tertentu ukuran dan kehadiran efek pada beberapa variabel mengendurkan bukti yang diperlukan untuk orang lain sedikit (melalui parameter penyusutan global, ini agak seperti penemuan palsu kontrol tingkat) dan di sisi lain memungkinkan efek individu untuk berdiri sendiri jika bukti cukup jelas. Ada implementasi yang mudah tersedia dari paket brms R yang dibangun di atas Stan / rstan . Ada sejumlah prior serupa selanjutnya seperti tapal kuda + sebelum dan seluruh topik adalah bidang penelitian yang sedang berlangsung.

Björn
sumber
Bayesian Lasso seperti ini stats.stackexchange.com/questions/28609/… ? Saya seorang model dengan variabel dispersi saya harus menggunakan eksponentail ganda sebelum parameter tersebut juga?
2

Ada sejumlah metode formal untuk pemilihan variabel Bayesian. Ulasan yang sedikit ketinggalan metode pemilihan variabel Bayesian disajikan dalam:

Tinjauan metode pemilihan variabel Bayesian: apa, bagaimana dan mana

Tinjauan yang lebih baru, yang juga mencakup perbandingan berbagai metode dan kinerja paket R di mana mereka diimplementasikan adalah:

Metode dan Alat untuk Pemilihan Variabel Bayesian dan Model Averaging dalam Regresi Linier Univariat

Referensi ini sangat berguna dalam hal ini mengarahkan Anda ke paket R tertentu di mana Anda hanya perlu memasukkan respons dan nilai-nilai kovariat (dan dalam beberapa kasus nilai-nilai hyperparameter) untuk menjalankan pemilihan variabel.

Cara lain, cepat dan kotor dan tidak direkomendasikan, untuk melakukan pemilihan variabel "Bayesian" adalah dengan menggunakan seleksi bertahap (maju, mundur, keduanya) menggunakan BIC dan perintah R stepAIC (), yang dapat diubah untuk melakukan seleksi dalam hal BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

β4=0

https://arxiv.org/pdf/0910.1452.pdf

CTHULHU
sumber
β4
@MichaelChernick Lalu mengapa OP bertanya "In this case is reasonable say that $\beta_4\neq 0$"? dan "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU
Saya melewatkan bagian pertanyaan itu, tetapi saya pikir itu bukan masalah utama.
Michael R. Chernick
1
@MichaelChernick Baiklah, saya kira OP memiliki kata terakhir di sini ...
CTHULHU
1

β

Anda juga dapat menemukan kuliah yang bagus tentang topik di sini di 41:55:

https://vimeo.com/14553953

burton030
sumber
0
1
Kembali dari akhir pekan. Di mana kita dapat menemukan histogram?
burton030