Saya memiliki dataset dengan tiga variabel, di mana semua variabel kuantitatif. Sebut saja , dan . Saya menyesuaikan model regresi dalam perspektif Bayesian via MCMC denganrjags
Saya melakukan analisis eksplorasi dan sebar menunjukkan bahwa istilah kuadrat harus digunakan. Lalu saya memasang dua model
(1)
(2)
Dalam model 1 ukuran efek dari setiap parameter tidak kecil dan interval kredibel 95% tidak mengandung nilai .
Dalam model 2 ukuran efek dari parameter dan kecil dan masing-masing interval kredibel untuk semua parameter berisi .
Fakta bahwa interval yang kredibel berisi sudah cukup untuk mengatakan bahwa parameternya tidak signifikan?
Kemudian saya menyesuaikan model berikut
(3)
Mana cara yang tepat untuk melakukan pemilihan variabel dalam statistik Bayesian?
Estimasi untuk model Gaussian adalah
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
Estimasi untuk model Lasso adalah
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
Jawaban:
Sudah diketahui bahwa membangun model berdasarkan apa yang signifikan (atau kriteria lain seperti AIC, apakah interval yang kredibel berisi 0 dll) cukup bermasalah, terutama jika Anda kemudian melakukan inferensi seolah-olah Anda belum melakukan pembangunan model. Melakukan analisis Bayesian tidak mengubah itu (lihat juga https://stats.stackexchange.com/a/201931/86652 ). Yaitu Anda tidak harus melakukan pemilihan variabel, tetapi lebih memilih model rata-rata (atau sesuatu yang bisa membuat Anda koefisien nol, tetapi mencerminkan seluruh proses pemodelan, seperti LASSO atau jaring elastis).
Anda bisa juga mengekspresikan model rata-rata sebagai prior yang merupakan campuran antara massa titik (berat massa titik adalah probabilitas sebelumnya dari efek yang persis nol = efeknya tidak ada dalam model) dan distribusi kontinu (mis. paku-dan-lempengan prior). Pengambilan sampel MCMC bisa sangat sulit untuk prior.
Carvalho et al. memotivasi penyusutan tapal kuda sebelum dengan menyarankan bahwa itu bekerja seperti perkiraan terus menerus untuk spike-and-slab prior. Ini juga merupakan kasus menanamkan masalah dalam model hirarkis, di mana sampai batas tertentu ukuran dan kehadiran efek pada beberapa variabel mengendurkan bukti yang diperlukan untuk orang lain sedikit (melalui parameter penyusutan global, ini agak seperti penemuan palsu kontrol tingkat) dan di sisi lain memungkinkan efek individu untuk berdiri sendiri jika bukti cukup jelas. Ada implementasi yang mudah tersedia dari paket brms R yang dibangun di atas Stan / rstan . Ada sejumlah prior serupa selanjutnya seperti tapal kuda + sebelum dan seluruh topik adalah bidang penelitian yang sedang berlangsung.
sumber
Ada sejumlah metode formal untuk pemilihan variabel Bayesian. Ulasan yang sedikit ketinggalan metode pemilihan variabel Bayesian disajikan dalam:
Tinjauan metode pemilihan variabel Bayesian: apa, bagaimana dan mana
Tinjauan yang lebih baru, yang juga mencakup perbandingan berbagai metode dan kinerja paket R di mana mereka diimplementasikan adalah:
Metode dan Alat untuk Pemilihan Variabel Bayesian dan Model Averaging dalam Regresi Linier Univariat
Referensi ini sangat berguna dalam hal ini mengarahkan Anda ke paket R tertentu di mana Anda hanya perlu memasukkan respons dan nilai-nilai kovariat (dan dalam beberapa kasus nilai-nilai hyperparameter) untuk menjalankan pemilihan variabel.
Cara lain, cepat dan kotor dan tidak direkomendasikan, untuk melakukan pemilihan variabel "Bayesian" adalah dengan menggunakan seleksi bertahap (maju, mundur, keduanya) menggunakan BIC dan perintah R stepAIC (), yang dapat diubah untuk melakukan seleksi dalam hal BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
https://arxiv.org/pdf/0910.1452.pdf
sumber
"In this case is reasonable say that $\beta_4\neq 0$"
? dan"Which is the right way to do variable selection in Bayesian statistics"
?Anda juga dapat menemukan kuliah yang bagus tentang topik di sini di 41:55:
https://vimeo.com/14553953
sumber