Mengapa menggunakan distribusi beta pada parameter Bernoulli untuk regresi logistik hirarkis?

Saat ini saya sedang membaca buku "Doing Bayesian Data Analysis" yang sangat bagus dari Kruschke. Namun, bab tentang regresi logistik hirarkis (Bab 20) agak membingungkan.

Gambar 20.2 menggambarkan regresi logistik hirarkis di mana parameter Bernoulli didefinisikan sebagai fungsi linear pada koefisien yang ditransformasikan melalui fungsi sigmoid. Ini tampaknya menjadi cara regresi logistik hierarkis yang diajukan dalam sebagian besar contoh yang saya lihat di sumber lain secara online juga. Misalnya - http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

Namun, ketika prediktornya nominal, ia menambahkan lapisan dalam hierarki - parameter Bernoulli sekarang diambil dari distribusi beta (Gambar 20.5) dengan parameter yang ditentukan oleh mu dan kappa, di mana mu adalah transformasi sigmoid dari fungsi linear dari koefisien. , dan kappa menggunakan gamma sebelumnya.

Ini tampaknya masuk akal dan analog dengan contoh pembalikan koin dari bab 9, tetapi saya tidak melihat apa yang berkaitan dengan prediktor nominal dengan menambahkan distribusi beta. Mengapa seseorang tidak melakukan ini dalam kasus prediksi metrik dan mengapa distribusi beta ditambahkan untuk prediktor nominal?

EDIT: Klarifikasi tentang model yang saya maksud. Pertama, model regresi logistik dengan prediktor metrik (tidak ada beta sebelumnya). Ini mirip dengan contoh lain dari regresi logistik hierarkis, seperti contoh bug di atas:

y_{i} \sim Bernoulli (μ_{i}) μ_{i} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (M_{β}, T_{β})

$y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\$

Kemudian contoh dengan prediktor nominal. Di sinilah saya tidak begitu memahami peran tingkat hirarki "lebih rendah" (memasukkan hasil logistik ke dalam beta sebelum binomial) dan mengapa itu harus berbeda dari contoh metrik.

z_{i} \sim Bin (θ_{i}, N) θ_{i} \sim Beta (a_{j}, b_{j}) a_{j} = μ_{j} κ b_{j} = (1 - μ_{j}) κ κ \sim Γ (S_{κ}, R_{κ}) μ_{j} = sig (β_{0} + \sum_{j} β_{j} x_{j i}) β_{0} \sim N (M_{0}, T_{0}) β_{j} \sim N (0, τ_{β}) τ_{β} = 1 / σ_{β}^{2} σ_{β}^{2} \sim folded t (T_{t}, D F)

$z_i \sim \operatorname{Bin}(\theta_i, N) \\ \theta_i \sim \operatorname{Beta}(a_j, b_j) \\ a_j = \mu_j \kappa \\ b_j = (1- \mu_j) \kappa \\ \kappa \sim \Gamma(S_\kappa, R_\kappa) \\ \mu_j = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(0, \tau_\beta) \\ \tau_\beta = 1/\sigma_{\beta}^2 \\ \sigma_{\beta}^2 \sim \operatorname{folded t} (T_t, DF)$

regression bayesian logistic multilevel-analysis pengguna4733
sumber

Jawaban:

Dua model yang Anda bandingkan memiliki banyak fitur asing, dan saya pikir Anda dapat menyatakan kembali pertanyaan Anda dengan lebih jelas dalam konteks dua model sederhana berikut:

Model 1:

\begin{aligned} y_{i} | μ_{i} & \sim Bern (μ_{i}) \\ μ_{i} & \sim π (μ_{i}) \end{aligned}

$\begin{align} y_i | \mu_i &\sim \operatorname{Bern}( \mu_i ) \\ \mu_i &\sim \pi(\mu_i) \end{align}$

Model 2:

\begin{aligned} y_{i} | θ_{i} & \sim Bern (θ_{i}) \\ θ_{i} | μ_{i}, κ & \sim Beta (μ_{i} κ, (1 - μ_{i}) κ) \\ μ_{i} & \sim π (μ_{i}) \end{aligned}

$\begin{align} y_i | \theta_i & \sim \operatorname{Bern}( \theta_i ) \\ \theta_i | \mu_i,\kappa &\sim \operatorname{Beta}\big( \mu_i\kappa, (1-\mu_i)\kappa \big) \\ \mu_i&\sim \pi(\mu_i) \end{align}$

Pertanyaan Anda adalah: (1) peran apa yang dimainkan oleh distribusi beta; dan terkait, (2) bagaimana (jika sama sekali) Model 2 berbeda dari Model 1?

Pada permukaan ini tampaknya model yang sangat berbeda, tetapi pada kenyataannya, distribusi marginal dari di kedua model itu identik. Distribusi posterior dalam Model 1 adalah sedangkan distribusi posterior marjinal dalam Model 2 adalah: $\mu_i$ $\mu_i$

\begin{matrix} p (μ_{i} | y_{i}) \propto μ_{i}^{y_{i}} (1 - μ_{i})^{1 - y_{i}} π (μ_{i}) \end{matrix}

$\begin{gather} p(\mu_i|y_i) \propto \mu_i^{y_i}(1-\mu_i)^{1-y_i}\pi(\mu_i) \end{gather}$

μ_{i}

$\mu_i$

\begin{aligned} p (μ_{i} | y_{i}, κ) & \propto \int_{0}^{1} \frac{θ_{i}^{y_{i} + μ_{i} κ - 1} (1 - θ_{i})^{κ (1 - μ_{i}) - y_{i}}}{B (κ μ_{i}, κ (1 - μ_{i}))} d θ π (μ_{i}) \\ \propto \frac{B (y_{i} + μ_{i} κ, 1 - y_{i} + κ (1 - μ_{i})) π (μ_{i})}{B (κ μ_{i}, κ (1 - μ_{i}))} \\ \propto μ_{i}^{y_{i}} (1 - μ_{i})^{1 - y_{i}} π (μ_{i}) \end{aligned}

$\begin{align} p(\mu_i|y_i,\kappa) &\propto \int^1_0 \frac{\theta_i^{y_i + \mu_i\kappa - 1}(1-\theta_i)^{\kappa(1-\mu_i)-y_i}}{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} d\theta \,\pi(\mu_i) \\ &\propto \frac{B\big(y_i+\mu_i\kappa,1-y_i+\kappa(1-\mu_i)\big)\pi(\mu_i) }{B\big(\kappa\mu_i,\kappa(1-\mu_i)\big)} \\ &\propto \mu_i^{y_i}(1-\mu_i)^{1-y_i} \pi(\mu_i) \end{align}$

Jadi setiap keuntungan yang diperoleh dari menggunakan Model 2 adalah komputasi. Overparameterizing model hierarkis, seperti penambahan dalam Model 2, kadang-kadang dapat meningkatkan efisiensi prosedur pengambilan sampel; misalnya, dengan memperkenalkan hubungan konjugasi bersyarat antara kelompok-kelompok parameter (lihat jawaban Jack Tanner), atau dengan memutus korelasi di antara parameter-parameter yang diminati (google "Parameter Expansion"). $\theta_i$

jmtroos
sumber

Alasan untuk menggambar parameter Bernoulli dari distribusi beta adalah bahwa beta terkonjugasi ke binomial. Menggunakan distribusi konjugat sebelumnya memungkinkan solusi bentuk tertutup untuk menemukan posterior.

EDIT: mengklarifikasi. Model mana pun akan bekerja. Bahkan dengan MCMC, sangat berguna untuk memiliki prior konjugasi karena hal itu memungkinkan penggunaan sampler khusus untuk berbagai jenis distribusi yang lebih efisien daripada sampler generik. Sebagai contoh, lihat manual pengguna JAGS dtk. 4.1.1 dan bagian 4.2.

Jack Tanner
sumber

Mungkin tidak ada konteks yang cukup dari buku dalam pertanyaan saya, tetapi analisis ini dilakukan dengan Gibbs sampling, jadi representasi bentuk posterior yang tertutup tidak diperlukan. Dalam contoh yang saya tautkan, parameter bernoulli tidak ditetapkan sebagai distribusi beta, tetapi muncul dari transformasi sigmoid dari prediktor linier, yang memiliki koefisien yang terdistribusi normal. Ini juga bagaimana Kruschke menyajikan contoh sebelumnya (dengan prediktor metrik) dalam bab ini juga (parameter bernoulli hanyalah transformasi sigmoid dari fungsi linear dengan koefisien yang terdistribusi normal)

user4733

@ user4733 Jack Tanner benar tentang beta menjadi konjugat sebelum sampel bernoulli. sepertinya lebih dari kebetulan bahwa itu dipilih. Ya, Anda mungkin melakukan pengambilan sampel Gibbs untuk mendapatkan distribusi posterior tetapi dalam model hierarkis ada lebih dari satu yang terlibat sebelumnya dan bisa jadi Anda meletakkan prior pada hyperparameter (parameter untuk keluarga distribusi sebelumnya. sebelumnya pada prior jika Anda mau. Dalam konteks itu mungkin lebih mudah menggunakan konjugat sebelumnya. Beberapa uraian Anda tentang buku ini membingungkan bagi kami

Michael R. Chernick

Anda mengambil beberapa kutipan kecil yang menciptakan celah pada kemampuan kita untuk memahami apa yang sedang terjadi. Anda perlu menggambarkan model dan hierarki prior yang lebih baik bagi kami untuk membantu (setidaknya bagi saya)>

Michael R. Chernick

Menambahkan beberapa deskripsi ke model hierarkis yang saya maksud. Semoga bermanfaat.

user4733