Interval signifikansi dan kredibilitas untuk istilah interaksi dalam regresi logistik

Saya memasang regresi logistik Bayesian di WinBugs dan memiliki istilah interaksi. Sesuatu seperti ini:

P r o b (y_{i} = 1) = {l o g i t}^{- 1} (a + b_{1} * x_{i} + b_{2} * w_{i} + b_{3} * x_{i} * w_{i})

$\mathrm{Prob}(y_{i}=1) = \mathrm{logit}^{-1} (a + b_{1}*x_{i} + b_{2}*w_{i} + b_{3}*x_{i}*w_{i})$

di mana adalah variabel kontinu standar, dan adalah variabel dummy. Pada kenyataannya, modelnya lebih rumit, tetapi saya ingin segala sesuatunya sederhana. $x$ $w$

Kebetulan bahwa istilah interaksi "signifikan", tetapi bukan satu-satunya prediktor. Contohnya,

$\mathrm{mean}(b_{1}) = -.2$ dan quantile: dan $95%$ $(-1.3$ $.7)$

$\mathrm{mean}(b_{2}) = -.4$ dan quantile: dan $95%$ $(-1.3$ $.5)$

$\mathrm{mean}(b_{3}) = 1.4$ dan quantile: dan $95%$ $(.4$ $2.5)$

Apakah kalian punya saran tentang bagaimana bereaksi terhadap temuan ini? Saya berpikir bahwa saya dapat menghitung interval kredibilitas 95% untuk seluruh efek ketika . Ini akan menjadi: 95% kuantil untuk efek total x, tergantung pada : dan $x$ $w=1$ $w=1$ $(-1.3+.4$ $.7+2.5) = (-.9 + 3.2)$

Apakah ini benar? Jika tidak, apa yang harus saya lakukan? Ada referensi tentang masalah ini?

logistic bayesian statistical-significance interaction Manoel Galdino
sumber

Jawaban:

Tidak, perhitungan Anda tidak benar, karena:

Sebuah) $b_1$ dan $b_3$ mungkin berkorelasi dalam distribusi posterior, dan

b) bahkan jika tidak, itu bukan cara Anda menghitungnya (pikirkan hukum angka besar).

Tapi jangan takut, ada cara yang sangat mudah untuk melakukan ini di WinBUGS. Cukup tentukan variabel baru:

b1b3 <- b1 + b3

dan memonitor nilainya.

EDIT:

Untuk penjelasan yang lebih baik tentang poin pertama saya, misalkan posterior memiliki distribusi normal multivariat bersama (tidak dalam hal ini, tetapi berfungsi sebagai ilustrasi yang bermanfaat). Lalu parameternya $b_i$ memiliki distribusi $N(\mu_i,\sigma_i^2)$ , dan interval yang kredibel adalah 95% $(\mu_i - 1.96 \sigma_i,\mu_i + 1.96 \sigma_i)$ - perhatikan bahwa ini hanya tergantung pada mean dan varians.

Sekarang $b_1+b_3$ akan memiliki distribusi $N(\mu_1 + \mu_3,\sigma_1^2 + 2 \rho_{13}\sigma_1\sigma_3 + \sigma_3^2)$ . Perhatikan bahwa istilah varians (dan karenanya interval kredibel 95%) melibatkan istilah korelasi $\rho_{13}$ yang tidak dapat ditemukan dari interval untuk $b_1$ atau $b_3$ .

(Poin saya tentang hukum angka besar adalah bahwa standar deviasi dari jumlah 2 variabel acak independen lebih kecil dari jumlah standar deviasi.)

Adapun cara menerapkannya di WinBUGS, sesuatu seperti ini adalah apa yang ada dalam pikiran saya:

model {
  a ~ dXXXX
  b1 ~ dXXXX
  b2 ~ dXXXX
  b3 ~ dXXXX
  b1b3 <- b1 + b3

  for (i in 1:N) {
    logit(p[i]) <- a + b1*x[i] + b2*w[i] + b3*x[i]*w[i]
    y[i] ~ dbern(p[i])
  }
}

Pada setiap langkah sampler, simpul b1b3akan diperbarui dari b1dan b3. Tidak memerlukan prior karena hanya fungsi deterministik dari dua node lainnya.

Simon Byrne
sumber

Saya tidak yakin saya mengerti commnet Anda. Jika b1 dan b3 berkorelasi, mengapa itu penting? Maksud saya, distribusi bersama mereka harus ditandai dengan beberapa parameter korelasi, tapi lalu apa? Saya memiliki distribusi marjinal mereka. 2. Saya tidak mengerti Anda menyebutkan tentang hukum jumlah besar. Bisakah Anda mengembangkannya? Akhirnya, apakah Anda menyarankan agar saya menambahkan b1 + b3 di loop utama? Dan saya hanya perlu menggunakan yang tidak jelas sebelum parameter baru ini? Terima kasih!

Manoel Galdino

Beberapa pemikiran: 1) Saya tidak yakin apakah fakta bahwa ini adalah masalah Bayesian. 2) Saya pikir pendekatan Anda benar 3) Interaksi dalam regresi logistik rumit. Saya menulis tentang ini di sebuah makalah tentang SAS PROC LOGISTIC, tetapi gagasan umum berlaku. Makalah itu ada di blog saya dan tersedia di sini

Peter Flom
sumber

Saya setuju bahwa kemungkinan bayesian atau tidak tidak masalah. Saya hanya mengatakan itu Bayesian kalau-kalau itu penting.

Manoel Galdino

Saat ini saya mengalami masalah yang sama. Saya juga percaya bahwa pendekatan untuk menghitung efek total dari w adalah benar. Saya percaya ini dapat diuji melalui

h0: b2 + b3 * rata-rata (x) = 0; ha: b2 + b3 * rata-rata (x)! = 0

Namun, saya menemukan sebuah makalah oleh Ai / Norton, yang mengklaim bahwa "besarnya efek interaksi dalam model nonlinier tidak sama dengan efek marginal dari istilah interaksi, dapat dari tanda yang berlawanan, dan signifikansi statistiknya tidak dihitung oleh perangkat lunak standar. " (2003, hal. 123)

Jadi mungkin Anda harus mencoba menerapkan formula mereka. (Dan jika Anda mengerti bagaimana melakukan itu, tolong beri tahu saya.)

PS. Ini tampaknya menyerupai chow-test untuk regresi logistik. Alfred DeMaris (2004, p. 283) menjelaskan tes untuk ini.

Referensi:

Ai, Chunrong / Norton, Edward (2003): Istilah interaksi dalam model logit dan probit, Economic Letters 80, hlm. 123-129

DeMaris, Alfred (2004): Regresi dengan data sosial: pemodelan variabel respon kontinu dan terbatas. John Wiley & Sons, Inc., Hoboken NJ

mzuba
sumber

Terima kasih untuk referensi. Saya akan memeriksanya dan akan melaporkan di sini jika saya membuat kemajuan dalam masalah ini. Mengenai tes yang Anda sarankan, saya tidak berpikir itu akan melakukan pekerjaan. Ingat dulu bahwa interaksi itu dua arah, dari x dengan w dan w dengan x. Maksud saya, meskipun h0 benar, masih mungkin mengatakan h2: b1 + b2 * rata-rata (w) bukan nol. Selain itu, secara umum saya tahu sebelumnya bahwa hipotesis nol adalah salah, yaitu, secara umum tidak ada efek nol. Dengan sampel besar yang cukup saya dapat menemukan efek menjadi signifikan.

Manoel Galdino

Dan poin lainnya. Bahkan jika h0 dan h2 benar, masih mungkin mengatakan h3: b2 + b3 * (rata-rata (x) + sd (x))! = 0. Dengan kata lain, kita harus menguji tidak hanya untuk rata-rata x (atau w), tetapi untuk keseluruhan distribusi nilai, karena terma interaksi adalah cara untuk mengatakan bahwa efek prediktif bervariasi berdasarkan subkelompok prediktor.

Manoel Galdino

Saya tidak sepenuhnya mengerti apa yang Anda maksud. Ketika menguji apakah b2 + b3 * berarti (x) == 0, Anda selalu membandingkan dengan beberapa statistik pengujian untuk menentukan apakah hasilnya berbeda secara signifikan dari nol, standar deviasi x bukan satu-satunya faktor yang relevan.

mzuba

Tentang apa yang Anda katakan ... Saya tidak yakin apakah saya benar-benar mengerti Anda juga. Bagaimanapun, salah satu poin saya adalah: bahkan jika kita gagal menolak hipotesis nol yang berarti b2 + b3 * berarti (x) == 0, itu hanya berarti bahwa kita tidak dapat mengatakan bahwa efek rata-rata W, tergantung pada nilai rata-rata x, bukan nol. Namun, seluruh titik istilah interaksi adalah karena kami ingin mengkondisikan efek W tidak hanya pada rata-rata x, tetapi pada keseluruhan distribusi dari x!

Manoel Galdino

Baik. Saya mengerti apa yang kamu maksud. (Bahasa Inggris juga bukan bahasa pertama saya.) Saya percaya apa yang Anda tulis adalah benar dan itu juga mengapa Ai / Norton memplot efek interaksi terhadap seluruh distribusi prob (x) - untuk beberapa nilai x, efek interaksi adalah positif, bagi sebagian yang lain tidak. Namun, saya percaya bahwa fakta bahwa Anda menghitung efek W, yang merupakan dummy, dapat (?) Membuat segalanya lebih mudah, karena itu dapat diartikan sebagai chow-test, struktural break, subpopulation dll. (Anda ingin menghitung efek langkah w 0 → 1, atau apakah Anda tertarik dengan efek interaksi?)

mzuba