Dua pertanyaan terkait dari saya. Saya memiliki kerangka data yang berisi jumlah pasien dalam satu kolom (kisaran 10 - 17 pasien) dan 0s dan 1s yang menunjukkan apakah suatu insiden terjadi hari itu. Saya menggunakan model binomial untuk mengurangi kemungkinan insiden pada jumlah pasien. Namun, saya ingin menyesuaikan fakta bahwa ketika ada lebih banyak pasien, pasti akan ada lebih banyak insiden karena jumlah total waktu pasien di bangsal lebih tinggi pada hari itu.
Jadi saya menggunakan model binomial offset seperti ini (R-code):
glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)
Pertanyaan saya adalah:
Apakah saya tetap bisa memiliki variabel yang sama persis memprediksi dan diimbangi? Saya ingin mengurangi kemungkinan peningkatan insiden dan melihat apakah ada yang tersisa, pada dasarnya. Masuk akal bagi saya tetapi saya sedikit berhati-hati jika saya salah.
Apakah offset ditentukan dengan benar? Saya tahu bahwa dalam model poisson itu akan membaca
offset=log(Numbers)
Saya tidak tahu apakah ada yang setara di sini dan sepertinya saya tidak dapat menemukan offset binomial dengan Google (masalah utama adalah saya terus mendapatkan binomial negatif yang tentu saja tidak baik).
sumber
Jawaban:
Jika Anda tertarik pada probabilitas insiden yang diberikan N hari pasien di bangsal maka Anda menginginkan model yang baik seperti:
offset mewakili uji coba,
incident
adalah 0 atau 1, dan probabilitas insiden konstan (tidak ada heterogenitas dalam kecenderungan untuk menghasilkan insiden) dan pasien tidak berinteraksi untuk menyebabkan insiden (tidak ada penularan). Atau, jika peluang insiden kecil, yang cocok untuk Anda (atau Anda telah menetapkan ambang insiden itu berarti tanpa menyebutkannya kepada kami) maka Anda mungkin lebih suka formulasi Poissondi mana asumsi yang sama berlaku. Offset dicatat karena jumlah pasien di bangsal memiliki efek proporsional / multiplikasi.
Memperluas model kedua, mungkin Anda berpikir ada lebih banyak insiden daripada yang diperkirakan hanya karena peningkatan jumlah pasien. Artinya, mungkin pasien benar-benar berinteraksi atau heterogen. Jadi kamu coba
Jika koefisien pada
log.patients.on.ward
secara signifikan berbeda dari 1, di mana itu ditetapkanmod2
, maka sesuatu mungkin memang salah dengan asumsi Anda tidak ada heterogenitas dan tidak ada penularan. Dan sementara Anda tentu saja tidak dapat membedakan keduanya (atau salah satu dari variabel yang hilang), Anda sekarang memiliki perkiraan tentang seberapa banyak peningkatan jumlah pasien di bangsal meningkatkan tingkat / probabilitas insiden melebihi dan di atas apa yang Anda inginkan. harapkan dari kebetulan. Di ruang parameter itu1-coef(mod3)[2]
dengan interval dariconfint
.Atau Anda bisa langsung bekerja dengan jumlah log dan koefisiennya secara langsung. Jika Anda hanya ingin memprediksi kemungkinan insiden menggunakan jumlah pasien di bangsal, maka model ini akan menjadi cara sederhana untuk melakukannya.
Pertanyaan-pertanyaan
Apakah boleh memiliki variabel dependen dalam offset Anda? Kedengarannya itu ide yang sangat buruk bagi saya, tetapi saya tidak melihat Anda harus melakukannya.
Offset dalam model regresi Poisson
exposure
memanglog(exposure)
. Mungkin membingungkan penggunaanoffset
model regresi Binomial R pada dasarnya adalah cara untuk menunjukkan jumlah percobaan. Itu selalu bisa digantikan oleh variabel dependen yang didefinisikan sebagaicbind(incidents, patients.on.ward-incidents)
dan tanpa offset. Pikirkan seperti ini: dalam model Poisson, ia masuk di sisi kanan di belakang fungsi log log, dan dalam model Binomial masuk di sisi kiri di depan fungsi link logit.sumber
Offset dalam regresi Poisson
Kami dapat menyederhanakan penyederhanaan ungkapan di atas
Regresi Binomial
Dalam regresi binomial, yang biasanya menggunakan tautan logit, yaitu:
Akibatnya kami tidak dapat menggunakan offset dalam kasus ini.
sumber
Jawaban ini datang dalam dua bagian, yang pertama jawaban langsung untuk pertanyaan dan yang kedua komentar pada model yang Anda usulkan.
Bagian pertama berkaitan dengan penggunaan
Numbers
sebagai offset dan memilikinya pada rhs dari persamaan. Efek melakukan ini hanya akan mengurangi 1 dari koefisien estimasiNumbers
, dengan demikian membalikkan efek offset, dan sebaliknya tidak akan mengubah hasilnya. Contoh berikut, dengan beberapa baris output yang tidak relevan dihapus, menunjukkan ini:Perhatikan bagaimana semuanya sama kecuali koefisien Bilangan dan penyimpangan nol (dan t-statistik, karena itu masih menguji terhadap 0 bukannya -1.)
Orang mungkin juga menduga bahwa probabilitas per-pasien bervariasi dari pasien ke pasien, yang akan mengarah pada model hierarkis yang lebih kompleks, tetapi saya tidak akan membahasnya di sini.
Bagaimanapun, mengingat ini dan kisaran terbatas jumlah pasien yang Anda amati, daripada menggunakan model yang linier pada skala logit, mungkin lebih baik bersikap nonparametrik tentang hubungan dan mengelompokkan jumlah pasien menjadi tiga atau empat kelompok, misalnya, 10-11, 12-13, 14-15, dan 16-17, membuat variabel dummy untuk kelompok tersebut, kemudian menjalankan regresi logistik dengan variabel dummy di sisi kanan. Ini akan lebih memungkinkan penangkapan hubungan nonlinear seperti "sistem kelebihan beban sekitar 16 pasien dan insiden mulai meningkat secara signifikan." Jika Anda memiliki rentang pasien yang jauh lebih luas, saya akan menyarankan model aditif umum, misalnya, 'gam' dari paket 'mgcv'.
sumber
Tampaknya paling sederhana untuk menentukan log-link dan menjaga offset untuk model Poisson.
sumber