Dalam model Poisson, apa perbedaan antara menggunakan waktu sebagai kovariat atau offset?

18

Baru-baru ini saya menemukan cara memodelkan eksposur dari waktu ke waktu menggunakan log (misalnya) waktu sebagai offset dalam regresi Poisson.

Saya mengerti bahwa offset berhubungan dengan memiliki waktu sebagai kovariat dengan koefisien 1.

Saya ingin lebih memahami perbedaan antara menggunakan waktu sebagai penyeimbang atau sebagai kovariat normal (oleh karena itu memperkirakan koefisien). Dalam situasi apa saya harus menggunakan satu metode atau yang lain?

UPGRADE: Saya tidak tahu apakah itu menarik, tapi saya menjalankan validasi dari dua metode menggunakan data split acak yang diulang 500 kali dan saya perhatikan bahwa menggunakan metode offset menyebabkan kesalahan tes yang lebih besar.

Bakaburg
sumber

Jawaban:

25

Offset dapat digunakan dalam model regresi apa pun, tetapi mereka jauh lebih umum ketika bekerja dengan data jumlah untuk variabel respons Anda. Offset hanyalah variabel yang dipaksa memiliki koefisien dalam model. (Lihat juga utas CV yang luar biasa ini: Kapan menggunakan offset dalam regresi Poisson? ) 1

Bila digunakan dengan benar dengan data jumlah, ini akan memungkinkan Anda memodelkan tarif alih-alih menghitung . Jika itu menarik, maka itu ada hubungannya. Dengan demikian, ini adalah konteks di mana offset paling sering digunakan. Mari kita pertimbangkan Poisson GLiM dengan tautan log (yang merupakan tautan kanonik).

dalam(λ)=β0+β1X(cHaikamunts)dalam(λtsayame)=β0+β1X(rSebuahtes)dalam(λ)-dalam(tsayame)=β0+β1Xdalam(λ)=β0+β1X+1×dalam(tsayame)(stsayall rSebuahtes)dalam(λ)=β0+β1X+β2×dalam(tsayame)when β21(cHaikamunts SebuahgSebuahsayan)

(Seperti yang Anda lihat, kunci untuk menggunakan offset dengan benar adalah membuat offset, bukan t i m e .) dalam(tsayame)tsayame

Ketika koefisien pada bukan 1 , Anda tidak lagi menjadi model. Tetapi karena β 2( - , 1 ) ( 1 , ) memberikan fleksibilitas yang jauh lebih besar agar sesuai dengan data, model yang tidak menggunakan ln ( t i m e ) sebagai offset biasanya akan lebih cocok (meskipun mungkin juga pakaian). dalam(tsayame)1β2(-,1)(1,)dalam(tsayame)


Apakah Anda harus memodelkan jumlah atau tarif benar-benar tergantung pada apa pertanyaan substantif Anda. Anda harus membuat model yang sesuai dengan apa yang ingin Anda ketahui.

Sejauh apa artinya tidak menjadi 1 , pertimbangkan contoh di mana waktu bukanlah variabel yang dipertanyakan. Bayangkan mempelajari jumlah komplikasi bedah di rumah sakit yang berbeda. Satu rumah sakit memiliki lebih banyak komplikasi operasi yang dilaporkan, tetapi mereka mungkin mengklaim bahwa perbandingan itu tidak adil karena mereka melakukan lebih banyak operasi. Jadi Anda memutuskan untuk mencoba mengendalikan ini. Anda cukup menggunakan log jumlah operasi sebagai penyeimbang, yang memungkinkan Anda mempelajari tingkat komplikasi per operasi. Anda juga bisa menggunakan log jumlah operasi sebagai kovariat lainnya. Katakanlah koefisiennya berbeda secara signifikan dari 1 . Jika β 2 > 1β211β2>1, maka rumah sakit yang melakukan lebih banyak operasi memiliki tingkat komplikasi yang lebih tinggi (mungkin karena mereka sibuk pekerjaan untuk menyelesaikan lebih banyak). Jika , rumah sakit yang melakukan sebagian besar memiliki lebih sedikit komplikasi per operasi (mungkin mereka memiliki dokter terbaik, dan melakukan lebih banyak dan melakukannya lebih baik). β2<1

β2>1β2<1, itu berarti laju acara melambat.

Untuk contoh konkret dari yang pertama, bayangkan pemindaian yang menghitung jumlah sel kanker periode setelah tumor awal diangkat dengan operasi. Untuk beberapa pasien, lebih banyak waktu telah berlalu sejak operasi dan Anda ingin memperhitungkannya. Karena sekali kanker telah mendapatkan kembali pijakannya, kanker akan mulai tumbuh secara eksponensial, maka laju akan meningkat dari waktu ke waktu sejak operasi tanpa perawatan tambahan.

Untuk contoh nyata dari yang terakhir, pertimbangkan jumlah orang yang meninggal karena wabah penyakit yang kami tidak punya pengobatan. Pada awalnya, banyak orang mati karena mereka lebih rentan terhadap penyakit itu, atau sudah memiliki sistem kekebalan tubuh yang lemah, dll. Seiring waktu, karena populasi orang yang tersisa kurang rentan terhadap penyakit, angka ini akan menurun. (Maaf contoh ini sangat tidak wajar.)

gung - Reinstate Monica
sumber
y=tsayameexp(1halβhalXhal+cHainst)y=tsayameβtsayameexp(1halβhalXhal+cHainst)
1
Karena itu mengapa orang harus berasumsi bahwa hubungan antara waktu dan peristiwa adalah linear dan berkembang? Bukankah lebih baik memperkirakan bentuk hubungan seperti itu di setiap kasus? Saya punya dua pertanyaan lagi: 1. apa artinya menggunakan waktu log yang tidak diubah sebagai kovariat? 2. (mungkin saya harus mengedit pertanyaan atau bertanya yang baru untuk ini) Saya membaca bahwa model poisson sebenarnya dapat digunakan dengan tidak integer y juga. Jadi saya bisa menulis dalam R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) dan memiliki hasil yang sama dengan yang saya gunakan menggunakan offset (log (waktu)). Saya mencoba ini tetapi saya mendapatkan koefisien yang berbeda.
Bakaburg
Poisson dist hanya untuk bilangan bulat; Anda tidak boleh memasukkan fraksi pada LHS. Tidak menggunakan transformasi log berarti memodelkan laju peristiwa per satuan waktu secara eksponensial, yang mungkin tidak akan pernah masuk akal di dunia nyata.
gung - Reinstate Monica
1
@ Bakaburg, waktu mungkin berkorelasi dengan mereka. Itu tidak berbeda dengan situasi pemodelan regresi lainnya. Saya tidak melihat masalah di sini. Anda tertarik untuk memodelkan tarif rata-rata atau tidak.
gung - Reinstate Monica
1
@tatami, jika Anda akan menggunakan waktu sebagai kovariat (alih-alih offset), Anda tidak perlu mencatat waktu. Namun, jika Anda ingin membandingkan hasil Anda dengan offset, Anda harus menggunakan log untuk membuatnya sebanding.
gung - Reinstate Monica
7

Offset waktu biasanya dapat dilihat sebagai model Anda memperkirakan tingkat suatu peristiwa terjadi per unit waktu, dengan offset mengendalikan berapa lama Anda mengamati subjek yang berbeda.

Dalam model poisson Anda selalu memperkirakan tingkat bahwa sesuatu terjadi, tetapi Anda tidak pernah bisa mengamati tingkat ini secara langsung. Anda tidak bisa mengamati berapa kali suatu peristiwa terjadi selama beberapa jumlah waktu. Offset membuat hubungan antara dua konsep.

Misalnya, Anda mengamati subjek yang menembak keranjang untuk jumlah waktu yang bervariasi, dan Anda menghitung jumlah keranjang yang berhasil untuk setiap subjek. Apa yang benar-benar Anda minati adalah seberapa sering setiap subjek menenggelamkan sebuah keranjang, yaitu jumlah keranjang yang berhasil setiap subjek harapkan akan tenggelam setiap menit, karena itu merupakan ukuran keterampilan mereka yang agak objektif. Jumlah keranjang yang benar-benar Anda amati tenggelam akan menjadi perkiraan laju ini berapa lama Anda mengamati subjek yang berusaha. Jadi Anda dapat berpikir dalam hal unit respon, jumlah keranjang per menit .

Sulit untuk memikirkan situasi di mana Anda akan menggunakan waktu yang diamati sebagai kovariat dalam regresi poisson, karena pada dasarnya Anda memperkirakan nilai.

Misalnya, jika saya ingin menilai efek menjadi orang Amerika vs Eropa (contoh sangat konyol) pada jumlah keranjang, menambahkan waktu sebagai kovariat akan memungkinkan saya untuk menilai efek itu "secara mandiri" dari waktu berlalu menembak, bukankah Itu? Lebih jauh lagi itu juga akan memberi saya perkiraan pengaruh waktu terhadap hasilnya.

Inilah contoh yang mudah-mudahan menyoroti bahaya ini. Asumsikan bahwa orang Amerika dan Eropa, pada kenyataannya, menenggelamkan jumlah keranjang yang sama setiap menit. Tetapi katakan bahwa kita telah mengamati setiap orang Eropa dua kali lebih lama dari setiap orang Amerika, jadi, rata-rata, kita telah mengamati keranjang dua kali lebih banyak untuk setiap orang Eropa.

Jika kita mengatur model termasuk parameter untuk kedua kalinya diamati dan indikator untuk "adalah Eropa", maka kedua model ini menjelaskan data:

E(keranjang)=2ct+0xEropean
E(keranjang)=0t+2cxEropean

c

Sebagai ahli statistik, kami benar-benar ingin, dalam situasi ini, model kami untuk memberi tahu kami bahwa tidak ada perbedaan statistik antara tingkat yang dibuat orang Eropa dengan keranjang dan tingkat orang Amerika yang membuat keranjang. Tapi model kami gagal melakukannya, dan kami bingung.

Masalahnya adalah kita tahu sesuatu yang tidak diketahui model kita . Yaitu, kita tahu bahwa jika kita mengamati individu yang sama untuk dua kali lebih banyak waktu, bahwa, dengan harapan, mereka akan membuat keranjang dua kali lebih banyak. Karena kita tahu ini, kita perlu memberi tahu model kita tentang hal itu. Inilah yang dicapai offset.

Mungkin menggunakan metode offset tepat ketika kita tahu bahwa peristiwa terjadi secara seragam sepanjang waktu!

Ya, tapi ini asumsi model poisson itu sendiri . Dari halaman wikipedia pada distribusi poisson

distribusi Poisson, dinamai berdasarkan matematikawan Prancis Siméon Denis Poisson, adalah distribusi probabilitas diskrit yang menyatakan probabilitas sejumlah peristiwa tertentu yang terjadi dalam interval waktu dan / atau ruang yang tetap jika peristiwa ini terjadi dengan laju rata-rata yang diketahui dan tidak tergantung pada waktu sejak acara terakhir .

Matthew Drury
sumber
2
Terima kasih atas jawaban anda. Tetapi menggunakan waktu sebagai kovariat bukankah itu memberi saya jawaban yang sama? Misalnya, jika saya ingin menilai efek menjadi orang Amerika vs Eropa (contoh sangat konyol) pada jumlah keranjang, menambahkan waktu sebagai kovariat akan memungkinkan saya untuk menilai efek itu "secara mandiri" dari waktu berlalu menembak, bukankah Itu? Lebih jauh lagi itu juga akan memberi saya perkiraan pengaruh waktu terhadap hasilnya. Terkadang waktu tidak selalu penting untuk variabel hitungan, misalnya ketika peristiwa terjadi semua pada awal periode pengamatan.
Bakaburg 3-15
Mungkin menggunakan metode offset tepat ketika kita tahu bahwa peristiwa terjadi secara seragam sepanjang waktu!
Bakaburg 3-15
1
@ Bakakurg Saya menambahkan respons percobaan. Saya harap ini membantu!
Matthew Drury