Offset dapat digunakan dalam model regresi apa pun, tetapi mereka jauh lebih umum ketika bekerja dengan data jumlah untuk variabel respons Anda. Offset hanyalah variabel yang dipaksa memiliki koefisien dalam model. (Lihat juga utas CV yang luar biasa ini: Kapan menggunakan offset dalam regresi Poisson? ) 1
Bila digunakan dengan benar dengan data jumlah, ini akan memungkinkan Anda memodelkan tarif alih-alih menghitung . Jika itu menarik, maka itu ada hubungannya. Dengan demikian, ini adalah konteks di mana offset paling sering digunakan. Mari kita pertimbangkan Poisson GLiM dengan tautan log (yang merupakan tautan kanonik).
dalam( λ )dalam( λt i m e)dalam( λ ) - ln( t i m e )dalam( λ )dalam( λ )= β0+ β1X= β0+ β1X⇒= β0+ β1X= β0+ β1X+ 1 × ln( t i m e )≠= β0+ β1X+ β2× Pada( t i m e )w h e n β 2≠ 1( C o u n t s )( r a t e s )( S t i l l r a t e s )( c o u n t s a g a i n )
(Seperti yang Anda lihat, kunci untuk menggunakan offset dengan benar adalah membuat offset, bukan t i m e .) dalam( t i m e )t i m e
Ketika koefisien pada bukan 1 , Anda tidak lagi menjadi model. Tetapi karena β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) memberikan fleksibilitas yang jauh lebih besar agar sesuai dengan data, model yang tidak menggunakan ln ( t i m e ) sebagai offset biasanya akan lebih cocok (meskipun mungkin juga pakaian). dalam( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )dalam( t i m e )
Apakah Anda harus memodelkan jumlah atau tarif benar-benar tergantung pada apa pertanyaan substantif Anda. Anda harus membuat model yang sesuai dengan apa yang ingin Anda ketahui.
Sejauh apa artinya tidak menjadi 1 , pertimbangkan contoh di mana waktu bukanlah variabel yang dipertanyakan. Bayangkan mempelajari jumlah komplikasi bedah di rumah sakit yang berbeda. Satu rumah sakit memiliki lebih banyak komplikasi operasi yang dilaporkan, tetapi mereka mungkin mengklaim bahwa perbandingan itu tidak adil karena mereka melakukan lebih banyak operasi. Jadi Anda memutuskan untuk mencoba mengendalikan ini. Anda cukup menggunakan log jumlah operasi sebagai penyeimbang, yang memungkinkan Anda mempelajari tingkat komplikasi per operasi. Anda juga bisa menggunakan log jumlah operasi sebagai kovariat lainnya. Katakanlah koefisiennya berbeda secara signifikan dari 1 . Jika β 2 > 1β211β2> 1, maka rumah sakit yang melakukan lebih banyak operasi memiliki tingkat komplikasi yang lebih tinggi (mungkin karena mereka sibuk pekerjaan untuk menyelesaikan lebih banyak). Jika , rumah sakit yang melakukan sebagian besar memiliki lebih sedikit komplikasi per operasi (mungkin mereka memiliki dokter terbaik, dan melakukan lebih banyak dan melakukannya lebih baik). β2< 1
β2> 1β2< 1, itu berarti laju acara melambat.
Untuk contoh konkret dari yang pertama, bayangkan pemindaian yang menghitung jumlah sel kanker periode setelah tumor awal diangkat dengan operasi. Untuk beberapa pasien, lebih banyak waktu telah berlalu sejak operasi dan Anda ingin memperhitungkannya. Karena sekali kanker telah mendapatkan kembali pijakannya, kanker akan mulai tumbuh secara eksponensial, maka laju akan meningkat dari waktu ke waktu sejak operasi tanpa perawatan tambahan.
Untuk contoh nyata dari yang terakhir, pertimbangkan jumlah orang yang meninggal karena wabah penyakit yang kami tidak punya pengobatan. Pada awalnya, banyak orang mati karena mereka lebih rentan terhadap penyakit itu, atau sudah memiliki sistem kekebalan tubuh yang lemah, dll. Seiring waktu, karena populasi orang yang tersisa kurang rentan terhadap penyakit, angka ini akan menurun. (Maaf contoh ini sangat tidak wajar.)
Offset waktu biasanya dapat dilihat sebagai model Anda memperkirakan tingkat suatu peristiwa terjadi per unit waktu, dengan offset mengendalikan berapa lama Anda mengamati subjek yang berbeda.
Dalam model poisson Anda selalu memperkirakan tingkat bahwa sesuatu terjadi, tetapi Anda tidak pernah bisa mengamati tingkat ini secara langsung. Anda tidak bisa mengamati berapa kali suatu peristiwa terjadi selama beberapa jumlah waktu. Offset membuat hubungan antara dua konsep.
Misalnya, Anda mengamati subjek yang menembak keranjang untuk jumlah waktu yang bervariasi, dan Anda menghitung jumlah keranjang yang berhasil untuk setiap subjek. Apa yang benar-benar Anda minati adalah seberapa sering setiap subjek menenggelamkan sebuah keranjang, yaitu jumlah keranjang yang berhasil setiap subjek harapkan akan tenggelam setiap menit, karena itu merupakan ukuran keterampilan mereka yang agak objektif. Jumlah keranjang yang benar-benar Anda amati tenggelam akan menjadi perkiraan laju ini berapa lama Anda mengamati subjek yang berusaha. Jadi Anda dapat berpikir dalam hal unit respon, jumlah keranjang per menit .
Sulit untuk memikirkan situasi di mana Anda akan menggunakan waktu yang diamati sebagai kovariat dalam regresi poisson, karena pada dasarnya Anda memperkirakan nilai.
Inilah contoh yang mudah-mudahan menyoroti bahaya ini. Asumsikan bahwa orang Amerika dan Eropa, pada kenyataannya, menenggelamkan jumlah keranjang yang sama setiap menit. Tetapi katakan bahwa kita telah mengamati setiap orang Eropa dua kali lebih lama dari setiap orang Amerika, jadi, rata-rata, kita telah mengamati keranjang dua kali lebih banyak untuk setiap orang Eropa.
Jika kita mengatur model termasuk parameter untuk kedua kalinya diamati dan indikator untuk "adalah Eropa", maka kedua model ini menjelaskan data:
Sebagai ahli statistik, kami benar-benar ingin, dalam situasi ini, model kami untuk memberi tahu kami bahwa tidak ada perbedaan statistik antara tingkat yang dibuat orang Eropa dengan keranjang dan tingkat orang Amerika yang membuat keranjang. Tapi model kami gagal melakukannya, dan kami bingung.
Masalahnya adalah kita tahu sesuatu yang tidak diketahui model kita . Yaitu, kita tahu bahwa jika kita mengamati individu yang sama untuk dua kali lebih banyak waktu, bahwa, dengan harapan, mereka akan membuat keranjang dua kali lebih banyak. Karena kita tahu ini, kita perlu memberi tahu model kita tentang hal itu. Inilah yang dicapai offset.
Ya, tapi ini asumsi model poisson itu sendiri . Dari halaman wikipedia pada distribusi poisson
sumber