Keuntungan apa yang dimiliki regresi Poisson daripada regresi linier dalam kasus ini?

12

Saya telah diberikan satu set data yang berisi jumlah penghargaan yang diterima oleh siswa di satu sekolah menengah di mana prediktor jumlah penghargaan yang diperoleh termasuk jenis program di mana siswa terdaftar dan skor pada ujian akhir mereka dalam matematika.

Saya bertanya-tanya apakah ada yang bisa memberi tahu saya mengapa model regresi linier mungkin tidak cocok dalam hal ini dan mengapa akan lebih baik menggunakan regresi Poisson? Terima kasih.

Emily
sumber

Jawaban:

14

Tiga poin tentang Poisson vs Regresi normal, semua menyangkut spesifikasi model:

Pengaruh perubahan prediktor

Dengan prediktor kontinu seperti skor tes matematika, regresi Poisson (dengan tautan log biasa) menyiratkan bahwa perubahan satuan dalam prediktor mengarah ke perubahan persentase dalam jumlah penghargaan, yaitu 10 poin lebih banyak pada tes matematika dikaitkan dengan misalnya 25 persen lebih banyak penghargaan. Ini tergantung pada jumlah penghargaan yang sudah diprediksi akan dimiliki siswa. Sebaliknya, Regresi normal mengasosiasikan 10 poin lebih banyak dengan jumlah tetap, katakanlah 3 penghargaan lagi dalam semua keadaan. Anda harus senang dengan asumsi itu sebelum menggunakan model yang membuatnya. (Saya pikir itu sangat masuk akal, modulo poin berikutnya.)

Berurusan dengan siswa tanpa penghargaan

Kecuali jika benar-benar ada banyak penghargaan yang tersebar di banyak siswa maka jumlah penghargaan Anda sebagian besar akan agak rendah. Bahkan saya akan memprediksi inflasi nol, yaitu kebanyakan siswa tidak mendapatkan penghargaan, begitu banyak nol, dan beberapa siswa yang baik mendapatkan beberapa penghargaan. Ini mengacaukan asumsi model Poisson dan setidaknya sama buruknya untuk model Normal.

Jika Anda memiliki jumlah data yang layak, model 'inflasi nol' atau 'rintangan' akan alami. Ini adalah dua model yang diikat bersama: satu untuk memprediksi apakah siswa mendapat penghargaan, dan yang lain untuk memprediksi berapa banyak yang dia dapatkan jika dia mendapatkan semuanya (biasanya beberapa bentuk model Poisson). Saya harapkan semua tindakan berada di model pertama.

Penghargaan eksklusivitas

Akhirnya, poin kecil tentang penghargaan. Jika penghargaan bersifat eksklusif, yaitu jika satu siswa mendapat penghargaan maka tidak ada siswa lain yang bisa mendapatkan penghargaan, maka hasil Anda digabungkan; satu hitungan untuk siswa a menekan hitungan yang mungkin dari setiap perhitungan lainnya. Apakah ini layak dikhawatirkan tergantung pada struktur penghargaan dan ukuran populasi siswa. Saya akan mengabaikannya di pass pertama.

Kesimpulannya, Poisson dengan nyaman mendominasi Normal kecuali untuk jumlah yang sangat besar, tetapi periksa asumsi Poisson sebelum bersandar pada hal itu untuk mendapatkan kesimpulan, dan bersiaplah untuk pindah ke kelas model yang sedikit lebih rumit jika perlu.

conjugateprior
sumber
9

Regresi Poisson akan lebih cocok dalam hal ini karena respons Anda adalah hitungan dari sesuatu.

λ

λλ

Regresi linier normal mengasumsikan kesalahan normal di sekitar rata-rata, dan karenanya sama-sama menimbang mereka. Ini mengatakan bahwa jika seorang siswa memiliki jumlah penghargaan yang diharapkan dari 1, kemungkinan besar bagi mereka untuk menerima -2 penghargaan seperti bagi mereka untuk menerima 3 penghargaan: ini jelas omong kosong dan apa poisson dibangun untuk mengatasi.

Corone
sumber
8

ln(awards+0.5)

Juga, karena jumlah penghargaan yang diharapkan menjadi sangat besar, OLS harus berkinerja lebih baik karena alasan yang diuraikan oleh @Corone. Di Danau Wobegon , OLS adalah jalan yang harus ditempuh.

Jika angka yang diharapkan rendah, dengan banyak nol, saya akan menggunakan Poisson dengan kesalahan standar yang kuat atas model binomial negatif. Regresi NB membuat asumsi kuat tentang varians yang muncul dalam kondisi orde pertama yang menghasilkan koefisien. Jika asumsi ini tidak terpenuhi, koefisien itu sendiri dapat terkontaminasi. Itu tidak terjadi dengan Poisson.

Dimitriy V. Masterov
sumber
4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

menunjukkan kemiringan 0,31, yang cukup dekat dengan 0.

Saya juga suka poin @conjugateprior. Dalam pengalaman saya, jarang terjadi regresi Poisson yang cocok; Saya biasanya berakhir dengan menggunakan binomial negatif atau model nol-meningkat.

Peter Flom - Pasang kembali Monica
sumber