Regresi poisson vs regresi kuadrat-terkecil kuadrat?

21

Regresi Poisson adalah GLM dengan fungsi log-link.

Cara alternatif untuk memodelkan data jumlah yang tidak terdistribusi secara normal adalah dengan preprocess dengan mengambil log (atau lebih tepatnya, log (1 + count) untuk menangani 0's). Jika Anda melakukan regresi kuadrat-terkecil pada respons penghitungan log, apakah itu terkait dengan regresi Poisson? Bisakah itu menangani fenomena serupa?

Brendan OConnor
sumber
6
Bagaimana Anda berencana mengambil logaritma dari jumlah yang nol?
whuber
3
Jelas tidak setara. Cara mudah untuk melihat ini adalah dengan melihat apa yang akan terjadi jika Anda mengamati jumlah nol. (Komentar dibuat sebelum melihat komentar @ whuber. Rupanya halaman ini tidak menyegarkan dengan tepat di browser saya.)
cardinal
OK, saya jelas harus mengatakan, log (1 + hitung). Jelas tidak setara, tetapi bertanya-tanya apakah ada hubungan, atau apakah mereka bisa menangani fenomena serupa.
Brendan OConnor
1
Ada diskusi bermanfaat tentang masalah ini di sini: blog.stata.com/2011/08/22/…
Michael Bishop

Jawaban:

22

Di satu sisi, dalam regresi Poisson, sisi kiri persamaan model adalah logaritma penghitungan yang diharapkan: .log(E[Y|x])

Di sisi lain, dalam model linier "standar", sisi kiri adalah nilai yang diharapkan dari variabel respons normal: . Secara khusus, fungsi tautan adalah fungsi identitas.E[Y|x]

Sekarang, katakanlah adalah variabel Poisson dan Anda bermaksud menormalkannya dengan mengambil log: Y = log ( Y ) . Karena Y seharusnya normal, Anda berencana untuk menyesuaikan model linier standar dengan sisi kiri E [ Y | x ] = E [ log ( Y ) | x ] . Namun, secara umum, E [ log ( Y ) | x ] log ( EYY=log(Y)YE[Y|x]=E[log(Y)|x] . Akibatnya, kedua pendekatan pemodelan ini berbeda.E[log(Y)|x]log(E[Y|x])

okram
sumber
6
Sebenarnya, pernah kecuali P ( Y = f ( X ) | X ) = 1 untuk beberapa σ ( X ) -fungsi yang dapat diukur f , yaitu, Y sepenuhnya ditentukan oleh X . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
kardinal
@kardinal. Sangat bagus.
suncoolsu
9

Saya melihat dua perbedaan penting.

Pertama, nilai prediksi (pada skala asli) berperilaku berbeda; dalam loglinear-kuadrat mereka mewakili cara geometris bersyarat; dalam model log-poisson mewakili cara bersyarat. Karena data dalam jenis analisis ini sering condong ke kanan, mean geometrik kondisional akan meremehkan mean kondisional.

Perbedaan kedua adalah distribusi tersirat: lognormal versus poisson. Ini berkaitan dengan struktur heteroskedastisitas residual: varians residual sebanding dengan nilai kuadrat yang diharapkan (lognormal) versus varians residual sebanding dengan nilai yang diharapkan (Poisson).

ludo
sumber
-1

Satu perbedaan yang jelas adalah bahwa regresi Poisson akan menghasilkan bilangan bulat sebagai prediksi titik sedangkan regresi linier log-hitung dapat menghasilkan non-bilangan bulat.

Galit Shmueli
sumber
12
Bagaimana cara kerjanya? Bukankah GLM memperkirakan ekspektasi , yang tidak harus integral?
whuber
1
Ini tidak benar. Secara mekanis, regresi poisson mampu menangani non-integer dengan sempurna. Kesalahan standar tidak akan didistribusikan, tetapi Anda bisa menggunakan kesalahan standar yang kuat saja.
Matius