Regresi Poisson dengan data besar: apakah salah mengubah satuan pengukuran?

17

Karena faktorial dalam distribusi poisson, menjadi tidak praktis untuk memperkirakan model poisson (misalnya, menggunakan kemungkinan maksimum) ketika pengamatan besar. Jadi, misalnya, jika saya mencoba memperkirakan suatu model untuk menjelaskan jumlah kasus bunuh diri pada tahun tertentu (hanya data tahunan yang tersedia), dan mengatakan, ada ribuan kasus bunuh diri setiap tahun, apakah salah menyatakan bunuh diri dalam ratusan , sehingga 2998 akan menjadi 29,98 ~ = 30? Dengan kata lain, apakah salah mengubah unit pengukuran untuk membuat data dapat dikelola?

Vivi
sumber

Jawaban:

15

Saat Anda berurusan dengan distribusi Poisson dengan nilai besar \ lambda (parameternya), biasanya menggunakan perkiraan normal untuk distribusi Poisson.

Seperti yang disebutkan situs ini , boleh saja menggunakan perkiraan normal ketika \ lambda mendapat lebih dari 20, dan perkiraan meningkat ketika \ lambda menjadi lebih tinggi.

Distribusi Poisson didefinisikan hanya atas ruang keadaan yang terdiri dari bilangan bulat non-negatif, sehingga penskalaan dan pembulatan akan memperkenalkan hal-hal aneh ke dalam data Anda.

Menggunakan kira-kira normal. untuk statistik Poisson besar adalah SANGAT umum.

Baltimark
sumber
6

Dalam kasus Poisson itu buruk, karena penghitungan adalah penghitungan - unit mereka adalah satu kesatuan. Di sisi lain, jika Anda akan menggunakan beberapa perangkat lunak canggih seperti R, fungsi penanganan Poisson akan menyadari jumlah besar seperti itu dan akan menggunakan beberapa trik numerik untuk menanganinya.

Jelas saya setuju bahwa pendekatan normal adalah pendekatan lain yang baik.


sumber
3

Sebagian besar paket statistik memiliki fungsi untuk menghitung logaritma natural dari faktorial secara langsung (misalnya fungsi lfactorial () di R, fungsi lnfactorial () di Stata). Ini memungkinkan Anda untuk memasukkan istilah konstan dalam kemungkinan log jika Anda mau.

onestop
sumber
Selain itu, n!= Gamma(n+1)untuk n> = 0. Jadi cobalah untuk mencari fungsi yang dipanggil Gammajika Anda perlu menghitung faktorial (atau log Gamma jika Anda menghitung kemungkinan log)
Andre Holzner
3

Saya khawatir Anda tidak bisa melakukan itu. Seperti yang dinyatakan @Baltimark, dengan lambda besar distribusinya akan lebih normal (simetris), dan dengan menurunkannya tidak akan lagi menjadi distorsi poisson. Coba kode berikut dalam R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

Hasilnya di bawah ini:

masukkan deskripsi gambar di sini

Anda dapat melihat bahwa poisson downscaled (garis merah) sama sekali berbeda dari distribusi poisson.

Ingin tahu
sumber
1

Anda bisa mengabaikan 'faktorial' saat menggunakan kemungkinan maksimum. Berikut adalah alasan untuk contoh bunuh diri Anda. Membiarkan:

λ: Jadilah jumlah bunuh diri yang diharapkan per tahun

k i : Jadilah jumlah bunuh diri pada tahun i.

Maka Anda akan memaksimalkan log-likelihood sebagai:

LL = ∑ (k i log (λ) - λ - k i !)

Memaksimalkan hal di atas sama dengan memaksimalkan yang berikut sebagai k i ! adalah konstanta:

LL ' = ∑ (k i log (λ) - λ)

Bisakah menjelaskan mengapa faktorial menjadi masalah? Apakah saya melewatkan sesuatu?


sumber
Anda tidak melewatkan sesuatu jika semua yang Anda coba lakukan adalah memperkirakan parameter dari serangkaian pengamatan. Itu jelas merupakan ide utama dari pertanyaan OP. Namun, dia juga bertanya secara umum (jika tidak ketat) "bagaimana memperkirakan model poisson". Mungkin dia ingin mengetahui nilai pdf pada titik tertentu. Dalam hal itu, kira-kira normal. mungkin akan lebih baik daripada penskalaan parameter, dan pengamatan dengan 100, atau apa pun, jika pengamatan cukup besar untuk membuat perhitungan faktorial tidak praktis.
Baltimark
1
@ Srikant, Anda benar, untuk memperkirakan parameter faktorial bukan merupakan masalah, tetapi secara umum Anda akan menginginkan nilai kemungkinan untuk model yang diberikan, dan Anda harus menggunakan faktorial untuk itu. Juga, untuk pengujian hipotesis (misalnya uji rasio kemungkinan) Anda akan membutuhkan nilai kemungkinan.
Vivi
@ Taltimark: ya, saya ingin tahu secara umum, apakah valid untuk mengubah satuan pengukuran Poisson. Saya ditanya pertanyaan ini dan saya tidak tahu harus berkata apa.
Vivi
@Vivi: Saya tidak yakin mengapa Anda ingin menghitung kemungkinan dengan k_i! termasuk dalam sebagian besar aplikasi (mis., uji rasio kemungkinan, estimasi bayesian) konstanta tidak akan masalah. Bagaimanapun, saya tidak berpikir Anda dapat kembali skala seperti yang Anda sarankan. Jika saya merasa sebaliknya saya akan memperbarui jawaban saya.
@ Srikant, saya mengerti maksud Anda, tetapi beberapa perangkat lunak (Eviews, misalnya) memasukkan ini secara default, dan sejumlah besar adalah masalah yang Anda suka atau tidak. Saya kira saya benar-benar setelah penjelasan tentang mengapa Anda bisa atau tidak bisa melakukannya daripada jalan di sekitarnya, tetapi diskusi telah menarik dan tetap instruktif :)
Vivi