Bagaimana cara kerja distribusi Poisson ketika memodelkan data kontinu dan apakah itu mengakibatkan hilangnya informasi?

20

Seorang rekan kerja menganalisis beberapa data biologis untuk disertasinya dengan beberapa Heteroscedasticity jahat (gambar di bawah). Dia menganalisanya dengan model campuran tetapi masih mengalami masalah dengan residu.

Mentransformasi variabel-variabel respons membersihkan semuanya dan berdasarkan umpan balik terhadap pertanyaan ini, ini tampaknya merupakan pendekatan yang tepat. Awalnya, bagaimanapun, kami berpikir ada masalah dalam menggunakan variabel yang diubah dengan model campuran. Ternyata kami telah salah menafsirkan pernyataan dalam SAS Littell & Milliken (2006) untuk Model Campuran yang menunjukkan mengapa tidak tepat untuk mengubah data jumlah dan kemudian menganalisisnya dengan model campuran linier normal (kutipan lengkap di bawah) .

Pendekatan yang juga meningkatkan residu adalah dengan menggunakan model linier umum dengan distribusi Poisson. Saya telah membaca bahwa distribusi Poisson dapat digunakan untuk memodelkan data kontinu (misalnya, seperti yang dibahas dalam posting ini ), dan paket statistik memungkinkannya, tetapi saya tidak mengerti apa yang terjadi ketika model tersebut sesuai.

Untuk memahami bagaimana perhitungan yang mendasarinya dibuat, pertanyaan saya adalah: Ketika Anda memasukkan distribusi Poisson ke data kontinu, 1) apakah data dibulatkan ke bilangan bulat terdekat 2) apakah ini mengakibatkan hilangnya informasi dan 3) Kapan, jika pernah, apakah pantas untuk menggunakan model Poisson untuk data kontinu?

Littel & Milliken 2006, hal 529 "mentransformasikan data [hitung] mungkin kontraproduktif. Misalnya, transformasi dapat mendistorsi distribusi efek model acak atau linearitas model. Lebih penting lagi, mengubah data masih meninggalkan kemungkinan terbuka dari jumlah prediksi negatif. Akibatnya, kesimpulan dari model campuran menggunakan data yang ditransformasikan sangat mencurigakan. "

masukkan deskripsi gambar di sini

N Brouwer
sumber
1
Seperti @Tomas saya tahu tidak ada alasan Anda tidak perlu mengubah variabel sebelum model campuran, dan saya sudah membaca sedikit tentang topik ini. Saya punya buku Ramon dan Littel .... halaman apa yang Anda rujuk?
Peter Flom - Kembalikan Monica
Ternyata kami salah menafsirkan pernyataan pada halaman 529.
N Brouwer

Jawaban:

22

Saya telah memperkirakan hasil positif terus menerus regresi Poisson dengan penaksir varian linier Huber / White / Sandwich cukup sering. Namun, itu bukan alasan yang sangat baik untuk melakukan apa pun, jadi inilah beberapa referensi aktual.

y

Ada juga beberapa bukti simulasi yang menggembirakan dari Santos Silva dan Tenreyro (2006), di mana Poisson hadir sebagai yang terbaik dalam pertunjukan. Itu juga baik dalam simulasi dengan banyak nol di hasilnya . Anda juga dapat dengan mudah melakukan simulasi sendiri untuk meyakinkan diri sendiri bahwa ini berfungsi dalam kasus kepingan salju Anda.

Terakhir, Anda juga dapat menggunakan GLM dengan fungsi tautan log dan keluarga Poisson. Ini menghasilkan hasil yang identik dan menenangkan reaksi sentakan lutut hanya data-data.

Referensi Tanpa Tautan Tidak Tergabung:

Gourieroux, C., A. Monfort dan A. Trognon (1984). "Pseudo Maximum Likelihood Methods: Aplikasi untuk Model Poisson," Econometrica , 52, 701-720.

Dimitriy V. Masterov
sumber
2
Lihat juga entri blog bagus ini pada Stata blog yang ditulis oleh Bill Gould - blog.stata.com/2011/08/22/...
Boscovich
1
y
Ada posting terkait di blog Stata yang menawarkan bukti simulasi tambahan .
Dimitriy V. Masterov
6

Distribusi Poisson hanya untuk data hitungan, mencoba mengisinya dengan data kontinu adalah buruk dan saya percaya tidak boleh dilakukan. Salah satu alasannya adalah Anda tidak tahu bagaimana skala variabel kontinu Anda. Dan Poisson sangat tergantung pada skala! Saya mencoba menjelaskannya dengan contoh sederhana di sini . Jadi Untuk alasan ini saja saya tidak akan menggunakan Poisson untuk apa pun selain menghitung data.

Juga ingat bahwa GLM melakukan 2 hal - fungsi tautan (mengubah var. Response, masuk ke Poisson case), dan residual (Poisson distrubution dalam kasus ini). Pikirkan tentang tugas biologis, tentang residu, dan kemudian pilih metode yang tepat. Terkadang masuk akal untuk menggunakan transformasi log, tetapi tetap dengan residu terdistribusi normal.

"tapi sepertinya kebijakan konvensional adalah kamu tidak seharusnya mengubah data yang masuk ke dalam model campuran"

Saya mendengar ini pertama kali! Tidak masuk akal bagi saya sama sekali. Model campuran bisa seperti model linier normal, hanya dengan menambahkan efek acak. Bisakah Anda memberikan kutipan yang tepat di sini? Menurut pendapat saya, jika transformasi log membersihkan, gunakan saja!

Ingin tahu
sumber
Terima kasih untuk bantuannya; apa yang saya pikir "kearifan konvensional" adalah pembacaan yang salah tentang Littel dan Milliken. Saya telah mengedit pertanyaan saya dan menambahkan kutipan dari L&M 2006.
N Brouwer
@NBrouwer: ya, sepertinya Anda salah mengartikannya. Adalah jahat untuk mengubah data hitungan dan bahkan lebih jahat lagi untuk mengubah data kontinu untuk menghitung data dan mencoba menyesuaikan Poisson di atasnya! Itulah yang saya coba jelaskan kepada Anda. Jangan lakukan itu. Cukup log-transform data kontinu Anda sesuai kebutuhan. Ini sangat umum dalam statistik, tidak perlu khawatir.
Penasaran
5

Berikut diskusi hebat lainnya tentang cara menggunakan model Poisson agar sesuai dengan regresi log: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Saya memberi tahu seorang teman, seperti yang disarankan entri blog). Dorongan dasarnya adalah bahwa kita hanya menggunakan bagian dari model Poisson yang merupakan tautan log. Bagian yang membutuhkan varians harus sama dengan mean dapat diganti dengan estimasi sandwich varians. Ini semua untuk data iid, namun; ekstensi kluster / model campuran telah dirujuk dengan benar oleh Dimitriy Masterov .

Tugas
sumber
1

Jika masalahnya adalah penskalaan varians dengan rata-rata, tetapi Anda memiliki data kontinu, apakah Anda berpikir untuk menggunakan distribusi kontinu yang dapat mengakomodasi masalah yang Anda alami. Mungkin sebuah Gamma? Varians akan memiliki hubungan kuadratik dengan mean - seperti binomial negatif, sebenarnya.

jebyrnes
sumber