Mengukur varians yang dijelaskan untuk Poisson GLM (fungsi log-link)

8

Saya mencari ukuran yang sesuai dari "varians yang dijelaskan" dari Poisson GLM (menggunakan fungsi log-link).

Saya telah menemukan sejumlah sumber daya yang berbeda (baik di situs ini dan di tempat lain) yang membahas sejumlah pseudo- berbedaR2 tindakan, tetapi hampir setiap situs menyebutkan langkah-langkah dalam kaitannya dengan fungsi link-logit, dan mereka tidak membahas apakah pseudo-R2 ukurannya sesuai untuk fungsi tautan lainnya, seperti tautan-log untuk GLM distribusi Poisi saya.

Sebagai contoh, berikut adalah beberapa situs yang saya temukan:

Yang pseudo-R2 ukuran apakah yang dilaporkan untuk regresi logistik (Cox & Snell atau Nagelkerke)?

http://thestatsgeek.com/2014/02/08/r-squared-in-logistic-regress/

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Pertanyaan saya adalah: Apakah ada metode yang dibahas pada tautan tersebut (khususnya, FAQ pada halaman UCLA) yang sesuai untuk PoM GLM (menggunakan fungsi log-link)? Apakah ada metode tertentu yang lebih tepat dan / atau standar digunakan daripada metode lain?

Beberapa latar belakang:

Ini untuk makalah penelitian di mana saya menggunakan PoMisi GLM untuk menganalisis data saraf. Saya menggunakan penyimpangan model (dihitung dengan asumsi distribusi Poission) untuk membandingkan dua model: Satu model (A) yang mencakup 5 parameter yang ditinggalkan dari model lainnya (B). Ketertarikan saya (dan fokus makalah ini) adalah untuk menunjukkan bahwa 5 parameter secara statistik meningkatkan kesesuaian model. Namun, salah satu pengulas ingin indikasi seberapa baik kedua model tersebut cocok dengan data.

Jika saya menggunakan OLS agar sesuai dengan data saya, pengulas secara efektif meminta R2nilai untuk kedua model dengan 5 parameter dan tanpa parameter 5, untuk menunjukkan seberapa baik model menjelaskan perbedaan. Sepertinya permintaan yang masuk akal bagi saya. Katakanlah, secara hipotesis, model B memilikiR2 0,05 dan model A memiliki R20,25: meskipun itu mungkin merupakan peningkatan yang signifikan secara statistik, model tidak melakukan pekerjaan yang baik untuk menjelaskan data. Atau, jika model B memilikiR2 0,5 dan model A memiliki R20,7, yang bisa ditafsirkan dengan cara yang sangat berbeda. Saya mencari ukuran yang paling tepat yang dapat diterapkan dengan cara yang mirip dengan GLM saya.

Benjamin Kraus
sumber
Mengapa BIC tidak berfungsi atau menguji perbedaan dalam kemungkinan log, terutama karena yang satu merupakan versi bersarang dari yang lain?
Mike Hunter
Ini agak terlambat untuk tujuan saya (makalah ini diterbitkan online pada hari Rabu lalu), tetapi sebagai catatan: Saya menggunakan perbedaan dalam log-kemungkinan sebagai ukuran utama, tetapi pengulas menginginkan ukuran "varians yang dijelaskan" , jadi demi memenuhi tuntutan para pengulas, saya mencoba menemukan sesuatu. Yang akhirnya saya dapatkan adalah sesuatu seperti yang disarankan nukimov di bawah ini.
Benjamin Kraus

Jawaban:

1

McCullagh dan Nelder 1989 (halaman 34) memberikan fungsi penyimpangan D untuk distribusi Poisson:

D=2(ylog(yμ)+(yμ))

di mana y mewakili data Anda dan μoutput model Anda. Saya menggunakan fungsi ini untuk memperkirakan penyimpangan yang dijelaskanED dari GLM dengan distribusi Poisson seperti ini:

ED=1Dtotal deviance

di mana penyimpangan total diberikan oleh persamaan yang sama untuk D tetapi menggunakan rata-rata y (nomor tunggal, yaitu, mean(y)) bukannya array perkiraan yang dimodelkan μ.

Saya tidak tahu apakah ini 100% benar, kedengarannya logis bagi saya dan tampaknya berfungsi seperti yang Anda harapkan perkiraan penyimpangan yang dijelaskan untuk bekerja (itu memberi Anda 1 jika Anda menggunakan μ=y, dll).

nukimov
sumber
1
Saya menggunakan fungsi penyimpangan sebagai ukuran utama untuk kertas, menggunakan persis persamaan yang Anda berikan di atas. Namun, seorang reviewer menginginkan ukuran "varians yang dijelaskan", jadi untuk kepentingan menenangkan para pengulas, saya mencoba untuk membuat sesuatu. Yang akhirnya saya dapatkan adalah:
pseudoRM2=ln(ΓM)ln(ΓNull)ln(ΓSat)ln(ΓNull)
ln(ΓSat) adalah log-kemungkinan model jenuh, ln(ΓNull) adalah kemungkinan log dari model nol, dan ln(ΓM)adalah log-kemungkinan model tersebut.
Benjamin Kraus