Model regresi Poisson nol meningkat didefinisikan untuk sampel oleh
dan selanjutnya mengasumsikan bahwa parameter dan memenuhiY i = { 0 dengan probabilitas p i + ( 1 - p i ) e - λ i k dengan probabilitas ( 1 - p i ) e - λ i λ k i / k !(y1,…,yn)
Yi={0kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!
p =λ =( λ1, … , Λn)p =( p1, ... , hlmn)
catatan( λ )logit ( p )= B β= log( p / ( 1 - p ) ) = G γ.
Log kemungkinan yang sesuai dari model regresi Poisson nol meningkat adalah
L ( γ, β; y )= ∑ysaya= 0catatan( eGsayaγ+ exp( - eBsayaβ) ) + ∑ysaya> 0( ysayaBsayaβ- eBsayaβ)- ∑i = 1ncatatan( 1 + eGsayaγ) - ∑ysaya> 0catatan( ysaya! )
Di sini, dan adalah matriks desain. Matriks ini bisa sama, tergantung pada fitur yang ingin digunakan untuk dua proses menghasilkan. Mereka memiliki jumlah baris yang sama.BG
Dengan asumsi bahwa kita dapat mengamati ketika berasal dari kondisi sempurna, nol dan ketika berasal dari keadaan Poisson, kemungkinan log-nya adalahZsaya= 1YsayaZsaya= 0Ysaya
L ( γ, β; y , z ) = ∑i = 1ncatatan( f( zsaya| γ) ) + ∑i = 1ncatatan( f( ysaya| zsaya, β) )
=∑i=1nzi(Giγ−log(1+eGiγ))+−∑i=1n(1−zi)log(1+eGiγ)+∑i=1n(1−zi)[yiBiβ−eBiβ−log(yi!)]
Dua istilah pertama adalah hilangnya dalam regresi logistik untuk memisahkan dari
z_i = 1 . Istilah kedua adalah regresi ke poin yang dihasilkan oleh proses Poisson.
zi=0zi=1
Tetapi bukankah variabel laten tidak dapat diamati? Tujuannya adalah untuk memaksimalkan kemungkinan log pertama. Tetapi kita harus memperkenalkan variabel laten dan mendapatkan kemungkinan log yang baru. Kemudian menggunakan algoritma EM, kita bisa memaksimalkan log-likelihood kedua. Tetapi ini mengasumsikan bahwa kita tahu bahwa atau ?Zi=0Zi=1
Jawaban:
Akar kesulitan yang Anda hadapi terletak pada kalimat:
Seperti yang telah Anda amati, Anda tidak bisa. Alih-alih, apa yang Anda maksimalkan adalah nilai yang diharapkan dari kemungkinan log kedua (dikenal sebagai "kemungkinan log data lengkap"), di mana nilai yang diharapkan diambil alih .zi
Ini mengarah ke prosedur berulang, di mana pada iterasi Anda menghitung nilai yang diharapkan dari mengingat estimasi parameter dari iterasi ( (ini dikenal sebagai "E-step" ",) lalu gantilah dengan kemungkinan log data lengkap (lihat EDIT di bawah ini untuk alasan mengapa kami dapat melakukan ini dalam kasus ini), dan maksimalkan hal itu sehubungan dengan parameter untuk mendapatkan perkiraan untuk iterasi saat ini (" M-step " .)kth zi (k−1)th
Kemungkinan log data lengkap untuk Poisson nol-digembungkan dalam kasus paling sederhana - dua parameter, katakan dan - memungkinkan untuk penyederhanaan substansial ketika datang ke langkah-M, dan ini sampai batas tertentu ke formulir Anda. Saya akan menunjukkan kepada Anda bagaimana cara kerjanya dalam kasus sederhana melalui beberapa kode R, sehingga Anda dapat melihat esensi dari itu. Saya tidak akan menyederhanakan sebanyak mungkin, karena itu dapat menyebabkan hilangnya kejelasan ketika Anda memikirkan masalah Anda:λ p
Dalam kasus Anda, pada setiap langkah Anda akan melakukan regresi Poisson tertimbang di mana bobotnyaβ λi
1-zhat
untuk mendapatkan perkiraan dan karenanya , dan kemudian memaksimalkan:sehubungan dengan vektor koefisien matriks Anda untuk mendapatkan estimasi . Nilai yang diharapkan , sekali lagi dihitung pada setiap iterasi.p i E z i = p i / ( p i + ( 1 - p i ) exp ( - λ i ) )G pi Ezi=pi/(pi+(1−pi)exp(−λi))
Jika Anda ingin melakukan ini untuk data nyata, bukan hanya memahami algoritma, paket R sudah ada; inilah contohnya http://www.ats.ucla.edu/stat/r/dae/zipoisson.htm menggunakan
pscl
perpustakaan.EDIT: Saya harus menekankan bahwa apa yang kita lakukan adalah memaksimalkan nilai yang diharapkan dari kemungkinan log data-lengkap, BUKAN memaksimalkan kemungkinan data log lengkap dengan nilai-nilai yang diharapkan dari data yang hilang / variabel laten terpasang. Seperti yang terjadi, jika log data lengkap kemungkinan linear dalam data yang hilang, seperti di sini, kedua pendekatan itu sama, tetapi sebaliknya, mereka tidak.
sumber