1) Ya. Anda dapat mengagregasi / menghilangkan agregasi (?) Data binomial dari individu dengan kovariat yang sama. Ini berasal dari fakta bahwa statistik yang cukup untuk model binomial adalah jumlah total peristiwa untuk setiap vektor kovariat; dan Bernoulli hanyalah kasus khusus dari binomial. Secara intuitif, setiap uji coba Bernoulli yang membentuk hasil binomial adalah independen, sehingga tidak boleh ada perbedaan antara menghitung ini sebagai hasil tunggal atau sebagai uji coba individu terpisah.
2) Katakanlah kita memiliki n vektor kovariat unik x1,x2,…,xn , masing-masing memiliki hasil binomial pada uji coba Ni , yaitu
Anda telah menentukan model regresi logistik, jadi
l o g i t ( p i ) = K ∑ k = 1 β k x i k
Yi∼Bin(Ni,pi)
logit(pi)=∑k=1Kβkxik
meskipun kita akan melihat nanti bahwa ini tidak penting.
Log-likelihood untuk model ini adalah
dan kami memaksimalkannya sehubungan denganβ(dalamistilah) untuk mendapatkan estimasi parameter kami.
ℓ(β;Y)=∑i=1nlog(NiYi)+Yilog(pi)+(Ni−Yi)log(1−pi)
βpi
Sekarang, pertimbangkan bahwa untuk setiap , kami membagi hasil binomial menjadi hasil individu Bernoulli / biner, seperti yang telah Anda lakukan. Secara khusus, buat
Artinya, pertama adalah 1s dan sisanya adalah 0s. Ini persis seperti yang Anda lakukan - tetapi Anda bisa melakukan yang sama dengan 0s dan sisanya sebagai 1s, atau pemesanan lainnya, kan?N i Z i 1 , … , Z i Y i = 1 Z i ( Y i + 1 ) , … , Z i N i = 0 Y i ( N i - Y i )i=1,…,nNi
Zi1,…,ZiYi=1
Zi(Yi+1),…,ZiNi=0
Yi(Ni−Yi)
Model kedua Anda mengatakan bahwa
dengan model regresi yang sama untuk seperti di atas. Kemungkinan log untuk model ini adalah
dan karena cara kami mendefinisikan s kami, ini dapat disederhanakan menjadi
yang seharusnya terlihat cukup familiar.
Zij∼Bernoulli(pi)
piℓ ( β; Z) = ∑i = 1n∑j = 1NsayaZsaya jlog( halsaya) + ( 1 - Zsaya j) log( 1 - halsaya)
Zsaya jℓ ( β; Y) = ∑i = 1nYsayalog( halsaya) + ( Nsaya- Ysaya) log( 1 - halsaya)
Untuk mendapatkan taksiran dalam model kedua, kami memaksimalkan ini sehubungan dengan . Satu-satunya perbedaan antara ini dan log-likelihood pertama adalah istilah , yang konstan sehubungan dengan , sehingga tidak mempengaruhi maksimalisasi dan kami akan mendapatkan perkiraan yang sama.βlog( NsayaYsaya)β
3) Setiap pengamatan memiliki residu penyimpangan. Dalam model binomial, mereka adalah
mana adalah estimasi probabilitas dari model Anda. Perhatikan bahwa model binomial Anda jenuh (0 derajat sisa kebebasan) dan sangat cocok: untuk semua pengamatan, jadi untuk semua .
Dsaya= 2 [ Ysayalog( Ysaya/ Nsayahal^saya) + ( Nsaya- Ysaya) log( 1 - Ysaya/ Nsaya1 - hal^saya) ]
hal^sayahal^saya= Ysaya/ NsayaDsaya= 0saya
Dalam model Bernoulli,
Terlepas dari kenyataan bahwa Anda sekarang akan memiliki residual penyimpangan (bukan seperti dengan data binomial), masing-masing akan berupa
atau
tergantung pada apakah atau , dan jelas tidak sama dengan yang di atas. Bahkan jika Anda jumlah ini lebih untuk mendapatkan jumlah residu penyimpangan untuk setiap , Anda tidak mendapatkan sama:
Dsaya j= 2 [ Zsaya jlog( Zsaya jhal^saya) + ( 1 - Zsaya j) log( 1 - Zsaya j1 - hal^saya) ]
∑ni = 1NsayanDsayaj= -2 log(hal^saya)
Dsaya j= - 2 log( 1 - hal^saya)
Zsaya j= 10jsayaDsaya= ∑j = 1NsayaDsaya j= 2 [ Ysayalog( 1hal^saya) + ( Nsaya- Ysaya) log( 11 - hal^saya) ]
Fakta bahwa AIC berbeda (tetapi perubahan dalam penyimpangan tidak) kembali ke istilah konstan yang merupakan perbedaan antara kemungkinan log dari kedua model. Saat menghitung penyimpangan, ini dibatalkan karena sama di semua model berdasarkan data yang sama. AIC didefinisikan sebagai
dan istilah kombinatorial adalah perbedaan antara s:
A IC= 2 K- 2 ℓ
ℓ
A ICB e r n o u l l i- A ICB i n o m i a l= 2 ∑i = 1nlog( NsayaYsaya) =9.575
Saya hanya ingin memberikan komentar pada paragraf terakhir, “Fakta bahwa AIC berbeda (tetapi perubahan dalam penyimpangan tidak) kembali ke istilah konstan yang merupakan perbedaan antara kemungkinan log dari kedua model. Ketika menghitung perubahan penyimpangan, ini dibatalkan karena sama di semua model berdasarkan data yang sama. "Sayangnya, ini tidak benar untuk perubahan penyimpangan. Penyimpangan tidak termasuk istilah konstan Ex (ekstra konstan) istilah dalam log-kemungkinan untuk data binomial) .Oleh karena itu, perubahan penyimpangan tidak ada hubungannya dengan istilah konstan EX. Penyimpangan membandingkan model yang diberikan dengan model penuh. Fakta bahwa penyimpangan berbeda dari Bernoulli / binary dan pemodelan binomial tetapi perubahan dalam penyimpangan tidak disebabkan oleh perbedaan dalam nilai log-likelihood model penuh. Nilai-nilai ini dibatalkan dalam menghitung perubahan penyimpangan. Oleh karena itu, Bernoulli dan model regresi logistik binomial menghasilkan perubahan penyimpangan yang identik asalkan probabilitas yang diprediksi pij dan pi adalah sama. Bahkan, itu berlaku untuk probit dan fungsi tautan lainnya.
Biarkan lBm dan lBf menunjukkan nilai kemungkinan log dari model pas m dan model penuh f ke data Bernoulli. Penyimpangan itu kemudian
Meskipun lBf adalah nol untuk data biner, kami belum menyederhanakan DB dan menyimpannya apa adanya. Penyimpangan dari pemodelan binomial dengan kovariat yang sama adalah
di mana lbf + Ex dan lbm + Ex adalah nilai-nilai log-likelihood oleh model penuh dan m yang dipasang pada data binomial. Istilah ekstra konstan (Kel) menghilang dari sisi kanan Db. Sekarang lihat perubahan penyimpangan dari Model 1 ke Model 2. Dari pemodelan Bernoulli, kami memiliki perubahan dalam penyimpangan
Demikian pula, perubahan penyimpangan dari pemasangan binomial adalah
Segera diikuti bahwa perubahan penyimpangan bebas dari kontribusi log-likelihood dari model penuh, lBf dan lbf. Oleh karena itu, kita akan mendapatkan perubahan yang sama dalam penyimpangan, DBC = DbC, jika lBm1 = lbm1 dan lBm2 = lbm2. Kita tahu bahwa inilah yang terjadi di sini dan mengapa kita mendapatkan perubahan penyimpangan yang sama dari pemodelan Bernoulli dan binomial. Perbedaan antara lbf dan lBf mengarah pada penyimpangan yang berbeda.
sumber