Misalkan saya memiliki 10 siswa, yang masing-masing berusaha memecahkan 20 masalah matematika. Masalah diberi skor benar atau salah (dalam longdata) dan kinerja setiap siswa dapat diringkas dengan ukuran akurasi (dalam subjdata). Model 1, 2, dan 4 di bawah ini muncul untuk menghasilkan hasil yang berbeda, tetapi saya memahaminya melakukan hal yang sama. Mengapa mereka menghasilkan hasil yang berbeda? (Saya menyertakan model 3 untuk referensi.)
library(lme4)
set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))
r
regression
logistic
generalized-linear-model
binomial
pengguna20061
sumber
sumber
library(betareg)
model5 = betareg(acc~scale(iq),subjdata)
library(car)
diperlukan, untuk fungsi logit.Jawaban:
Model 1 dan 2 berbeda karena yang pertama mengubah respons & yang kedua mengubah nilai yang diharapkan.
Untuk Model 1 logit dari masing-masing respons adalah terdistribusi secara normal Y i ∼ N ( μ i , σ 2 ) dengan artinya menjadi fungsi linier vektor prediktor & koefisien. μ i = x ′ i β & oleh karena itu Untuk Model 2 respons itu sendiri biasanya didistribusikan dengan logit yang berarti fungsi linear dari prediktor dan vektor koefisien
Jadi struktur varians akan berbeda. Bayangkan simulasi dari Model 2: varians akan independen dari nilai yang diharapkan; & Meskipun nilai yang diharapkan dari tanggapan akan antara 0 & 1, tanggapannya tidak semuanya.
Model campuran linier umum seperti Model 4 Anda berbeda lagi karena mengandung efek acak: lihat di sini & di sini .
sumber
longdata
), bukan proporsi seperti pada Model 3. Anda+1 ke @Scortchi, yang telah memberikan jawaban yang sangat jelas dan ringkas. Saya ingin membuat beberapa poin yang saling melengkapi. Pertama, untuk model kedua Anda, Anda menentukan bahwa distribusi respons Anda adalah Gaussian (alias, normal). Ini pasti salah, karena setiap jawaban dinilai benar atau salah. Artinya, setiap jawaban adalah uji coba Bernoulli. Dengan demikian, distribusi respons Anda adalah Binomial. Ide ini juga tercermin secara akurat dalam kode Anda. Selanjutnya, probabilitas yang mengatur distribusi respons terdistribusi secara normal, sehingga tautannya harus sesuai, bukan logit. Terakhir, jika ini adalah situasi nyata, Anda harus memperhitungkan efek acak untuk kedua subjek dan pertanyaan, karena mereka sangat tidak mungkin identik. Cara Anda menghasilkan data ini, satu-satunya aspek yang relevan dari setiap orang adalah IQ mereka, yang telah Anda pertanggungjawabkan secara eksplisit. Dengan demikian, tidak ada yang tersisa yang perlu diperhitungkan oleh efek acak dalam model. Ini juga berlaku untuk pertanyaan, karena variasi acak dalam kesulitan pertanyaan bukan bagian dari proses menghasilkan data dalam kode Anda.
Saya tidak bermaksud melakukan nitpicking di sini. Saya menyadari bahwa pengaturan Anda hanya dirancang untuk memfasilitasi pertanyaan Anda, dan telah melayani tujuan itu; @Scortchi dapat menjawab pertanyaan Anda secara langsung, dengan sedikit keributan. Namun, saya menunjukkan hal-hal ini karena mereka menawarkan peluang tambahan untuk memahami situasi yang sedang Anda hadapi, dan karena Anda mungkin tidak menyadari bahwa kode Anda cocok dengan beberapa bagian dari alur cerita Anda tetapi tidak pada yang lain.
sumber