Mengapa model efek campuran mengatasi ketergantungan?

14

Katakanlah kami tertarik pada bagaimana nilai ujian siswa dipengaruhi oleh jumlah jam belajar siswa tersebut. Untuk mengeksplorasi hubungan ini, kita dapat menjalankan regresi linier berikut:

exam.gradesi=a+β1×hours.studiedi+ei

Tetapi jika kita mengambil sampel murid dari beberapa sekolah yang berbeda, kita mungkin berharap murid di sekolah yang sama lebih mirip satu sama lain daripada murid dari sekolah yang berbeda. Untuk mengatasi masalah ketergantungan ini, saran dalam banyak buku pelajaran / di web, adalah menjalankan efek campuran dan masuk sekolah sebagai efek acak. Jadi modelnya akan menjadi: Tapi mengapa ini menyelesaikan masalah ketergantungan yang ada dalam regresi linier?

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

Harap tanggapi seolah Anda berbicara dengan anak berusia 12 tahun

luciano
sumber
Apakah itu "memecahkan" masalah ketergantungan adalah konteks khusus. Tetapi Anda mungkin dapat melihat bahwa sekarang model perluasan memiliki istilah yang, setidaknya sebagian, dapat menjelaskan efek yang terkait dengan sekolah tertentu.
image_doctor

Jawaban:

23

Termasuk istilah acak dalam model adalah cara untuk menginduksi beberapa struktur kovarians antara nilai. Faktor acak untuk sekolah menginduksi kovarian tidak nol antara siswa yang berbeda dari sekolah yang sama, sedangkan itu adalah ketika sekolah berbeda.0

Mari kita tulis model Anda sebagai mana s mengindeks sekolah dan saya mengindeks siswa (di setiap sekolah). Istilah sekolah s adalah variabel-variabel acak independen ditarik dalam N ( 0 , τ ) . The e s , i adalah variabel independen acak ditarik dalam N ( 0 , σ

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,i .N(0,σ2)

Vektor ini memiliki nilai yang diharapkan yang ditentukan oleh jumlah jam kerja.

[α+hourss,iβ]s,i

Kovarians antara dan Y s , i adalah 0 ketika s s , yang berarti bahwa keberangkatan nilai dari nilai yang diharapkan adalah independen ketika siswa tidak berada di sekolah yang sama.Ys,iYs,i0ss

Kovarians antara dan Y s , i adalah τ ketika i i , dan varian Y s , i adalah τ + σ 2 : nilai siswa dari sekolah yang sama akan memiliki korelasi keberangkatan dari nilai yang mereka harapkan .Ys,iYs,iτiiYs,iτ+σ2

Contoh dan data simulasi

Berikut ini adalah simulasi R pendek untuk lima puluh siswa dari lima sekolah (di sini saya ambil ); nama-nama variabel tersebut mendokumentasikan diri: σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

model campuran

schoolsα+hoursβ

Matriks varians untuk contoh ini

schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].
Elvis
sumber
1
Elvis: itu mungkin jawaban yang bagus untuk orang-orang yang lebih ahli dalam statistik daripada saya. Namun saya bisa mengambil sedikit makna darinya. Bisakah Anda mengedit respons Anda dengan cara yang mungkin dapat dipahami oleh anak berusia 12 tahun?
luciano
1
A ... 12 tahun ?! Wow! Saya akan menambahkan beberapa simulasi, jika ini bisa membantu.
Elvis
5
Selesai Semoga ini membantu. Jika tidak, harap lebih spesifik tentang apa yang tidak Anda dapatkan. Perhatikan bahwa 12 tahun juga tidak akan mengerti pertanyaan ... Anda tidak dapat meminta jawaban yang lebih sederhana daripada pertanyaan.
Elvis