Berbagai deskripsi tentang pemilihan model pada efek acak dari Linear Mixed Models memerintahkan untuk menggunakan REML. Saya tahu perbedaan antara REML dan ML pada tingkat tertentu, tetapi saya tidak mengerti mengapa REML harus digunakan karena ML bias. Misalnya, apakah salah menjalankan LRT pada parameter varians dari model distribusi normal menggunakan ML (lihat kode di bawah)? Saya tidak mengerti mengapa lebih penting untuk tidak memihak daripada menjadi ML, dalam pemilihan model. Saya pikir jawabannya adalah "karena pemilihan model bekerja lebih baik dengan REML daripada dengan ML" tetapi saya ingin tahu sedikit lebih banyak dari itu. Saya tidak membaca derivasi LRT dan AIC (saya tidak cukup baik untuk memahaminya secara menyeluruh), tetapi jika REML secara eksplisit digunakan dalam derivasi, hanya mengetahui bahwa itu akan cukup memadai (misalnya,
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value
Jawaban:
Jawaban yang sangat singkat: REML adalah ML, jadi tes yang didasarkan pada REML benar. Karena estimasi parameter varians dengan REML lebih baik, wajar untuk menggunakannya.
Mengapa REML ML? Pertimbangkan misalnya model dengan , , dan adalah vektor efek tetap, adalah vektor efek acak, dan . Kemungkinan Terbatas dapat diperoleh dengan mempertimbangkan kontras untuk "menghapus" efek tetap. Lebih tepatnya, biarkan , sedemikian sehingga dan (yaitu, kolomX ∈ R n × p Z ∈ R n × q β ∈ R p u ∼ N ( 0 , τ I q ) e ∼ N ( 0 , σ 2 I n ) n - p C ∈ R ( n - p ) × n C X
sumber
Tes rasio kemungkinan adalah uji hipotesis statistik yang didasarkan pada rasio dua kemungkinan. Properti mereka ditautkan ke estimasi kemungkinan maksimum (MLE). (lihat mis. Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam ).
Dalam kasus Anda (lihat pertanyaan) Anda ingin '' memilih '' di antara dua model var-covar yang bersarang, katakanlah Anda ingin memilih antara model di mana var-covar adalah dan model di mana var-covar berada Σ s di mana yang kedua (model sederhana) adalah kasus khusus dari yang pertama (yang umum).Σg Σs
Tes ini didasarkan pada kemungkinan rasio . Dimana Σ s dan Σ g adalah penduga kemungkinan maksimum.LR=−2(log(Ls(Σ^s))−log(Lg(Σ^g)) Σ^s Σ^g
Statistik adalah, asimtotik (!) Χ 2 .LR χ2
Estimator kemungkinan maksimum diketahui konsisten, namun, dalam banyak kasus mereka bias. Ini adalah kasus untuk estimator MLE untuk dan Σ g , dapat menunjukkan bahwa mereka bias. Ini karena mereka dihitung menggunakan mean yang diperoleh dari data, sedemikian rupa sehingga penyebaran di sekitar 'perkiraan rata-rata' ini lebih kecil daripada penyebaran di sekitar rata-rata sebenarnya (lihat misalnya Penjelasan intuitif untuk membagi dengan n - 1 saat menghitung standar deviasi ? )Σ^s Σ^g n−1
Statistik di atas adalah χ 2 dalam sampel yang besar, ini hanya karena fakta bahwa, dalam sampel besar, Σ s dan Σ g konvergen ke nilai-nilai mereka yang sebenarnya (MLE konsisten). (Catatan: di tautan di atas, untuk sampel yang sangat besar, membaginya dengan n atau dengan (n-1), tidak ada bedanya)LR χ2 Σ^s Σ^g
Untuk sampel yang lebih kecil, MLE memperkirakan dari Σ s dan Σ g akan menjadi bias dan karena itu distribusi L R akan menyimpang dari χ 2 , sedangkan perkiraan REML akan memberikan perkiraan berisi untuk Σ s dan Σ g , jadi jika Anda menggunakan , untuk pemilihan model var-covar, estimasi REML maka L R untuk sampel yang lebih kecil akan lebih baik didekati dengan χ 2 .Σ^s Σ^g LR χ2 Σs Σg LR χ2
Perhatikan bahwa REML hanya boleh digunakan untuk memilih di antara struktur bersarang model var-covar dengan rata-rata yang sama, untuk model dengan cara yang berbeda, REML tidak sesuai, untuk model dengan cara yang berbeda kita harus menggunakan ML.
sumber
Saya punya jawaban yang lebih berkaitan dengan akal sehat daripada dengan Statistik. Jika Anda melihat PROC MIXED di SAS, estimasi dapat dilakukan dengan enam metode:
http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm
tapi REML adalah default. Mengapa? Rupanya, pengalaman praktis menunjukkan ia memiliki kinerja terbaik (misalnya, peluang terkecil dari masalah konvergensi). Oleh karena itu, jika tujuan Anda dapat dicapai dengan REML, maka masuk akal untuk menggunakan REML sebagai lawan dari lima metode lainnya.
sumber