REML vs ML stepAIC

10

Saya merasa kewalahan setelah mencoba menggali literatur tentang bagaimana menjalankan analisis model campuran saya dengan menggunakan AIC untuk memilih model atau model terbaik. Saya tidak berpikir bahwa data saya serumit itu, tetapi saya mencari konfirmasi bahwa apa yang telah saya lakukan adalah benar, dan kemudian memberi saran tentang bagaimana melanjutkan. Saya tidak yakin apakah saya harus menggunakan lme atau lmer dan kemudian dengan salah satu dari mereka, jika saya harus menggunakan REML atau ML.

Saya memiliki nilai seleksi dan saya ingin tahu kovariat mana yang paling memengaruhi nilai itu dan memungkinkan untuk prediksi. Berikut ini beberapa contoh data yang dibuat dan kode saya untuk pengujian yang saya kerjakan:

ID=as.character(rep(1:5,3))
season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w")
time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d")
repro=as.character(rep(1:3,5))
risk=runif(15, min=0, max=1.1)
comp1=rnorm(15, mean = 0, sd = 1)
mydata=data.frame(ID, season, time, repro, risk, comp1)
c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata)
c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata)
c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata)
c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata)
c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata)
c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata)
c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata)

Saya memiliki ~ 19 model yang mengeksplorasi data ini dengan berbagai kombinasi dan istilah interaksi 2 arah, tetapi selalu dengan ID sebagai efek acak dan comp1 sebagai variabel dependen saya.

  • Q1. Yang mana untuk digunakan? Lme atau Lmer? apakah itu penting?

Dalam kedua hal ini, saya memiliki pilihan untuk menggunakan ML atau REML - dan saya mendapatkan jawaban yang berbeda secara drastis - menggunakan ML diikuti oleh AIC Saya berakhir dengan 6 model yang semuanya dengan nilai AIC yang sama dan kombinasi model tidak masuk akal, sedangkan REML menghasilkan 2 model yang paling mungkin menjadi yang terbaik. Namun, ketika menjalankan REML saya tidak dapat menggunakan anova lagi.

  • Q2. adalah alasan utama untuk menggunakan ML lebih dari REML karena digunakan dengan ANOVA? Ini tidak jelas bagi saya.

Saya masih tidak dapat menjalankan stepAIC atau saya tidak tahu cara lain untuk mempersempit 19 model tersebut.

  • Q3. apakah ada cara untuk menggunakan stepAIC pada titik ini?
Kerry
sumber
3
Untuk Q2, ML diperlukan karena perbandingan menggunakan REML tidak valid ketika efek tetap berubah. Pertanyaan terkait yang mungkin berguna ada di sini: stats.stackexchange.com/a/16015/3601
Aaron meninggalkan Stack Overflow
@ Harun saya telah melihat pertanyaan itu sebelumnya, tetapi masih bingung. Gunakan hanya REML "berfungsi" ketika efek acak berubah? Saya jelas tidak cukup memahami ML vs REML. Terima kasih, itu membantu dengan salah satu pertanyaan saya!
Kerry
Ya itu benar. Saat membandingkan model, REML hanya boleh digunakan jika model memiliki efek tetap yang sama. Jawaban diperluas di bawah.
Aaron meninggalkan Stack Overflow

Jawaban:

16

Q1. Yang mana untuk digunakan? Lme atau Lmer? apakah itu penting? Baik baik saja. Mereka akan memberi Anda cocok yang sama. lmeakan memberi Anda nilai-p, dan lmertidak, tetapi itu lebih dari yang ingin saya sampaikan di sini. Referensi paling terkenal adalah salah satu posting Doug Bates ke milis R-help di sini .

(peringatan: Mereka memang menggunakan algoritma yang sedikit berbeda sehingga ada beberapa kasus yang berpotensi sulit secara komputasional di mana satu atau yang lain mungkin melakukan yang lebih baik, tetapi itu sangat jarang dalam praktiknya, dan sebenarnya, kemungkinan besar menunjuk pada beberapa jenis kesalahan spesifikasi model. Lihat yang sepenuhnya berbeda hasil dari lmer () dan lme () .)

Q2. adalah alasan utama untuk menggunakan ML lebih dari REML karena digunakan dengan ANOVA? Ini tidak jelas bagi saya. ML diperlukan karena perbandingan menggunakan REML tidak valid ketika efek tetap berubah. Pertanyaan terkait yang mungkin bermanfaat ada di sini: https://stats.stackexchange.com/a/16015/3601 . Untuk menjawab pertanyaan Anda dalam komentar di atas, ya, ketika membandingkan model, REML hanya boleh digunakan jika model memiliki efek tetap yang sama (artinya, ketika hanya efek acak yang berubah). Kemungkinan REML tergantung pada efek tetap mana yang ada dalam model, dan karenanya tidak sebanding jika efek tetap berubah. REML umumnya dianggap memberikan perkiraan yang lebih baik untuk efek acak, jadi saran yang biasa adalah agar sesuai dengan model terbaik Anda menggunakan REML untuk inferensi dan pelaporan akhir Anda.

Q3. apakah ada cara untuk menggunakan stepAIC pada titik ini? Untuk membandingkan antara 19 model Anda yang masuk akal dalam situasi Anda, bandingkan saja AIC untuk semuanya. Tidak ada alasan untuk menggunakan prosedur bertahap sama sekali. Prosedur bertahap umumnya dipandang kuno saat ini karena tidak menjamin bahwa model terbaik ditemukan, dan komputer memudahkan untuk membandingkan banyak model.

Aaron meninggalkan Stack Overflow
sumber
1

Dalam penggalian lebih lanjut, saya juga menemukan sumber daya yang mendukung tautan yang telah disediakan Aaron dan merupakan bacaan yang baik bagi mereka yang memulai seperti saya. Bab-bab yang ditautkan pada http://lme4.r-forge.r-project.org/ untuk contoh, periksa tautan slide http://lme4.r-forge.r-project.org/slides/ pada halaman proyek yang sama . Banyak kursus singkat bahkan memiliki contoh kode R yang sangat membantu.
Juga jawaban singkat ini oleh Dr. Bolker http://r.789695.n4.nabble.com/lme-vs-lmer-how-do-they-differ-td2534332.html

Kerry
sumber