Pertanyaan / topik ini muncul dalam diskusi dengan seorang kolega dan saya mencari beberapa pendapat tentang ini:
Saya memodelkan beberapa data menggunakan regresi logistik efek acak, lebih tepatnya regresi logistik intersep acak. Untuk efek tetap, saya memiliki 9 variabel yang menarik dan dipertimbangkan. Saya ingin melakukan semacam pemilihan model untuk menemukan variabel yang signifikan dan memberikan model "terbaik" (hanya efek utama).
Ide pertama saya adalah menggunakan AIC untuk membandingkan model yang berbeda tetapi dengan 9 variabel saya tidak terlalu menarik untuk membandingkan 2 ^ 9 = 512 model yang berbeda (kata kunci: pengerukan data).
Saya mendiskusikan hal ini dengan seorang kolega dan dia mengatakan kepada saya bahwa dia ingat pernah membaca tentang menggunakan pemilihan model stepwise (atau forward) dengan GLMM. Tetapi alih-alih menggunakan nilai-p (misalnya berdasarkan uji rasio kemungkinan untuk GLMM), seseorang harus menggunakan AIC sebagai kriteria masuk / keluar.
Saya menemukan ide ini sangat menarik, tetapi saya tidak menemukan referensi yang membahas ini lebih lanjut dan kolega saya tidak ingat di mana dia membacanya. Banyak buku menyarankan menggunakan AIC untuk membandingkan model tetapi saya tidak menemukan diskusi tentang menggunakan ini bersama dengan prosedur pemilihan model bertahap atau maju.
Jadi pada dasarnya saya punya dua pertanyaan:
Apakah ada yang salah dengan menggunakan AIC dalam prosedur pemilihan model bertahap sebagai kriteria masuk / keluar? Jika ya, apa alternatifnya?
Apakah Anda memiliki beberapa referensi yang membahas prosedur di atas itu (juga sebagai referensi untuk laporan akhir?
Terbaik,
Emilia
Jawaban:
Seleksi bertahap salah dalam model bertingkat karena alasan yang sama salah dalam regresi "reguler": Nilai-p akan terlalu rendah, kesalahan standar terlalu kecil, estimasi parameter bias jauh dari 0 dll. Paling penting, ini menyangkal Anda kesempatan untuk berpikir.
9 IV tidak terlalu banyak. Mengapa Anda memilih 9 itu? Tentunya Anda punya alasan.
Satu hal awal yang harus dilakukan adalah melihat banyak plot; yang tepat tergantung sedikit pada apakah data Anda memanjang (dalam hal ini plot dengan waktu pada sumbu x sering berguna) atau berkelompok. Tapi tentu saja lihat hubungan antara 9 IVs dan DV Anda (plot kotak paralel adalah salah satu kemungkinan sederhana).
Yang ideal adalah membangun beberapa model berdasarkan pengertian substantif dan membandingkannya menggunakan AIC, BIC atau ukuran lain. Tetapi jangan heran jika tidak ada model tertentu yang muncul dengan jelas yang terbaik. Anda tidak mengatakan di bidang apa Anda bekerja, tetapi di banyak bidang (kebanyakan?), Alam itu rumit. Beberapa model mungkin cocok dengan baik dan model yang berbeda mungkin lebih cocok pada kumpulan data yang berbeda (bahkan jika keduanya adalah sampel acak dari populasi yang sama).
Adapun referensi - ada banyak buku bagus tentang model campuran nonlinier. Mana yang terbaik untuk Anda tergantung pada a) Bidang apa Anda berada di b) Apa sifat data itu c) Perangkat lunak apa yang Anda gunakan.
Menanggapi komentar Anda
Jika kesembilan variabel itu penting secara ilmiah, setidaknya saya akan mempertimbangkan untuk memasukkan semuanya. Jika variabel yang semua orang anggap penting akhirnya memiliki efek kecil, itu menarik.
Tentunya plot semua variabel Anda dari waktu ke waktu dan dengan berbagai cara.
Untuk masalah umum tentang model multitingkat longitudinal, saya suka Hedeker dan Gibbons ; untuk model longitudinal nonlinear di SAS saya suka Molenberghs dan Verbeke . Dokumentasi SAS sendiri (untuk
PROC GLIMMIX
) juga menyediakan panduan.sumber
Pemilihan model dapat lebih baik dilakukan dengan menggunakan metode penyusutan seperti LASSO. Metode bertahap terlalu liberal. Sebuah pembenaran dapat ditemukan di halaman web Tibshirani. Jika Anda menggunakan R maka ada paket yang disebut
glmmLasso
yang memungkinkan pemilihan model dalam model efek campuran linier umum menggunakan metode penyusutan LASSO.sumber
Referensi yang baik untuk pemilihan model campuran berbasis AIC di R (juga baik untuk boneka) adalah Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,
sumber