Dengan teknik regularisasi saya mengacu pada laso, regresi ridge, jaring elastis dan sejenisnya.
Pertimbangkan model prediksi pada data layanan kesehatan yang berisi data demografi dan diagnosis di mana lama rawat inap diramalkan. Untuk beberapa individu ada beberapa pengamatan LOS (yaitu, lebih dari satu episode IP) selama periode waktu awal yang berkorelasi.
Apakah masuk akal untuk membangun, misalnya, model prediksi jaring elastis yang berisi istilah intersep efek acak untuk setiap individu?
Jawaban:
Ada beberapa makalah yang membahas pertanyaan ini. Saya akan mencari tanpa urutan khusus:
Pen.LME: Howard D Bondell, Arun Krishna, dan Sujit K Ghosh. Seleksi variabel gabungan untuk efek tetap dan acak dalam model linear campuran-efek. Biometrics, 66 (4): 1069-1077, 2010.
GLMMLASSO: Jurg Schelldorfer, Peter Buhlmann, Sara van de Geer. Estimasi untuk model linear campuran-dimensi yang tinggi menggunakan L1penisasi. Scandinavian Journal of Statistics, 38 (2): 197-214, 2011.
yang dapat ditemukan online.
Saya kebetulan sedang menyelesaikan makalah tentang menerapkan hukuman bersih elastis untuk model campuran (LMMEN) sekarang dan berencana untuk mengirimkannya untuk ditinjau jurnal di bulan mendatang.
Secara keseluruhan, jika Anda memodelkan data yang tidak normal atau tidak memiliki tautan identitas, saya akan menggunakan GLMMLASSO, (tetapi berhati-hatilah karena tidak dapat menangani banyak RE). Kalau tidak, Pen.LME baik mengingat Anda tidak memiliki data berkorelasi tinggi, baik itu dalam efek tetap atau acak. Dalam kasus terakhir Anda dapat mengirim saya dan saya akan dengan senang hati mengirimkan kode / kertas (saya akan meletakkannya di cran dalam waktu dekat).
Saya mengunggah ke CRAN hari ini - lmmen . Ini memecahkan masalah model campuran linier dengan penalti tipe elastis-bersih pada efek tetap dan acak secara bersamaan.
Ada juga fungsi paket cv untuk paket lmmlasso dan glmmLasso di dalamnya.
sumber
Saya selalu melihat regresi ridge hanya sebagai model efek acak empiris tidak terbatas pada variabel kategori tunggal (dan tidak ada matriks korelasi mewah). Anda hampir selalu bisa mendapatkan prediksi yang sama dari memvalidasi silang penalti punggungan dan pas / memperkirakan efek acak sederhana. Dalam contoh Anda, Anda bisa mendapatkan mewah dan memiliki punggungan penalti terpisah pada fitur demo / diag dan satu lagi pada indikator pasien (menggunakan garis sesuatu faktor penskalaan penalti
glmnet
). Atau, Anda dapat memasukkan efek acak mewah yang memiliki efek yang berkaitan dengan waktu oleh orang. Tidak satu pun dari kemungkinan ini benar atau salah, mereka hanya berguna.sumber
Saat ini saya sedang memikirkan pertanyaan serupa. Saya pikir dalam aplikasi, Anda dapat melakukannya jika berfungsi dan Anda percaya menggunakan ini masuk akal. Jika itu adalah pengaturan biasa dalam efek acak (itu berarti, Anda telah mengulang pengukuran untuk setiap kelompok), maka itu hanya tentang teknik estimasi, yang kurang kontroversial. Jika Anda sebenarnya tidak memiliki banyak pengukuran berulang untuk sebagian besar kelompok, maka itu mungkin terletak pada batas model efek acak yang biasa dan Anda mungkin ingin hati-hati membenarkan validitasnya (dari perspektif metodologi) jika Anda ingin mengajukannya sebagai umum metode.
sumber