Saya menyesuaikan model efek acak dengan glmer
beberapa data bisnis. Tujuannya adalah untuk menganalisis kinerja penjualan oleh distributor, dengan mempertimbangkan variasi regional. Saya memiliki variabel berikut:
distcode
: ID distributor, dengan sekitar 800 levelregion
: ID geografis tingkat atas (utara, selatan, timur, barat)zone
: geografi tingkat menengah bersarang di dalamregion
, sekitar 30 tingkat secara keseluruhanterritory
: geografi tingkat rendah bersarang di dalamzone
, sekitar 150 tingkat
Setiap distributor hanya beroperasi di satu wilayah. Bagian yang sulit adalah bahwa ini adalah data yang dirangkum, dengan satu titik data per distributor. Jadi saya memiliki 800 titik data dan saya mencoba untuk menyesuaikan (setidaknya) 800 parameter meskipun secara teratur.
Saya telah memasang model sebagai berikut:
glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)
Ini berjalan tanpa masalah, meskipun ia mencetak catatan:
Jumlah level faktor pengelompokan untuk efek acak sama dengan n, jumlah pengamatan
Apakah ini hal yang masuk akal untuk dilakukan? Saya mendapatkan estimasi terbatas dari semua koefisien, dan AIC juga tidak masuk akal. Jika saya mencoba poisson GLMM dengan tautan identitas, AIC jauh lebih buruk sehingga tautan log setidaknya merupakan titik awal yang baik.
Jika saya memplot nilai-nilai yang cocok vs respons, saya mendapatkan apa yang pada dasarnya cocok, yang saya kira karena saya memiliki satu titik data per distributor. Apakah itu masuk akal, atau saya melakukan sesuatu yang benar-benar konyol?
Ini menggunakan data selama satu bulan. Saya dapat memperoleh data selama beberapa bulan dan mendapatkan replikasi seperti itu, tetapi saya harus menambahkan istilah baru untuk variasi bulan-ke-bulan dan kemungkinan interaksi, betul?
ETA: Saya menjalankan model di atas lagi, tetapi tanpa family
argumen (jadi hanya LMM gaussian daripada GLMM). Sekarang lmer
beri saya kesalahan berikut:
Kesalahan dalam (fungsi (fr, FL, mulai, REML, verbose): Jumlah level dari faktor pengelompokan untuk efek acak harus kurang dari jumlah pengamatan
Jadi saya kira saya tidak melakukan sesuatu yang masuk akal, karena mengubah keluarga seharusnya tidak berpengaruh. Tetapi pertanyaannya sekarang adalah, mengapa itu berhasil?
sumber
glmer
pula (meskipun tidak terlalu senang dengan itu).Satu level per observasi bisa sangat berguna jika Anda memiliki data jumlah yang kelebihan penyebaran sebagai variabel respons Anda. Ini sama dengan mengatakan bahwa Anda mengharapkan data jumlah Anda berasal dari distribusi Poisson-lognormal, yaitu bahwa parameter lambda distribusi Poisson Anda tidak sepenuhnya ditentukan oleh variabel prediktor dalam model Anda dan bahwa kemungkinan didistribusikan secara lognormal.
Ben Bolker, salah satu pengembang untuk lme4, telah melakukan dua contoh tutorial-seperti ini. Yang pertama, dengan data sintetis, masuk ke sedikit lebih detail. Anda dapat menemukan pdf di sini . Dia juga telah berjalan melalui analisis data eksplorasi dengan data nyata yang melibatkan burung hantu (pdf dan kode R tersedia dari sini ).
sumber
glmer
dalam cara konseptual.distributor
adalah efek yang menarik: Saya ingin melihat bagaimana kinerja distributor relatif satu sama lain ketika memungkinkan untuk variabel lain. Dengan demikian itu lebih sebanding dengan model campuran linier konvensional, di mana overfitting adalah perhatian asli.