Model campuran dengan 1 observasi per level

12

Saya menyesuaikan model efek acak dengan glmerbeberapa data bisnis. Tujuannya adalah untuk menganalisis kinerja penjualan oleh distributor, dengan mempertimbangkan variasi regional. Saya memiliki variabel berikut:

  • distcode: ID distributor, dengan sekitar 800 level
  • region: ID geografis tingkat atas (utara, selatan, timur, barat)
  • zone: geografi tingkat menengah bersarang di dalam region, sekitar 30 tingkat secara keseluruhan
  • territory: geografi tingkat rendah bersarang di dalam zone, sekitar 150 tingkat

Setiap distributor hanya beroperasi di satu wilayah. Bagian yang sulit adalah bahwa ini adalah data yang dirangkum, dengan satu titik data per distributor. Jadi saya memiliki 800 titik data dan saya mencoba untuk menyesuaikan (setidaknya) 800 parameter meskipun secara teratur.

Saya telah memasang model sebagai berikut:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

Ini berjalan tanpa masalah, meskipun ia mencetak catatan:

Jumlah level faktor pengelompokan untuk efek acak sama dengan n, jumlah pengamatan

Apakah ini hal yang masuk akal untuk dilakukan? Saya mendapatkan estimasi terbatas dari semua koefisien, dan AIC juga tidak masuk akal. Jika saya mencoba poisson GLMM dengan tautan identitas, AIC jauh lebih buruk sehingga tautan log setidaknya merupakan titik awal yang baik.

Jika saya memplot nilai-nilai yang cocok vs respons, saya mendapatkan apa yang pada dasarnya cocok, yang saya kira karena saya memiliki satu titik data per distributor. Apakah itu masuk akal, atau saya melakukan sesuatu yang benar-benar konyol?

Ini menggunakan data selama satu bulan. Saya dapat memperoleh data selama beberapa bulan dan mendapatkan replikasi seperti itu, tetapi saya harus menambahkan istilah baru untuk variasi bulan-ke-bulan dan kemungkinan interaksi, betul?


ETA: Saya menjalankan model di atas lagi, tetapi tanpa familyargumen (jadi hanya LMM gaussian daripada GLMM). Sekarang lmerberi saya kesalahan berikut:

Kesalahan dalam (fungsi (fr, FL, mulai, REML, verbose): Jumlah level dari faktor pengelompokan untuk efek acak harus kurang dari jumlah pengamatan

Jadi saya kira saya tidak melakukan sesuatu yang masuk akal, karena mengubah keluarga seharusnya tidak berpengaruh. Tetapi pertanyaannya sekarang adalah, mengapa itu berhasil?

Hong Ooi
sumber

Jawaban:

4

Saya akan sangat tidak setuju dengan praktik pemasangan model campuran di mana Anda memiliki jumlah kelompok yang sama dengan pengamatan berdasarkan alasan konseptual, tidak ada "kelompok", dan juga pada alasan komputasi, karena model Anda seharusnya memiliki masalah yang dapat diidentifikasi - dalam kasus ini dari LMM setidaknya. (Saya bekerja dengan LMM secara eksklusif mungkin agak bias juga. :))

yN(Xβ,ZDZT+σ2I)Dσ2

(Saya tidak mengerti apa yang Anda maksud dengan AIC "masuk akal". AIC harus dapat dihitung dalam arti bahwa meskipun Anda terlalu pas memasukkan data, Anda masih "menghitung sesuatu".)

glmeryXβXβ>0glmer

Bagian konseptual: Saya pikir ini sedikit lebih "subjektif" tetapi sedikit lebih langsung juga. Anda menggunakan Mixed Eff. model karena Anda pada dasarnya mengakui bahwa ada beberapa struktur terkait kelompok dalam kesalahan Anda. Sekarang jika Anda memiliki kelompok sebanyak poin-poin data, tidak ada struktur untuk dilihat. Setiap penyimpangan dalam struktur kesalahan LM Anda yang dapat dikaitkan dengan "pengelompokan" sekarang dikaitkan dengan titik pengamatan spesifik (dan karena itu Anda berakhir dengan model yang terlalu pas).

Secara umum kelompok-kelompok pengamatan tunggal cenderung agak berantakan; mengutip D.Bates dari milis r-sig-mixed-models:

Saya pikir Anda akan menemukan bahwa ada sangat sedikit perbedaan dalam model yang cocok apakah Anda memasukkan atau mengecualikan kelompok pengamatan tunggal. Cobalah dan lihatlah.

usεr11852
sumber
1
benar bahwa ini tampaknya tidak masuk akal dalam pengaturan linier, tetapi bisa sangat berguna dalam regresi Poisson. Saya akan melihat apakah saya dapat melacak tautan ke sesuatu yang dikatakan Ben Bolker tentang masalah ini (dia adalah salah satu pengembang lme4, bersama dengan Doug Bates).
David J. Harris
Ya, seperti yang saya katakan mungkin saya bias berpikir tentang LMM kebanyakan dan saya mengomentari "bagian konseptual". Saya menjelaskan mengapa ini bekerja dalam kasus glmerpula (meskipun tidak terlalu senang dengan itu).
usεr11852
8

Satu level per observasi bisa sangat berguna jika Anda memiliki data jumlah yang kelebihan penyebaran sebagai variabel respons Anda. Ini sama dengan mengatakan bahwa Anda mengharapkan data jumlah Anda berasal dari distribusi Poisson-lognormal, yaitu bahwa parameter lambda distribusi Poisson Anda tidak sepenuhnya ditentukan oleh variabel prediktor dalam model Anda dan bahwa kemungkinan didistribusikan secara lognormal.

Ben Bolker, salah satu pengembang untuk lme4, telah melakukan dua contoh tutorial-seperti ini. Yang pertama, dengan data sintetis, masuk ke sedikit lebih detail. Anda dapat menemukan pdf di sini . Dia juga telah berjalan melalui analisis data eksplorasi dengan data nyata yang melibatkan burung hantu (pdf dan kode R tersedia dari sini ).

David J. Harris
sumber
1
+1. Saya setuju dengan apa yang Anda katakan. Seperti yang saya sebutkan di posting asli saya: " dispersi berlebihan (...) adalah bagaimana Anda" menyiasati "masalah memiliki kelompok sebanyak pengamatan. " Terima kasih telah membuat poin yang lebih baik glmerdalam cara konseptual.
usεr11852
1
Terima kasih atas tautannya! Setelah membaca itu, dan melihat lebih dekat nilai-nilai yang cocok dari model saya, saya punya ide yang lebih baik tentang apa yang terjadi. Saya sebenarnya tidak berpikir apa yang dilakukan Ben sesuai untuk analisis saya. Dia menggunakan variabel tingkat observasi untuk memungkinkan penyebaran berlebihan, jadi itu seperti efek gangguan. Untuk analisis saya, distributoradalah efek yang menarik: Saya ingin melihat bagaimana kinerja distributor relatif satu sama lain ketika memungkinkan untuk variabel lain. Dengan demikian itu lebih sebanding dengan model campuran linier konvensional, di mana overfitting adalah perhatian asli.
Hong Ooi