Bagaimana efek acak dengan hanya 1 pengamatan mempengaruhi model campuran linier umum?

14

Saya memiliki satu set data di mana variabel yang ingin saya gunakan sebagai efek acak hanya memiliki satu pengamatan untuk beberapa level. Berdasarkan jawaban atas pertanyaan sebelumnya, saya telah mengumpulkan bahwa, pada prinsipnya, ini baik-baik saja.

Bisakah saya memasukkan model campuran dengan subjek yang hanya memiliki 1 observasi?

Model penyadapan acak - satu pengukuran per subjek

Namun, di tautan kedua, jawaban pertama menyatakan:

"... dengan asumsi Anda tidak menggunakan GLMM model campuran linier umum di mana dalam kasus itu masalah dispersi berlebih ikut berperan"

Saya sedang mempertimbangkan menggunakan GLMM, tapi saya tidak begitu mengerti bagaimana tingkat efek acak dengan pengamatan tunggal akan mempengaruhi model.


Berikut adalah contoh salah satu model yang saya coba paskan. Saya sedang mempelajari burung, dan saya ingin memodelkan efek populasi dan musim pada jumlah perhentian selama migrasi. Saya ingin menggunakan individu sebagai efek acak, karena untuk beberapa individu saya memiliki data hingga 5 tahun.

library(dplyr)
library(lme4)
pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "NU", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA", "SA"))
id <- "2 2 4 4 7 7 9 9 10 10 84367 84367 84367 84368 84368 84368 84368 84368 84368 84369 84369 33073 33073 33073 33073 33073 33073 33073 33073 33073 80149 80149 80149 80150 80150 80150 57140 57141 126674 126677 126678 126680 137152 137152 137157 115925 115925 115925 115925 115925 115925 115925 115925 115926 115926 115926 115926 115926 115926 115927 115928 115929 115929 115929 115930 115930 115930 115930 115931 115931 115931 115932 115932 115932"
id <- strsplit(id, " ")
id <- as.numeric(unlist(id))
year <- "2014 2015 2014 2015 2014 2015 2014 2015 2014 2015 2009 2010 2010 2009 2010 2010 2011 2011 2012 2009 2010 2009 2009 2010 2010 2011 2011 2012 2012 2013 2008 2008 2009 2008 2008 2009 2008 2008 2013 2013 2013 2013 2014 2015 2014 2012 2013 2013 2014 2014 2015 2015 2016 2012 2013 2013 2014 2014 2015 2013 2012 2012 2013 2013 2012 2013 2013 2014 2013 2014 2014 2013 2014 2014"
year <- strsplit(year, " ")
year <- as.numeric(unlist(year))
season <- as.character(c("fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "fall", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "fall", "spring", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "spring", "fall", "spring", "spring", "fall", "fall", "fall", "fall", "spring", "fall", "fall", "spring", "spring","fall", "fall", "spring", "fall", "fall", "spring"))
stops <- "0 0 0 0 0 0 1 0 2 1 1 0 0 3 2 0 1 1 0 1 1 2 0 1 0 2 0 4 0 0 2 1 1 2 5 2 1 0 9 6 2 3 4 7 2 0 0 0 0 0 2 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 0 1 1 0 0 0 0"
stops <- strsplit(stops, " ")
stops <- as.numeric(unlist(stops))

stopdata <- data.frame(pop = pop, id = id, year = year, season = season, stops = stops, stringsAsFactors = FALSE)


stopdata <- group_by(stopdata, pop, id)
summary1 <- summarise(stopdata, n.years = length(year))
table(summary1$n.years)

Ada 27 orang. 9 orang memiliki satu pengamatan. 18 orang memiliki 2-9 pengamatan.

Apa yang harus diperhatikan jika 1/3 dari tingkat efek acak hanya memiliki satu pengamatan?


Saya telah mempertimbangkan:

Opsi 1: GLMM seperti dijelaskan di atas

stops.glmm <- glmer(stops ~ pop + season + (1|id), data=stopdata, family = poisson)

Opsi 2: Model linear umum GLM menggunakan sarana untuk individu dengan banyak pengamatan

aggfun <- function(data, idvars=c("pop", "season", "id"), response){
#select id variables, response variable, and year
sub1 <- na.omit(data[,c(idvars, "year", response)])
#aggregate for mean response by year
agg1 <- aggregate(sub1[names(sub1) == response],by=sub1[idvars],FUN=mean)
#sample size for each aggregated group
aggn <- aggregate(sub1[response],by=sub1[idvars],FUN=length)
#rename sample size column
names(aggn)[4] <- "n"
agg2 <- merge(agg1, aggn)
agg2}


#Create weighted dataset
stops.weight <- aggfun(data = stopdata, response = "stops")
stops.weight$stops <- round(stops.weight$stops)

#Weighted GLM
stops.glm <- glm(stops~pop + season, data=stops.weight, family = poisson, weights = n)
canderson156
sumber
Dari mana kutipan itu berasal? Saya tidak dapat menemukan jawaban yang sesuai.
Amuba mengatakan Reinstate Monica
Tautan kedua, jawaban pertama, dalam tanda kurung
canderson156
3
singkat tidak-cukup-jawab: Saya tidak berpikir akan ada masalah. Tidak tahu persis apa yang dimaksud dengan jawaban pertama untuk pertanyaan kedua yang ditautkan di atas: sudahkah Anda mempertimbangkan untuk meninggalkan komentar di sana (jika Anda memiliki perwakilan yang cukup)? Dalam batas di mana Anda memiliki tepat 1 pengamatan per kelompok maka variabilitas di antara kelompok dan residual akan benar-benar dikacaukan. Saya mungkin tidak akan repot dengan model campuran jika Anda memiliki kelompok minoritas dengan pengamatan> 1 (dan sedikit di kelompok-kelompok itu), tetapi kasing Anda terdengar baik-baik saja ...
Ben Bolker
Saya tidak yakin pilihan kedua Anda (Poisson tertimbang) benar-benar berfungsi dengan baik, tetapi saya harus memikirkannya lebih hati-hati.
Ben Bolker
@ BenBolker Apa yang akan Anda pilih untuk dilakukan dalam kasus yang Anda jelaskan, di mana hanya ada sekelompok kecil kelompok dengan observasi> 1?
mkt - Pasang kembali Monica

Jawaban:

3

Secara umum, Anda memiliki masalah dengan pengidentifikasian. Model linier dengan efek acak yang ditetapkan ke parameter dengan hanya satu pengukuran tidak dapat membedakan antara efek acak dan kesalahan residual.

Persamaan efek campuran linier yang khas akan terlihat seperti:

E=β+ηsaya+ϵj

βηsayasayaϵjjηϵηϵSD(η)SD(ϵ)vSebuahr(η)+vSebuahr(ϵ)

SD(η)SD(ϵ)

Bill Denney
sumber