Menghitung

13

Saya telah membaca tentang menghitung nilai dalam model campuran dan setelah membaca FAQ R-sig, posting lain di forum ini (saya akan menghubungkan beberapa tetapi saya tidak memiliki reputasi yang cukup) dan beberapa referensi lain yang saya pahami menggunakan dalam konteks model campuran rumit.R 2R2R2

Namun, saya baru saja menemukan dua makalah ini di bawah ini. Sementara metode ini memang terlihat menjanjikan (bagi saya) saya bukan ahli statistik, dan karena itu saya bertanya-tanya apakah ada orang lain yang memiliki wawasan tentang metode yang mereka usulkan dan bagaimana mereka akan membandingkan dengan metode lain yang telah diusulkan.

Nakagawa, Shinichi, dan Holger Schielzeth. "Metode umum dan sederhana untuk mendapatkan R2 dari model efek campuran linier umum." Metode dalam Ekologi dan Evolusi 4.2 (2013): 133-142.

Johnson, Paul CD. "Perpanjangan R2GLMM Nakagawa & Schielzeth ke model lereng acak." Metode dalam Ekologi dan Evolusi (2014).

Metode is juga dapat diimplementasikan menggunakan fungsi r.squaredGLMM dalam paket MuMIn yang memberikan deskripsi metode berikut.

Untuk model efek campuran, dapat dikategorikan menjadi dua jenis. Marginal mewakili varians yang dijelaskan oleh faktor-faktor tetap, dan didefinisikan sebagai: Kondisional ditafsirkan sebagai varians yang dijelaskan oleh faktor tetap dan acak (yaitu seluruh model), dan dihitung sesuai dengan persamaan: mana adalah varian dari komponen efek tetap, dan adalah jumlah dari semua komponen varians (grup, individu, dll.),R 2R2R2 R2RGLMM(c)2=(σ 2 f +(σ 2 l ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2 σ 2 f(σ 2 l )σ 2 l σ 2 d
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2adalah varians karena dispersi aditif dan adalah varians distribusi-spesifik. σd2

Dalam analisis saya, saya melihat data longitudinal dan saya terutama tertarik pada varian dijelaskan oleh efek tetap dalam model

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
sumber
Saya telah mengedit posting Anda untuk menggunakan format mathjax. Periksa ulang apakah saya tidak sengaja membuat kesalahan.
Sycorax berkata Reinstate Monica
Pertanyaan Anda kurang pertanyaan nyata sejauh yang saya mengerti. Bisakah Anda mengklarifikasi apa yang Anda inginkan? Rekomendasi apa yang harus digunakan?
Henrik
Hai @ Henrik, saya tertarik pada rekomendasi tentang apa yang harus digunakan, ya, tetapi juga secara lebih luas bagaimana metode yang berbeda dibandingkan satu sama lain dan apa perbedaannya.
Andrews
Saya percaya persamaan asli dan di atas salah. Ini bukan karena perubahan @ user777. Dua istilah di sebelah kanan harus dalam penyebut. Lihat ini .
Cyrille
Kesalahan ini kemungkinan disebabkan karena dokumentasi paket MuMIn kehilangan tanda kurung penutup .
Cyrille

Jawaban:

11

Saya menjawab dengan menempelkan balasan Douglas Bates di milis R-Sig-ME, pada 17 Desember 2014 tentang pertanyaan bagaimana menghitung statistik untuk model campuran linier umum, yang saya percaya wajib dibaca untuk siapa pun yang tertarik pada hal seperti itu. Bates adalah penulis asli paket untuk R dan penulis pendamping , serta penulis pendamping dari sebuah buku terkenal tentang model campuran , dan CV akan mendapat manfaat dari memiliki teks dalam jawaban, bukan hanya tautan ke Itu.R2lme4nlme

Saya harus mengakui sedikit gugup ketika orang berbicara tentang "R2 untuk GLMMs". R2 untuk model linier didefinisikan dengan baik dan memiliki banyak sifat yang diinginkan. Untuk model lain kita dapat mendefinisikan jumlah yang berbeda yang mencerminkan beberapa tetapi tidak semua properti ini. Tapi ini tidak menghitung R2 dalam arti mendapatkan nomor yang memiliki semua properti yang R2 untuk model linier tidak. Biasanya ada beberapa cara berbeda sehingga jumlah tersebut dapat didefinisikan. Khusus untuk GLM dan GLMM sebelum Anda dapat mendefinisikan "proporsi varian tanggapan menjelaskan" Anda harus terlebih dahulu mendefinisikan apa yang Anda maksud dengan "varian tanggapan".

Kebingungan tentang apa yang merupakan R2 atau derajat kebebasan dari jumlah lain yang terkait dengan model linier sebagaimana diterapkan pada model lain berasal dari membingungkan rumus dengan konsep. Meskipun formula berasal dari model derivasi sering melibatkan matematika yang cukup canggih. Untuk menghindari derivasi yang berpotensi membingungkan dan hanya "memotong untuk mengejar" lebih mudah untuk menyajikan formula. Tapi rumusnya bukan konsepnya. Generalisasi formula tidak sama dengan generalisasi konsep. Dan formula-formula tersebut hampir tidak pernah digunakan dalam praktek, terutama untuk model linier umum, analisis varian dan efek acak. Saya memiliki "meta-teorema" bahwa satu-satunya jumlah yang sebenarnya dihitung sesuai dengan rumus yang diberikan dalam teks pengantar adalah mean sampel.

Mungkin kelihatannya saya menjadi orang tua yang pemarah tentang hal ini, dan mungkin juga saya, tetapi bahayanya adalah orang mengharapkan kuantitas "seperti R2" untuk memiliki semua sifat R2 untuk model linier. Tidak bisa. Tidak ada cara untuk menggeneralisasi semua properti ke model yang jauh lebih rumit seperti GLMM.

Saya pernah di panitia meninjau proposal tesis untuk Ph.D. pencalonan. Proposal itu untuk menguji saya pikir 9 formula berbeda yang dapat dianggap cara menghitung R2 untuk model regresi nonlinier untuk memutuskan mana yang "terbaik". Tentu saja, ini akan dilakukan melalui studi simulasi dengan hanya beberapa model yang berbeda dan hanya beberapa set nilai parameter yang berbeda untuk masing-masing. Saran saya bahwa ini adalah latihan yang sama sekali tidak berarti tidak disambut dengan hangat.

Robert Long
sumber
10

Setelah menelusuri literatur saya menemukan makalah berikut yang membandingkan beberapa metode berbeda untuk menghitung nilai untuk model campuran, di mana metode (MVP) setara dengan metode yang diusulkan oleh Nakagawa dan Schielzeth.R 2R2R2

  • Lahuis, D et al (2014) Dijelaskan Ukuran Varians untuk Model Multilevel. Metode Penelitian Organisasi.

masukkan deskripsi gambar di sini

Secara keseluruhan, sebagian besar tindakan (Formula, Formula, (OLS), dan (MVP)) menunjukkan tingkat bias, konsistensi, dan efisiensi yang dapat diterima di semua kondisi dan model. Selain itu, perbedaan dalam nilai bias rata-rata untuk tindakan ini kecil. Formula dan Formula adalah yang paling tidak bias dalam model intersep acak dan Formula dan (MVP) adalah yang paling tidak bias dalam model lereng acak. Dalam hal efisiensi, Formula dan (MVP) memiliki nilai standar deviasi terendah dalam model intersep acak. (MVP) dan (OLS) memiliki standar deviasi terendah dalam model lereng acak. Secara umum, Formula bukan penduga yang efisien.R 2 R 2 R 2 R 2 R 2R2R2R2R2R2R2

Andrews
sumber