Saya telah menjelajahi banyak situs bantuan dan masih bingung tentang cara menentukan istilah bersarang yang lebih rumit dalam model campuran juga. Saya juga bingung karena penggunaan :
dan /
dan |
dalam menentukan interaksi dan bersarang dengan faktor acak yang digunakan lmer()
dalam lme4
paket di R
.
Untuk keperluan pertanyaan ini, anggap saya telah secara akurat menggambarkan data saya dengan model statistik standar ini: diperbaiki, dan acak. (secara implisit) bersarang di dalam .
station
tow
day
Tow
station
Dengan kata lain, saya berharap bahwa model saya mencakup Station (i, fix), Tow (j, acak, secara implisit bersarang di dalam Station), Hari (k, acak), dan interaksi antara Tow dan Day, dan interaksi antara Day dan Stasiun. Saya telah berkonsultasi dengan ahli statistik untuk membuat model saya dan saat ini percaya bahwa itu mewakili data saya, tetapi juga akan menambahkan deskripsi data saya untuk mereka yang tertarik di bagian bawah posting saya agar tidak berantakan.
Sejauh ini yang bisa saya himpun adalah sebagai berikut lmer
:
lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day),
data=my.data)
Apakah ini menggambarkan model statistik saya secara akurat? Adakah saran untuk meningkatkan kode saya jika tidak dibaca dengan benar?
Saya sudah berani istilah tertentu yang saya mengalami kesulitan menentukan dalam rumus lmer saya
# 1. tow bersarang di dalam stasiun ketika tow acak dan stasiun diperbaiki
aku bingung, namun tentang membedakan antara istilah bersarang dan interaksi yang menggunakan :
dan acak /
. Dalam contoh saya di atas, saya memiliki (1|station:tow)
di mana saya berharap membaca untuk bersarang di dalam stasiun. Saya telah membaca komentar yang bertentangan di berbagai situs apakah saya harus menggunakan :
atau tidak di /
sini dalam (1|...)
format acak lmer
.
# 2. Interaksi antara stasiun dan hari ketika stasiun diperbaiki dan hari adalah acak
saya kemudian miliki, (1|station:day)
tetapi kali ini saya berharap membaca interaksi antara stasiun dan hari. Sepertinya saya bisa menggunakan stasiun * hari untuk menjelaskan efek individual dari stasiun dan hari serta interaksi mereka (daripada memasukkan masing-masing dari tiga istilah secara terpisah seperti yang saya lakukan di atas), tetapi saya tidak melihat cara menentukan ini ketika satu diperbaiki dan yang lainnya acak. Akan station*(1|day)
melakukan itu?
# 3. Interaksi antara derek dan hari (keduanya acak) ketika derek bersarang di stasiun (tetap)
Lalu yang terakhir, saya memiliki (1|tow:day)
yang saya harap membaca interaksi tow
dan day
, tapi saya bertanya-tanya apakah saya perlu menentukan lagi bahwa derek itu bersarang (tersirat) di stasiun?
Saya baru untuk kedua R
dan lmer
dan pemodelan statistik dan sangat menghargai kesulitan penjelasan menyeluruh dalam setiap tanggapan terhadap pertanyaan saya jika memungkinkan.
Rincian lebih lanjut tentang data saya: Saya bertanya apakah konsentrasi plankton bervariasi di seluruh permukaan fisik di laut dekat pantai. Saya memiliki tiga stasiun, di darat, di dalam, dan di lepas pantai dari front ini. Stasiun dengan demikian diperbaiki. Di setiap stasiun, saya mengambil tiga derek plankton tiruan (dari mana saya mengurutkan, menghitung, dan mendapatkan konsentrasi dalam hal # bug per meter kubik air). Tow acak: di tiga derek saya berharap dapat menjelaskan variabilitas umum dalam plankton di stasiun tertentu. Tow secara intrinsik bersarang di stasiun karena setiap derek tidak memiliki ID unik (123.123.123 adalah ID untuk derek di setiap stasiun). Saya kemudian melakukan ini pada beberapa hari independen dengan front baru yang telah terbentuk. Saya pikir saya bisa menganggap Day sebagai faktor penghambat? Hari acak karena mengulangi ini pada beberapa hari depan yang independen berusaha untuk menangkap variabilitas dari hari ke hari dan mewakili semua hari di mana front ini hadir. Saya ingin tahu tentang istilah interaksi untuk melihat apakah Tows berubah dalam variabilitas dari hari ke hari dan jika stasiun selalu menghasilkan data yang sama atau apakah itu tergantung pada hari?
Sekali lagi, terima kasih atas waktu dan bantuan Anda, saya menghargainya!
sumber
R
sintaksis, IMO, itu cukup statistik (wrt memahami bagaimana model yang ditentukan terkait dengan bersarang & interaksi, dll) untuk menjadi on-topik untuk CV.lmer()
sintaks Anda, Anda telah menentukan model di mana ada efek tetapstation
dan empat intersep acak, dibagi oleh individu dengan (1) kombinasi yang samastation
dantow
, (2) nilaiDay
, (3) kombinasi daristation
danday
dan ( 4) kombinasi daritow
danday
, masing-masing. Apakah ini yang Anda maksudkan? Saya tidak yakin karena, seperti ditunjukkan oleh @BabekP, bagaimana Anda menulis formulasi model Anda tidak jelas. Anda telah menulis nama variabel, bukan parameter. Biasanya, dalam model seperti ini, kombinasi variabel ditangkap oleh subskrip.Jawaban:
Tow bersarang di dalam stasiun saat derek acak dan stasiun diperbaiki
station+(1|station:tow)
benar. Seperti @John katakan dalam jawabannya,(1|station/tow)
akan meluas ke(1|station)+(1|station:tow)
(efek utama stasiun ditambah interaksi antara derek dan stasiun), yang tidak Anda inginkan karena Anda telah menetapkan stasiun sebagai efek tetap.Interaksi antara stasiun dan hari ketika stasiun diperbaiki dan hari adalah acak.
Interaksi antara efek tetap dan acak selalu acak. Sekali lagi seperti kata @John,
station*day
perluasstation+day+station:day
, yang Anda (lagi) tidak inginkan karena Anda sudah menentukanday
dalam model Anda. Saya tidak berpikir ada cara untuk melakukan apa yang Anda inginkan dan menciutkan efek silang dariday
(acak) danstation
(tetap), tetapi Anda bisa jika Anda ingin menulisstation+(1|day/station)
, yang sebagaimana ditentukan dalam jawaban sebelumnya akan diperluas kestation + (1|day) + (1|day:station)
.interaksi antara derek dan hari ketika derek bersarang di stasiun
Karena Anda tidak memiliki nilai-nilai yang unik dari
tow
variabel (yaitu karena seperti yang Anda katakan di bawah ini TOWS ditetapkan sebagai1
,2
,3
di setiap stasiun, Anda lakukan perlu menentukan bersarang, seperti(1|station:tow:day)
. Jika Anda tidak memiliki TOWS ditentukan unik, Anda bisa menggunakan salah(1|tow:day)
atau(1|station:tow:day)
(mereka harus memberikan jawaban yang setara). Jika Anda tidak menentukan sarang dalam hal ini,lme4
akan mencoba memperkirakan efek acak yang dibagikan oleh tow # 1 di semua stasiun ...Salah satu cara untuk mendiagnosis apakah Anda telah menentukan efek acak dengan benar adalah dengan melihat jumlah pengamatan yang dilaporkan untuk masing-masing variabel pengelompokan dan melihat apakah itu sesuai dengan apa yang Anda harapkan (misalnya,× ×
station:tow:day
kelompok harus memiliki sejumlah pengamatan yang sesuai dengan jumlah total stasiun menarik kombinasi hari: jika Anda lupa bersarang dengan stasiun, Anda akan melihat bahwa Anda mendapatkan lebih sedikit pengamatan daripada yang seharusnya.×Apakah http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#model-specification dan http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#nested-or-crossed berguna untuk Anda?
sumber
B
bersarangA
atau hanya berinteraksi dengannya tergantung pada apakah efek utama dariA
termasuk dalam model atau tidak. Jika efek utamaB
adalah juga dalam model maka itu menyeberang ...Beberapa hal dalam formula agak membingungkan. Ini
:
untuk interaksi antara dua istilah sedangkan*
untuk efek utama dan interaksi. Yang/
lain untuk interaksi tetapi apa yang dilakukannya adalah menghasilkan interaksi antara pembilang dan semua istilah dalam penyebut (misalnyaA/(B+C) = A:B + A:C
). Ini|
untuk sesuatu seperti "dikelompokkan berdasarkan". Jadi,1|station
akan disadap dikelompokkan berdasarkan stasiun dan dalam tanda kurung itu acak(1|station)
. Begitulah cara Anda akan bersarang.Semoga itu bisa membantu. Agak aneh memiliki efek acak yang bersarang di dalam efek tetap dan saya tidak yakin bagaimana Anda akan mewakili itu. Aku bahkan tidak bisa membayangkan situasinya. Anda mungkin mendapatkan respons yang lebih baik jika Anda menjelaskan apa variabel Anda dan apa yang ingin Anda capai. Banyak kali orang mengajukan pertanyaan dan menggunakan terminologi yang salah dan sulit untuk berkomunikasi. Jelaskan apa yang diwakili variabel dan apa yang ingin Anda ketahui tentang variabel.
Berfokus pada deskripsi Anda di paragraf terakhir, kedengarannya seperti derek Anda hanya merupakan indikator dari sampel yang Anda kumpulkan dan bukan sesuatu yang Anda butuhkan perkiraan dalam arti bahwa Anda berharap derek 1 secara konsisten berbeda dari derek 2 dalam beberapa cara. Tow hanya menunjukkan sampel. Kecuali Anda benar-benar percaya urutan tows penting, Anda bahkan tidak peduli dengan variabel itu. Dan jika mereka penting maka itu adalah efek tetap (dan mungkin acak, tetapi bukan hanya efek acak). Anda mengatakan bahwa Anda ingin tahu apakah ada perubahan variabilitas dari hari ke hari. Bagaimana dengan jawabannya ya? Bukan dalam bidang probabilitas realistis bahwa mereka tidak berbeda dari hari ke hari. Itu hanya varian dari ukuran Anda. Kamu' Anda tidak diperbolehkan untuk mencoba menjelaskan setiap spesifikasi varians karena Anda akhirnya tidak memiliki varians yang tersisa untuk kesalahan. Anda akan memiliki model yang terlalu ditentukan. Anda akan berada di titik hanya melaporkan setiap tindakan.
Anda membuat pernyataan serupa tentang bertanya-tanya apakah stasiun bervariasi menurut hari; tentu saja. Tapi mungkin maksud Anda hari-hari tertentu? Apakah hari-hari dikelompokkan berdasarkan musim, siklus bulan, dll? Kecuali jika Anda memiliki sesuatu selain ini hanya hari 1, ini adalah hari 2, dll. Bagaimana mengetahui bahwa stasiun bervariasi setiap hari memberi tahu Anda hal lain selain stasiun berbeda? Jadi jawaban untuk pertanyaan itu adalah, tentu saja stasiun bervariasi setiap hari. Dan tentu saja tows bervariasi setiap hari dan stasiun ke stasiun. Anda berakhir di kiri dengan model sederhana:
Satu efek tetap yang Anda miliki di sini, stasiun, hanya disampel di beberapa deret dan beberapa hari. Saya tidak yakin Anda benar-benar membutuhkan pemodelan multi-level di sini. Sepertinya Anda terlalu menentukan model Anda.
Jika Anda benar-benar menginginkan efek hari dan derek acak dan ada informasi yang belum Anda tentukan di sini maka Anda dapat memperluasnya ke model multi-level. Itu akan menjadi:
Anda perlu beberapa derek di setiap stasiun dan hari untuk menggunakan model itu.
sumber