Sudahkah saya menentukan model saya dengan benar di lmer?

26

Saya telah menjelajahi banyak situs bantuan dan masih bingung tentang cara menentukan istilah bersarang yang lebih rumit dalam model campuran juga. Saya juga bingung karena penggunaan :dan /dan |dalam menentukan interaksi dan bersarang dengan faktor acak yang digunakan lmer()dalam lme4paket di R.

Untuk keperluan pertanyaan ini, anggap saya telah secara akurat menggambarkan data saya dengan model statistik standar ini: diperbaiki, dan acak. (secara implisit) bersarang di dalam .

Ysayajk=kamu+stasiunsaya+menyeretj(saya)+harik+(stasiun×hari)sayak+(menyeret×hari)j(saya)k
stationtowdayTowstation

Dengan kata lain, saya berharap bahwa model saya mencakup Station (i, fix), Tow (j, acak, secara implisit bersarang di dalam Station), Hari (k, acak), dan interaksi antara Tow dan Day, dan interaksi antara Day dan Stasiun. Saya telah berkonsultasi dengan ahli statistik untuk membuat model saya dan saat ini percaya bahwa itu mewakili data saya, tetapi juga akan menambahkan deskripsi data saya untuk mereka yang tertarik di bagian bawah posting saya agar tidak berantakan.

Sejauh ini yang bisa saya himpun adalah sebagai berikut lmer:

lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), 
     data=my.data)

Apakah ini menggambarkan model statistik saya secara akurat? Adakah saran untuk meningkatkan kode saya jika tidak dibaca dengan benar?

Saya sudah berani istilah tertentu yang saya mengalami kesulitan menentukan dalam rumus lmer saya

# 1. tow bersarang di dalam stasiun ketika tow acak dan stasiun diperbaiki
aku bingung, namun tentang membedakan antara istilah bersarang dan interaksi yang menggunakan :dan acak /. Dalam contoh saya di atas, saya memiliki (1|station:tow)di mana saya berharap membaca untuk bersarang di dalam stasiun. Saya telah membaca komentar yang bertentangan di berbagai situs apakah saya harus menggunakan :atau tidak di /sini dalam (1|...)format acak lmer.

# 2. Interaksi antara stasiun dan hari ketika stasiun diperbaiki dan hari adalah acak
saya kemudian miliki, (1|station:day)tetapi kali ini saya berharap membaca interaksi antara stasiun dan hari. Sepertinya saya bisa menggunakan stasiun * hari untuk menjelaskan efek individual dari stasiun dan hari serta interaksi mereka (daripada memasukkan masing-masing dari tiga istilah secara terpisah seperti yang saya lakukan di atas), tetapi saya tidak melihat cara menentukan ini ketika satu diperbaiki dan yang lainnya acak. Akan station*(1|day)melakukan itu?

# 3. Interaksi antara derek dan hari (keduanya acak) ketika derek bersarang di stasiun (tetap) Lalu yang terakhir, saya memiliki (1|tow:day)yang saya harap membaca interaksi towdan day, tapi saya bertanya-tanya apakah saya perlu menentukan lagi bahwa derek itu bersarang (tersirat) di stasiun?

Saya baru untuk kedua Rdan lmerdan pemodelan statistik dan sangat menghargai kesulitan penjelasan menyeluruh dalam setiap tanggapan terhadap pertanyaan saya jika memungkinkan.

Rincian lebih lanjut tentang data saya: Saya bertanya apakah konsentrasi plankton bervariasi di seluruh permukaan fisik di laut dekat pantai. Saya memiliki tiga stasiun, di darat, di dalam, dan di lepas pantai dari front ini. Stasiun dengan demikian diperbaiki. Di setiap stasiun, saya mengambil tiga derek plankton tiruan (dari mana saya mengurutkan, menghitung, dan mendapatkan konsentrasi dalam hal # bug per meter kubik air). Tow acak: di tiga derek saya berharap dapat menjelaskan variabilitas umum dalam plankton di stasiun tertentu. Tow secara intrinsik bersarang di stasiun karena setiap derek tidak memiliki ID unik (123.123.123 adalah ID untuk derek di setiap stasiun). Saya kemudian melakukan ini pada beberapa hari independen dengan front baru yang telah terbentuk. Saya pikir saya bisa menganggap Day sebagai faktor penghambat? Hari acak karena mengulangi ini pada beberapa hari depan yang independen berusaha untuk menangkap variabilitas dari hari ke hari dan mewakili semua hari di mana front ini hadir. Saya ingin tahu tentang istilah interaksi untuk melihat apakah Tows berubah dalam variabilitas dari hari ke hari dan jika stasiun selalu menghasilkan data yang sama atau apakah itu tergantung pada hari?

Sekali lagi, terima kasih atas waktu dan bantuan Anda, saya menghargainya!

tiga
sumber
Saya yakin Anda kehilangan beberapa subskrip (saya tidak ingin menambahkannya jika saya salah) pada model statistik standar Anda.
1
FWIW, bagi siapa saja yang menemukan utas ini & bertanya-tanya tentang apakah ini sesuai topik, mengingat fokusnya pada Rsintaksis, IMO, itu cukup statistik (wrt memahami bagaimana model yang ditentukan terkait dengan bersarang & interaksi, dll) untuk menjadi on-topik untuk CV.
gung - Reinstate Monica
1
Ini 100% tentang topik menurut saya.
2
Menurut lmer()sintaks Anda, Anda telah menentukan model di mana ada efek tetap stationdan empat intersep acak, dibagi oleh individu dengan (1) kombinasi yang sama stationdan tow, (2) nilai Day, (3) kombinasi dari stationdan daydan ( 4) kombinasi dari towdan day, masing-masing. Apakah ini yang Anda maksudkan? Saya tidak yakin karena, seperti ditunjukkan oleh @BabekP, bagaimana Anda menulis formulasi model Anda tidak jelas. Anda telah menulis nama variabel, bukan parameter. Biasanya, dalam model seperti ini, kombinasi variabel ditangkap oleh subskrip.
Makro

Jawaban:

23

Tow bersarang di dalam stasiun saat derek acak dan stasiun diperbaiki

station+(1|station:tow)benar. Seperti @John katakan dalam jawabannya, (1|station/tow)akan meluas ke (1|station)+(1|station:tow)(efek utama stasiun ditambah interaksi antara derek dan stasiun), yang tidak Anda inginkan karena Anda telah menetapkan stasiun sebagai efek tetap.

Interaksi antara stasiun dan hari ketika stasiun diperbaiki dan hari adalah acak.

Interaksi antara efek tetap dan acak selalu acak. Sekali lagi seperti kata @John, station*dayperluas station+day+station:day, yang Anda (lagi) tidak inginkan karena Anda sudah menentukan daydalam model Anda. Saya tidak berpikir ada cara untuk melakukan apa yang Anda inginkan dan menciutkan efek silang dari day(acak) dan station(tetap), tetapi Anda bisa jika Anda ingin menulis station+(1|day/station), yang sebagaimana ditentukan dalam jawaban sebelumnya akan diperluas ke station + (1|day) + (1|day:station).

interaksi antara derek dan hari ketika derek bersarang di stasiun

Karena Anda tidak memiliki nilai-nilai yang unik dari towvariabel (yaitu karena seperti yang Anda katakan di bawah ini TOWS ditetapkan sebagai 1, 2, 3di setiap stasiun, Anda lakukan perlu menentukan bersarang, seperti (1|station:tow:day). Jika Anda tidak memiliki TOWS ditentukan unik, Anda bisa menggunakan salah (1|tow:day)atau (1|station:tow:day)(mereka harus memberikan jawaban yang setara). Jika Anda tidak menentukan sarang dalam hal ini, lme4akan mencoba memperkirakan efek acak yang dibagikan oleh tow # 1 di semua stasiun ...

Salah satu cara untuk mendiagnosis apakah Anda telah menentukan efek acak dengan benar adalah dengan melihat jumlah pengamatan yang dilaporkan untuk masing-masing variabel pengelompokan dan melihat apakah itu sesuai dengan apa yang Anda harapkan (misalnya, station:tow:daykelompok harus memiliki sejumlah pengamatan yang sesuai dengan jumlah total stasiun menarik kombinasi hari: jika Anda lupa bersarang dengan stasiun, Anda akan melihat bahwa Anda mendapatkan lebih sedikit pengamatan daripada yang seharusnya.×××

Apakah http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#model-specification dan http://bbolker.github.io/mixedmodels-misc/glmmFAQ.html#nested-or-crossed berguna untuk Anda?

Ben Bolker
sumber
terima kasih banyak atas balasan dan referensi yang bermanfaat, mereka sangat dihargai. Saya bingung tentang notasi (1 | a: b) seperti yang Anda gambarkan di atas, di mana tampak bahwa ':' dapat berarti "bersarang" serta interaksi. Bagaimana cara menentukan keduanya? Dengan kata lain, bagaimana Lmer mengetahui hubungan mana yang Anda tunjukkan? Saya harus kehilangan sesuatu yang mendasar di sini, saya minta maaf.
wtree
4
Tidak ada banyak perbedaan, dalam konteks ini, antara interaksi dan bersarang. Apakah Bbersarang Aatau hanya berinteraksi dengannya tergantung pada apakah efek utama dari Atermasuk dalam model atau tidak. Jika efek utama Badalah juga dalam model maka itu menyeberang ...
Ben Bolker
Hai semua, saya mengajukan pertanyaan terkait di sini: stats.stackexchange.com/questions/272377/… jika ada orang (terutama @BenBolker) memiliki kesempatan untuk melihat dan memberikan jawaban.
Joshua Rosenberg
11

Beberapa hal dalam formula agak membingungkan. Ini :untuk interaksi antara dua istilah sedangkan *untuk efek utama dan interaksi. Yang /lain untuk interaksi tetapi apa yang dilakukannya adalah menghasilkan interaksi antara pembilang dan semua istilah dalam penyebut (misalnya A/(B+C) = A:B + A:C). Ini |untuk sesuatu seperti "dikelompokkan berdasarkan". Jadi, 1|stationakan disadap dikelompokkan berdasarkan stasiun dan dalam tanda kurung itu acak (1|station). Begitulah cara Anda akan bersarang.

Semoga itu bisa membantu. Agak aneh memiliki efek acak yang bersarang di dalam efek tetap dan saya tidak yakin bagaimana Anda akan mewakili itu. Aku bahkan tidak bisa membayangkan situasinya. Anda mungkin mendapatkan respons yang lebih baik jika Anda menjelaskan apa variabel Anda dan apa yang ingin Anda capai. Banyak kali orang mengajukan pertanyaan dan menggunakan terminologi yang salah dan sulit untuk berkomunikasi. Jelaskan apa yang diwakili variabel dan apa yang ingin Anda ketahui tentang variabel.

Berfokus pada deskripsi Anda di paragraf terakhir, kedengarannya seperti derek Anda hanya merupakan indikator dari sampel yang Anda kumpulkan dan bukan sesuatu yang Anda butuhkan perkiraan dalam arti bahwa Anda berharap derek 1 secara konsisten berbeda dari derek 2 dalam beberapa cara. Tow hanya menunjukkan sampel. Kecuali Anda benar-benar percaya urutan tows penting, Anda bahkan tidak peduli dengan variabel itu. Dan jika mereka penting maka itu adalah efek tetap (dan mungkin acak, tetapi bukan hanya efek acak). Anda mengatakan bahwa Anda ingin tahu apakah ada perubahan variabilitas dari hari ke hari. Bagaimana dengan jawabannya ya? Bukan dalam bidang probabilitas realistis bahwa mereka tidak berbeda dari hari ke hari. Itu hanya varian dari ukuran Anda. Kamu' Anda tidak diperbolehkan untuk mencoba menjelaskan setiap spesifikasi varians karena Anda akhirnya tidak memiliki varians yang tersisa untuk kesalahan. Anda akan memiliki model yang terlalu ditentukan. Anda akan berada di titik hanya melaporkan setiap tindakan.

Anda membuat pernyataan serupa tentang bertanya-tanya apakah stasiun bervariasi menurut hari; tentu saja. Tapi mungkin maksud Anda hari-hari tertentu? Apakah hari-hari dikelompokkan berdasarkan musim, siklus bulan, dll? Kecuali jika Anda memiliki sesuatu selain ini hanya hari 1, ini adalah hari 2, dll. Bagaimana mengetahui bahwa stasiun bervariasi setiap hari memberi tahu Anda hal lain selain stasiun berbeda? Jadi jawaban untuk pertanyaan itu adalah, tentu saja stasiun bervariasi setiap hari. Dan tentu saja tows bervariasi setiap hari dan stasiun ke stasiun. Anda berakhir di kiri dengan model sederhana:

aov(y ~ station, data = dat)

Satu efek tetap yang Anda miliki di sini, stasiun, hanya disampel di beberapa deret dan beberapa hari. Saya tidak yakin Anda benar-benar membutuhkan pemodelan multi-level di sini. Sepertinya Anda terlalu menentukan model Anda.

Jika Anda benar-benar menginginkan efek hari dan derek acak dan ada informasi yang belum Anda tentukan di sini maka Anda dapat memperluasnya ke model multi-level. Itu akan menjadi:

lmer(y ~ station + (two*day|station), data = dat)

Anda perlu beberapa derek di setiap stasiun dan hari untuk menggunakan model itu.

John
sumber
Saya setuju dengan semua yang Anda katakan tetapi saya pikir ini mungkin lebih merupakan komentar daripada jawaban.
Makro
@ John aku bersamamu sampai "itulah yang akan kamu lakukan bersarang". Saya pikir saya melewatkan poin sebenarnya tentang bagaimana Anda bersarang. Apakah Anda bersedia menjelaskan lebih detail? Saya pikir saya masih bingung dengan | dan akan melihat lebih dalam. Tetapi dari tanggapan Anda, saya masih tidak yakin bagaimana, misalnya, menunjukkan bahwa derek (acak) bersarang di dalam stasiun (tetap)?
wtree
@ John Oh dan stasiun ditetapkan sebagai situs / lokasi yang menarik di lautan dan derek adalah acak karena saya mengambil derek plankton di situs-situs ini yang acak karena mereka mencoba untuk memperhitungkan variabilitas plankton di setiap situs dan kemudian diekstrapolasi untuk mewakili populasi plankton di stasiun.
wtree
1
Tidak setiap label sampel adalah variabel acak, lihat hasil edit.
John
1
Saya masih berpikir derek tidak harus dalam model sama sekali diberikan deskripsi itu. Hari kedengarannya bagus.
John