Apakah diizinkan memasukkan waktu sebagai prediktor dalam model campuran?

10

Saya selalu percaya bahwa waktu tidak boleh digunakan sebagai prediktor dalam regresi (termasuk gam) karena, maka, orang hanya akan "menggambarkan" tren itu sendiri. Jika tujuan dari sebuah penelitian adalah untuk menemukan parameter lingkungan seperti suhu dll yang menjelaskan perbedaan dalam, katakanlah, aktivitas hewan, maka saya bertanya-tanya, bagaimana waktu dapat digunakan? sebagai proxy untuk parameter yang tidak diukur?

Beberapa tren waktu tentang data aktivitas lumba-lumba pelabuhan dapat dilihat di sini: -> Bagaimana menangani kesenjangan dalam rangkaian waktu ketika melakukan GAMM?

masalah saya adalah: ketika saya memasukkan waktu dalam model saya (diukur pada hari-hari julian), maka 90% dari semua parameter lainnya menjadi tidak signifikan (pengurangan-ts lebih halus dari mgcv mengeluarkannya). Jika saya tidak punya waktu, maka beberapa di antaranya signifikan ...

Pertanyaannya adalah: apakah waktu diperbolehkan sebagai prediktor (mungkin bahkan diperlukan?) Atau apakah itu mengacaukan analisis saya?

banyak terima kasih sebelumnya

Jens
sumber

Jawaban:

12

Waktu diizinkan; apakah itu diperlukan akan tergantung pada apa yang Anda coba model? Masalah yang Anda miliki adalah bahwa Anda memiliki kovariat yang bersama-sama tampak sesuai dengan tren dalam data, yang dapat dilakukan Time dengan baik tetapi menggunakan lebih sedikit derajat kebebasan - karenanya mereka dikeluarkan bukan sebagai Waktu.

Jika minatnya adalah memodelkan sistem, hubungan antara respons dan kovariat dari waktu ke waktu, alih-alih memodelkan bagaimana respons bervariasi dari waktu ke waktu, maka jangan masukkan Waktu sebagai kovariat. Jika tujuannya adalah untuk memodelkan perubahan pada tingkat rata-rata respons, sertakan Waktu tetapi jangan sertakan kovariat. Dari apa yang Anda katakan, akan tampak bahwa Anda menginginkan yang pertama, bukan yang terakhir, dan tidak boleh menyertakan Waktu dalam model Anda. (Tetapi pertimbangkan info tambahan di bawah ini.)

Ada beberapa peringatan. Agar teori dapat dipertahankan, residual harus iid (atau id jika Anda mengendurkan asumsi independensi menggunakan struktur korelasi). Jika Anda memodelkan respons sebagai fungsi kovariat dan mereka tidak memodelkan tren apa pun dalam data, maka residu akan memiliki tren, yang melanggar asumsi teori, kecuali jika struktur korelasi yang dipasang dapat mengatasi tren ini.

Sebaliknya, jika Anda memodelkan tren dalam respons saja (hanya termasuk Waktu), mungkin ada variasi sistematis dalam residu (tentang tren pas) yang tidak dijelaskan oleh tren (Waktu), dan ini mungkin juga melanggar asumsi untuk residu. Dalam kasus seperti itu, Anda mungkin perlu memasukkan kovariat lain untuk membuat sisa iid

Mengapa ini menjadi masalah? Nah, ketika Anda menguji apakah komponen tren, misalnya, signifikan, atau apakah efek kovariat signifikan, teori yang digunakan akan menganggap residual adalah iid. Jika tidak iid maka asumsi tidak akan terpenuhi dan nilai-p akan menjadi bias.

Inti dari semua ini adalah bahwa Anda perlu memodelkan semua berbagai komponen data sedemikian rupa sehingga residu sesuai dengan teori yang Anda gunakan, untuk menguji apakah komponen yang dipasang signifikan, valid.

Sebagai contoh, pertimbangkan data musiman dan kami ingin mencocokkan model yang menggambarkan variasi jangka panjang dalam data, tren. Jika kita hanya memodelkan tren dan bukan variasi siklik musiman, kita tidak dapat menguji apakah tren yang sesuai signifikan karena residu tidak akan iid. Untuk data seperti itu, kita perlu menyesuaikan model dengan komponen musiman dan tren. komponen, dan model nol yang hanya berisi komponen musiman. Kami kemudian akan membandingkan kedua model menggunakan uji rasio kemungkinan umum untuk menilai signifikansi tren yang sesuai. Hal ini dilakukan dengan menggunakan anova()pada $lmekomponen dari dua model dipasang menggunakan gamm().

Gavin Simpson
sumber
Gavin yang terhormat, terima kasih banyak atas komentar Anda yang sangat membantu. Saya harap saya dapat membantu Anda juga segera;) ketika saya mencoba GLRT dengan anova itu memberitahu saya "objek 'diperbaiki" tidak ditemukan' :(
Jens
1
@Jen panggilan itu seharusnya anova(mod1$lme, mod2$lme). Jika Anda mencocokkan model non-Gaussian maka ini mungkin tidak berfungsi karena tidak ada kemungkinan log-benar dalam metode PQL, pertahankan kuasi-kemungkinan dalam nama PQL. Ini adalah salah satu alasan untuk menggunakan gamm4 , tetapi kemudian Anda perlu melakukan sesuatu tentang struktur korelasi karena lme4 tidak mengizinkannya.
Gavin Simpson