Pemodelan efek campuran linier dengan data studi kembar

14

Misalkan saya memiliki beberapa beberapa variabel respon yang diukur dari th saudara di keluarga th. Selain itu, beberapa data perilaku dikumpulkan secara bersamaan dari masing-masing subjek. Saya mencoba menganalisis situasi dengan model efek campuran linier berikut:yijjixij

yij=α0+α1xij+δ1ixij+εij

di mana dan masing-masing adalah intersep tetap dan kemiringan, adalah kemiringan acak, dan adalah residual.α0α1δ1iεij

Asumsi untuk efek acak dan residual adalah (dengan asumsi hanya ada dua saudara kandung dalam setiap keluarga)δ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

di mana adalah parameter varians yang tidak diketahui dan struktur varians-kovarians adalah matriks simetris 2 x 2 bentuk Rτ2R

(r12r122r122r22)

yang memodelkan korelasi antara kedua saudara kandung.

  1. Apakah ini model yang tepat untuk pembelajaran saudara seperti itu?

  2. Data sedikit rumit. Di antara 50 keluarga, hampir 90% dari mereka adalah kembar dizigotik (DZ). Untuk keluarga lainnya,

    1. dua hanya memiliki satu saudara;
    2. dua memiliki satu pasangan DZ plus satu saudara; dan
    3. dua memiliki satu pasangan DZ ditambah dua saudara kandung tambahan.


    Saya percaya lmepaket R nlmedapat dengan mudah menangani (1) dengan situasi yang hilang atau tidak seimbang. Masalah saya adalah, bagaimana cara menghadapi (2) dan (3)? Satu kemungkinan yang bisa saya pikirkan adalah memecah masing-masing dari empat keluarga dalam (2) dan (3) menjadi dua sehingga setiap subfamili memiliki satu atau dua saudara kandung sehingga model di atas masih bisa diterapkan. Apakah ini baik-baik saja? Pilihan lain adalah membuang data dari satu atau dua saudara kandung di (2) dan (3), yang tampaknya merupakan pemborosan. Adakah pendekatan yang lebih baik?

  3. Tampaknya lmememungkinkan seseorang untuk memperbaiki nilai dalam residual variance-covariance matrix , misalnya = 0,5. Apakah masuk akal untuk memaksakan struktur korelasinya, atau haruskah saya memperkirakannya berdasarkan data saja?R r 2 12rRr122

bluepole
sumber
1
Apa yang ? xj
Makro
@ Macro: Terima kasih telah melihatnya. Baru saja memodifikasi OP untuk menunjukkan bahwa adalah variabel penjelas, ukuran perilaku dari masing-masing saudara kandung. xij
bluepole
1
Pertanyaan dan aplikasi yang sangat menarik. Saya bisa saja melewatkan sesuatu tetapi menurut saya model ini over-parameter. Kesalahan berkorelasi dapat secara efektif diperhitungkan menjadi komponen "tidak dibagi" dan komponen "dibagi", yang terakhir memiliki fungsi yang sama dengan . Anda harus menghapus , membuat kesalahan id , atau memaksakan batasan seperti untuk pengidentifikasian - apakah Anda melakukannya dengan sengaja untuk memisahkan komponen lingkungan / genetik untuk korelasi saudara kandung? δ 0 i δ 0 i ϵ r 2 12 =.5ϵi1,ϵi2δ0iδ0iϵr122=.5
Makro
@ Macro: Anda benar: tidak diperlukan dalam model. Terima kasih telah menunjukkan ini! Anehnya tidak mengeluh tentang redundansi tersebut. δ0ilme
bluepole
Apakah Anda masih bekerja dengan model overparameter ini (bagian dari pertanyaan Anda belum diedit)?
Makro

Jawaban:

10

Anda bisa memasukkan kembar dan non-kembar dalam model terpadu dengan menggunakan variabel dummy dan termasuk lereng acak dalam variabel dummy itu. Karena semua keluarga memiliki paling banyak satu pasangan kembar, ini akan relatif sederhana:

Mari jika saudara dalam keluarga adalah kembar, dan 0 sebaliknya. Saya berasumsi Anda juga ingin kemiringan acak berbeda untuk saudara kembar vs saudara kandung biasa - jika tidak, jangan sertakan istilah dalam model di bawah ini.j i η i 3Aij=1jiηi3

Kemudian muat modelnya:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • α0,α1 adalah efek tetap, seperti dalam spesifikasi Anda

  • ηi0 adalah efek acak saudara 'dasar' dan adalah efek acak tambahan yang memungkinkan anak kembar lebih mirip daripada saudara biasa. Ukuran dari varian efek acak yang sesuai mengkuantifikasi seberapa mirip saudara kandung dan seberapa banyak kembar serupa dibandingkan saudara kandung biasa. Perhatikan bahwa korelasi kembar dan non-kembar dicirikan oleh model ini - korelasi kembar dihitung dengan menjumlahkan efek acak secara tepat (tancapkan ).ηi1Aij=1

  • ηi2 dan memiliki peran analog, hanya saja mereka bertindak sebagai kemiringan acakηi3xij

  • εij adalah istilah kesalahan iid - perhatikan bahwa saya telah menulis model Anda sedikit berbeda dalam hal intersep acak daripada kesalahan residual yang berkorelasi.

Anda dapat menyesuaikan model menggunakan Rpaket lme4. Dalam kode di bawah ini variabel dependennya adalah y, variabel dummy adalah A, prediktornya adalah x, produk dari variabel dummy dan prediktornya adalah Axdan famIDmerupakan nomor pengidentifikasi untuk keluarga. Data Anda diasumsikan disimpan dalam bingkai data D, dengan variabel-variabel ini sebagai kolom.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Variabel efek acak dan perkiraan efek tetap dapat dilihat dengan mengetik summary(g). Perhatikan bahwa model ini memungkinkan efek acak untuk berkorelasi bebas satu sama lain.

Dalam banyak kasus, mungkin lebih masuk akal (atau lebih mudah diinterpretasikan) untuk mengasumsikan independensi antara efek acak (misalnya asumsi ini sering dibuat untuk menguraikan korelasi genetik vs keluarga), dalam hal ini Anda lebih suka mengetik

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 
Makro
sumber
Ini benar-benar solusi yang bagus, dan saya menyukainya! Akan mencobanya segera, dan lihat saja ... Terima kasih banyak!
bluepole
Sama-sama. Jika Anda merasa solusi ini bermanfaat, silakan pertimbangkan menerima jawabannya :)
Makro
Dua masalah: 1) Karena sebagian besar subjek kembar kembar, pendekatan Anda tampaknya tidak memodelkan korelasi antara pasangan kembar DZ. 2) Hanya 4 keluarga yang memiliki saudara kandung ekstra. Saya khawatir akan sulit untuk memperkirakan efek acak untuk saudara kandung berdasarkan hanya 4 keluarga. Karena perbedaan antara pasangan kembar DZ dan saudara kandung yang lain relatif kecil (terutama lingkungan, bukan genetik), mungkin saya bisa mengabaikan perbedaan halus saudara kembar dan saudara kandung, dan memperlakukan beberapa saudara kembarnya sebagai kembar dengan efek acak seperti dalam model Anda. atau dengan residu berkorelasi seperti dalam OP saya.
bluepole
Pendekatan ini tidak memodelkan korelasi antara kembar. Misalnya, jika nilai prediktornya adalah 0, maka korelasi antara kembar adalah mana adalah varian dari , masing-masing dan adalah varian dari istilah kesalahan. Ketika nilai prediktor bukan 0, ungkapan ini juga akan melibatkan varian dari dua efek acak lainnya.
σ02+σ12σ02+σ12+σε2
σ02,σ12ηi0,ηi1σε2
Makro
Anda benar bahwa, karena ada beberapa non-kembar, varian dan akan sulit untuk diperkirakan. Anda dapat mengabaikannya, tetapi Anda tidak kehilangan apa pun dengan menggunakan model yang saya sarankan tetapi kemungkinan singkatnya komputasi. Jika Anda melakukannya, Anda secara efektif mengasumsikan bahwa saudara kandung yang bukan kembar adalah mandiri. Tapi Anda masih bisa menggunakan pengamatan itu untuk memperkirakan parameter rata-rata (yaitu jangan biarkan mereka keluar dari pemasangan model). Atau, seperti yang Anda katakan, Anda bisa bersikap seolah saudara biasa sama dengan kembar, dan Anda tidak perlu membuat kode sandi sama sekali. ηi0ηi2
Makro