Saya menggunakan model campuran di R
( lme4
) untuk menganalisis beberapa data pengukuran berulang. Saya memiliki variabel respons (kandungan serat tinja) dan 3 efek tetap (massa tubuh, dll.). Studi saya hanya memiliki 6 peserta, dengan 16 tindakan berulang untuk masing-masing (meskipun dua hanya memiliki 12 pengulangan). Subjek penelitian adalah kadal yang diberi kombinasi makanan yang berbeda dalam 'perlakuan' yang berbeda.
Pertanyaan saya adalah: dapatkah saya menggunakan ID subjek sebagai efek acak?
Saya tahu ini adalah tindakan yang biasa dilakukan dalam model efek campuran longitudinal, untuk memperhitungkan sifat sampel yang diambil secara acak dari subjek dan fakta bahwa pengamatan dalam subyek akan lebih berkorelasi lebih erat dibandingkan dengan antara subyek. Tetapi, memperlakukan ID subjek sebagai efek acak melibatkan memperkirakan rata-rata dan varians untuk variabel ini.
Karena saya hanya memiliki 6 subjek (6 level dari faktor ini), apakah ini cukup untuk mendapatkan karakterisasi yang akurat tentang rerata dan varians?
Apakah fakta bahwa saya memiliki beberapa pengukuran berulang untuk setiap mata pelajaran membantu dalam hal ini (saya tidak melihat bagaimana itu penting)?
Akhirnya, Jika saya tidak dapat menggunakan ID subjek sebagai efek acak, akankah memasukkannya sebagai efek tetap memungkinkan saya mengontrol fakta bahwa saya telah mengulangi tindakan?
Sunting: Saya hanya ingin menjelaskan bahwa ketika saya mengatakan "bisakah saya" menggunakan ID subjek sebagai efek acak, maksud saya "apakah itu ide yang baik untuk". Saya tahu saya dapat menyesuaikan model dengan faktor dengan hanya 2 level, tetapi tentunya ini tidak dapat dipertahankan? Saya bertanya pada titik apa masuk akal untuk berpikir tentang memperlakukan subjek sebagai efek acak? Sepertinya literatur menyarankan bahwa level 5-6 adalah batas bawah. Tampak bagi saya bahwa perkiraan rata-rata dan varians dari efek acak tidak akan sangat tepat sampai ada 15+ tingkat faktor.
sumber
Angrist dan Pischke's "Mostly Harmless Econometrics" memiliki bagian berjudul, "Lebih sedikit dari 42 cluster", di mana mereka setengah bercanda mengatakan,
Oleh karena itu, mengikuti ... diktum bahwa jawaban untuk kehidupan, alam semesta dan semuanya adalah 42, kami percaya pertanyaannya adalah: Berapa banyak cluster yang cukup untuk kesimpulan yang andal menggunakan penyesuaian klaster standar [serupa dengan estimator varians di GEE]?
Cara yang digunakan instruktur ekonometrik saya untuk menjawab pertanyaan seperti Anda adalah, "Amerika adalah negara bebas, Anda dapat melakukan apa pun yang Anda suka. Tetapi jika Anda ingin makalah Anda diterbitkan, Anda harus dapat mempertahankan apa yang telah Anda lakukan. " Dengan kata lain, Anda kemungkinan akan dapat menjalankan kode R atau Stata atau HLM atau Mplus atau SAS PROC GLIMMIX dengan 6 subjek (dan beralih ke paket alternatif ini jika salah satu pilihan Anda tidak menjalankan ini), tetapi Anda kemungkinan akan memiliki waktu yang sangat sulit mempertahankan pendekatan ini dan membenarkan tes asimptotik.
Saya percaya bahwa secara default, termasuk variabel sebagai kemiringan acak menyiratkan termasuk sebagai efek tetap, juga, dan Anda perlu melompati banyak simpai sintaks jika Anda hanya ingin memiliki ini sebagai efek acak dengan rata-rata nol. Itu pilihan yang masuk akal yang telah dibuat pengembang perangkat lunak untuk Anda.
sumber
Anda juga dapat menggunakan model campuran Bayesian - dalam hal ini ketidakpastian dalam estimasi efek acak sepenuhnya diurus dalam perhitungan interval kredibilitas prediksi 95%. Paket
brms
dan fungsi R yang barubrm
, misalnya, memungkinkan transisi yang sangat mudah darilme4
model campuran frequentist ke model Bayesian, karena memiliki hampir sintaksis yang identik.sumber
Saya tidak akan menggunakan model efek acak dengan hanya 6 level. Model yang menggunakan efek acak 6 tingkat kadang-kadang dapat dijalankan menggunakan banyak program statistik dan terkadang memberikan perkiraan yang tidak bias, tetapi:
Masalah ini dibahas di sebagian besar buku teks standar di lapangan dan Anda telah mengatasinya dalam pertanyaan Anda. Saya tidak berpikir saya memberi Anda informasi baru.
sumber
lme4
model campuran dan saya sering menjalankannya pada ukuran sampel yang sama seperti OP (Saya juga bekerja dengan dataset biologi).Sudah lama sejak pertanyaan awal tapi saya pikir saya mungkin menambahkan beberapa poin yang berkaitan dengan pemilihan model.
1 - Selama model teridentifikasi (yaitu Anda memiliki derajat kebebasan dalam ruang parameter), Anda harus dapat MENCOBA agar sesuai dengan model. Bergantung pada model metode pengoptimalan mungkin atau tidak mungkin konvergen. Bagaimanapun saya tidak akan mencoba memasukkan lebih dari 1 atau 2 efek acak dan jelas tidak lebih dari 1 interaksi lintas level. Dalam kasus khusus masalah yang disajikan di sini jika kami mencurigai adanya interaksi antara karakteristik spesifik kadal (misalnya usia, ukuran, dll.) Dan karakteristik perlakuan / pengukuran, ukuran grup 6 mungkin tidak cukup untuk membuat perkiraan yang cukup akurat.
2 - Seperti disebutkan beberapa jawaban, konvergensi mungkin menjadi masalah. Namun pengalaman saya adalah bahwa sementara data ilmu sosial memiliki masalah konvergensi besar karena masalah pengukuran, ilmu kehidupan dan terutama tindakan berulang biokimia memiliki kesalahan standar yang jauh lebih kecil. Itu semua tergantung pada proses menghasilkan data. Dalam data sosial dan ekonomi kita harus bekerja di berbagai tingkatan abstraksi. Dalam kesalahan pengukuran data biologis dan kimia dan yang paling pasti adalah kurang dari masalah.
sumber