Model Efek Campuran Linier adalah Perpanjangan model Regresi Linier untuk data yang dikumpulkan dan dirangkum dalam kelompok. Keuntungan utama adalah koefisien dapat bervariasi sehubungan dengan satu atau lebih variabel grup.
Namun, saya kesulitan dengan kapan harus menggunakan model efek campuran? Saya akan menguraikan pertanyaan saya dengan menggunakan contoh mainan dengan kasus ekstrim.
Mari kita asumsikan kita ingin memodelkan tinggi dan berat untuk hewan dan kita menggunakan spesies sebagai variabel pengelompokan.
Jika kelompok / spesies yang berbeda benar-benar berbeda. Katakan seekor anjing dan gajah. Saya pikir tidak ada gunanya menggunakan model efek campuran, kita harus membangun model untuk setiap kelompok.
Jika kelompok / spesies yang berbeda benar-benar mirip. Katakanlah seekor anjing betina dan seekor anjing jantan. Saya pikir kita mungkin ingin menggunakan gender sebagai variabel kategori dalam model.
Jadi, saya berasumsi kita harus menggunakan model efek campuran dalam kasus tengah? Katakanlah, kelompoknya adalah kucing, anjing, kelinci, mereka adalah hewan berukuran serupa tetapi berbeda.
Apakah ada argumen formal untuk menyarankan kapan harus menggunakan model efek campuran, yaitu, cara menggambar garis di antara
- Membangun model untuk setiap kelompok
- Model efek campuran
- Gunakan grup sebagai variabel kategori dalam regresi
Upaya saya: Metode 1 adalah "model paling rumit" / tingkat kebebasan yang lebih rendah dan metode 3 adalah "model paling sederhana" / tingkat kebebasan yang lebih banyak. Dan model efek campuran di tengah. Kami dapat mempertimbangkan berapa banyak data dan seberapa rumit data yang kami miliki untuk memilih model yang tepat menurut Bais Variance Trade Off.
sumber
activity ~ condition + species + condition*species
- ini digunakanspecies
sebagai variabel kategori, tetapi ini sepenuhnya setara dengan regresi terpisahactivity ~ condition
untuk setiap spesies secara terpisah.Jawaban:
Saya khawatir saya mungkin memiliki jawaban yang bernuansa dan mungkin tidak memuaskan bahwa itu adalah pilihan subjektif oleh peneliti atau analis data. Seperti disebutkan di tempat lain di utas ini, tidak cukup hanya mengatakan bahwa data memiliki "struktur bersarang." Agar adil, bagaimanapun, ini adalah berapa banyak buku yang menggambarkan kapan harus menggunakan model bertingkat. Sebagai contoh, saya baru saja menarik buku Joop Hox Multilevel Analysis dari rak buku saya, yang memberikan definisi ini:
Bahkan dalam buku teks yang cukup bagus, definisi awal tampaknya melingkar. Saya pikir ini sebagian karena subjektivitas menentukan kapan harus menggunakan model seperti apa (termasuk model bertingkat).
Buku lain, West, Welch, & Galecki, Mixed Model Linear mengatakan model ini untuk:
Model Multilevel dari Finch, Bolin, & Kelley di R juga berbicara tentang melanggar asumsi awal dan residu yang berkorelasi:
Saya percaya bahwa model bertingkat masuk akal ketika ada alasan untuk percaya bahwa pengamatan tidak harus independen satu sama lain. Apa pun "gugus" akun untuk non-kemerdekaan ini dapat dimodelkan.
Contoh nyata adalah anak-anak di ruang kelas - mereka semua berinteraksi satu sama lain, yang mungkin menyebabkan nilai tes mereka menjadi tidak independen. Bagaimana jika satu kelas memiliki seseorang yang mengajukan pertanyaan yang mengarah ke materi yang tercakup dalam kelas yang tidak tercakup dalam kelas lain? Bagaimana jika guru lebih terjaga untuk beberapa kelas daripada yang lain? Dalam hal ini, akan ada beberapa data yang tidak independen; dalam kata-kata bertingkat, kita bisa mengharapkan beberapa varians dalam variabel dependen disebabkan oleh cluster (yaitu, kelas).
Contoh Anda tentang seekor anjing versus seekor gajah tergantung pada variabel minat yang independen dan tergantung, saya kira. Sebagai contoh, katakanlah kita bertanya apakah ada efek kafein pada tingkat aktivitas. Hewan dari seluruh kebun binatang secara acak ditugaskan untuk mendapatkan minuman berkafein atau minuman kontrol.
Jika kita seorang peneliti yang tertarik pada kafein, kita dapat menentukan model bertingkat, karena kita benar-benar peduli tentang efek kafein. Model ini akan ditentukan sebagai:
Ini sangat membantu jika ada sejumlah besar spesies yang sedang kami uji hipotesis ini. Namun, seorang peneliti mungkin tertarik pada efek spesifik spesies dari kafein. Dalam hal ini, mereka dapat menentukan spesies sebagai efek tetap:
Ini jelas merupakan masalah jika, katakanlah, 30 spesies, menciptakan desain 2 x 30 yang berat. Namun, Anda bisa menjadi sangat kreatif dengan bagaimana seseorang memodelkan hubungan ini.
Sebagai contoh, beberapa peneliti berpendapat untuk penggunaan pemodelan multilevel yang lebih luas. Gelman, Hill, & Yajima (2012) berpendapat bahwa pemodelan multilevel dapat digunakan sebagai koreksi untuk beberapa perbandingan — bahkan dalam penelitian eksperimental di mana struktur data tidak jelas bersifat hierarkis:
Masalah dapat dimodelkan dengan berbagai cara, dan dalam kasus yang ambigu, beberapa pendekatan mungkin tampak menarik. Saya pikir tugas kita adalah memilih pendekatan yang masuk akal dan berdasarkan informasi dan melakukannya secara transparan.
sumber
Anda tentu saja dapat membangun model untuk setiap kelompok yang berbeda, tidak ada yang salah dengan itu. Namun, Anda memerlukan ukuran sampel yang lebih besar dan perlu mengelola beberapa model.
Dengan menggunakan model campuran, Anda mengumpulkan (dan berbagi) data bersama dan karenanya membutuhkan ukuran sampel yang lebih kecil.
Dengan demikian, kami berbagi kekuatan statistik. Idenya di sini adalah bahwa sesuatu yang dapat kita simpulkan dengan baik dalam satu kelompok data dapat membantu kita dengan sesuatu yang tidak dapat kita simpulkan dengan baik pada kelompok lainnya.
Model campuran juga mencegah kelompok sampel berlebih dari inferensi dominan yang tidak adil.
Maksud saya adalah jika Anda ingin memodelkan struktur hierarki latern yang mendasarinya, Anda harus menambahkan efek acak ke model Anda. Kalau tidak, jika Anda tidak peduli dengan intrepretasi model Anda, Anda tidak menggunakannya.
memberikan diskusi yang relevan. Penulis membahas mengapa ia tidak ingin menjalankan model regresi yang terpisah.
sumber
Dalam model efek campuran, Anda menambahkan istilah acak (kesalahan) ke model Anda, sehingga Anda "mencampur" efek tetap dan acak. Jadi, pendekatan lain untuk mempertimbangkan kapan harus menggunakan model efek campuran, mungkin dengan melihat apa "efek acak" itu. Jadi, selain jawaban yang diberikan sebelumnya, saya juga menemukan perbedaan antara istilah "tetap" dan "acak" efek dari Bates (2010) instruktif, bagian 1.1 (khususnya halaman 2).
Definisi ini sering berlaku untuk beberapa struktur hierarki seperti negara, atau ruang kelas, karena Anda selalu memiliki sampel "acak" dari negara atau ruang kelas - data belum dikumpulkan dari semua negara atau ruang kelas yang memungkinkan.
Seks, bagaimanapun, adalah tetap (atau setidaknya diperlakukan sebagai diperbaiki). Jika Anda memiliki pria atau wanita, tidak ada lagi level jenis kelamin yang tersisa (mungkin ada beberapa pengecualian gender, tetapi ini sebagian besar diabaikan).
Atau katakan tingkat pendidikan: Jika Anda bertanya apakah orang-orang berpendidikan lebih rendah, menengah atau lebih tinggi, tidak ada tingkat yang tersisa, jadi Anda belum mengambil sampel "acak" dari semua tingkat pendidikan yang mungkin (karenanya, ini adalah efek tetap).
sumber
Anda menggunakan model campuran ketika beberapa asumsi yang masuk akal dapat dibuat, berdasarkan desain penelitian, tentang sifat korelasi antara pengamatan dan kesimpulan yang diinginkan pada tingkat individu atau efek kondisional . Model campuran memungkinkan untuk spesifikasi efek acak, yang merupakan representasi nyaman dari struktur korelasi yang muncul secara alami dalam pengumpulan data.
Jenis model campuran yang paling umum adalah model penyadapan acak yang memperkirakan distribusi laten dari konstanta umum yang memiliki 0, mean varian terbatas, distribusi normal dalam kelompok individu yang diidentifikasi dalam dataset. Pendekatan ini menyumbang ratusan faktor pembaur yang umum terjadi pada kelompok pengamatan, atau kelompok, tetapi bervariasi di antara kelompok.
Tipe umum kedua dari model campuran adalah model lereng acak yang, mirip dengan model intersep acak, memperkirakan distribusi laten interaksi waktu-prediktor yang lagi-lagi berasal dari 0, mean varian terbatas, distribusi normal dalam studi panel, atau cluster pengamatan diukur secara prospektif atau dengan cara longitudinal.
Hasil ini kira-kira mirip dengan hasil yang diperoleh dari menggunakan kuadrat terkecil yang digeneralisasi dan algoritma EM untuk secara iteratif memperkirakan parameter model dan kovarians antara pengamatan dependen ini (atau lebih tepatnya, residu mereka). Kuadrat terkecil berbobot lebih efisien daripada kuadrat terkecil ketika kovarians antar pengamatan diketahui. Meskipun kovarians jarang diketahui, ia dapat diasumsikan mengambil struktur tertentu dan diperkirakan secara iteratif. Model intersep acak memberikan inferensi dan kemungkinan yang serupa dengan kuadrat terkecil berbobot yang memiliki struktur korelasi yang dapat ditukar di mana jikaY 1 , Y 2 c o r ( Y t , Y s ) = ρ | t - s | Y t , Y s t , scor(Y1,Y2)=ρ Y1,Y2 berada di cluster yang sama, dan 0 sebaliknya. Model lereng acak memberikan inferensi dan kemungkinan yang serupa dengan kuadrat terkecil tertimbang yang memiliki struktur korelasi autoregresif 1 di mana jika adalah pengamatan pada sampel yang sama pada waktu yang berbeda dan 0 sebaliknya. Hasilnya tidak identik, karena pengamatan intersepsi acak memaksa dalam kelompok untuk dikaitkan secara positif yang hampir selalu merupakan asumsi yang masuk akal.cor(Yt,Ys)=ρ|t−s| Yt,Ys t,s
Tingkat individu atau efek kondisional dapat dikontraskan dengan tingkat populasi atau efek marginal. Efek marjinal mewakili efek dalam populasi dari intervensi atau penyaringan. Sebagai contoh, intervensi untuk meningkatkan kepatuhan dalam rehabilitasi penyalahgunaan zat dapat melihat kehadiran selama 3 bulan di panel pasien yang dirawat untuk berbagai kondisi. Durasi penggunaan dapat bervariasi antara pasien dan sangat memprediksi kepatuhan dengan lokakarya dengan peserta yang lebih lama menggunakan memiliki kecenderungan kecanduan dan penghindaran yang lebih besar. Analisis tingkat individu dapat mengungkapkan bahwa penelitian ini efektif meskipun fakta bahwa peserta dengan kecanduan yang lebih lama tidak hadir sebelum menerima intervensi dan terus tidak hadir setelah menerima intervensi.
Efek marjinal memiliki inferensi yang kurang tepat karena mengabaikan homogenitas antar klaster dalam waktu atau ruang. Mereka dapat diperkirakan dengan persamaan estimasi umum atau dengan memarginalkan model campuran.
sumber
Efek campuran harus digunakan ketika data memiliki struktur bersarang atau hierarkis. Ini sebenarnya melanggar asumsi independensi pengukuran, karena semua pengukuran dalam kelompok / level yang sama berkorelasi. Dalam hal
jenis kelamin akan menjadi variabel faktor dan efek tetap, sedangkan variabilitas ukuran anjing dalam jenis kelamin adalah efek acak. Model saya akan menjadi
Secara intuitif, kelinci, anjing dan peti harus dimodelkan secara terpisah karena ukuran anjing dan kucing tidak berkorelasi, namun ukuran dua anjing adalah sejenis variabilitas "dalam spesies".
sumber