Dalam model efek campuran, rekomendasinya adalah menggunakan efek tetap untuk memperkirakan parameter jika semua level yang memungkinkan dimasukkan (misalnya, pria dan wanita). Lebih lanjut direkomendasikan untuk menggunakan efek acak untuk menjelaskan variabel jika level yang dimasukkan hanya sampel acak dari populasi (pasien yang terdaftar dari semesta kemungkinan pasien) dan Anda ingin memperkirakan rata-rata populasi dan varians alih-alih cara dari tingkat faktor individu.
Saya ingin tahu apakah Anda secara logis berkewajiban untuk selalu menggunakan efek tetap dengan cara ini. Pertimbangkan sebuah studi tentang bagaimana ukuran kaki / sepatu berubah melalui perkembangan dan terkait dengan, katakanlah, tinggi, berat dan usia. jelas harus dimasukkan dalam model entah bagaimana memperhitungkan fakta bahwa pengukuran selama bertahun-tahun bersarang dalam kaki yang diberikan dan tidak independen. Terlebih lagi, kanan dan kiri adalah semua kemungkinan yang bisa ada. Selain itu, bisa sangat benar bahwa untuk peserta tertentu kaki kanan mereka lebih besar (atau lebih kecil) daripada kaki kiri mereka. Namun, meskipun ukuran kaki agak berbeda antara kaki untuk semua orang, tidak ada alasan untuk percaya bahwa kaki kanan rata-rata akan lebih besar daripada kaki kiri. Jika mereka ada dalam sampel Anda, ini mungkin karena sesuatu tentang genetika orang-orang dalam sampel Anda, dan bukan sesuatu yang intrinsik pada kaki kanan. Akhirnya, tampaknya seperti parameter gangguan, bukan sesuatu yang Anda benar-benar peduli.
Biarkan saya perhatikan bahwa saya membuat contoh ini. Mungkin tidak ada gunanya; itu hanya untuk menyampaikan ide. Yang saya tahu, memiliki kaki kanan besar dan kaki kiri kecil diperlukan untuk bertahan hidup di paleolitik.
Dalam kasus seperti ini, akan masuk (lebih / kurang / salah) akal untuk menggabungkan dalam model sebagai efek acak? Apa yang akan menjadi pro dan kontra dari menggunakan efek tetap vs acak di sini?
sumber
Jawaban:
Masalah umum dengan efek "tetap" dan "acak" adalah bahwa mereka tidak didefinisikan secara konsisten. Andrew Gelman mengutip beberapa di antaranya:
dan pemberitahuan bahwa mereka tidak konsisten. Dalam bukunya Analisis Data Menggunakan Regresi dan Model Multilevel / Hierarchical ia umumnya menghindari menggunakan istilah-istilah tersebut dan dalam pekerjaan mereka ia berfokus pada tetap atau bervariasi antara kelompok penyadapan dan lereng karena
Hal ini terutama berlaku dengan kerangka kerja Bayesian - umumnya digunakan untuk model campuran - di mana semua efeknya acak per se. Jika Anda berpikir Bayesian, Anda tidak benar-benar peduli dengan efek "tetap" dan perkiraan titik dan tidak memiliki masalah dengan memperlakukan semua efek secara acak.
Semakin banyak saya membaca tentang topik ini, semakin saya yakin bahwa ini lebih merupakan diskusi ideologis tentang apa yang dapat kita (atau seharusnya) perkirakan dan apa yang hanya dapat kita prediksi (di sini saya dapat merujuk juga pada jawaban Anda sendiri ). Anda menggunakan efek acak jika Anda memiliki sampel acak dari hasil yang mungkin, sehingga Anda tidak khawatir tentang perkiraan individu dan Anda lebih peduli tentang efek populasi, kemudian individu. Jadi jawaban pertanyaan Anda tergantung juga pada apa yang Anda pikirkan jika Anda inginkan atau dapat memperkirakan efek tetap yang diberikan data Anda. Jika semua level yang mungkin termasuk dalam data Anda, Anda bisamemperkirakan efek tetap - juga, seperti dalam contoh Anda, jumlah level bisa kecil dan yang umumnya tidak baik untuk memperkirakan efek acak dan ada beberapa persyaratan minimal untuk ini .
Argumen skenario kasus terbaik
Katakanlah Anda memiliki jumlah data yang tidak terbatas dan kekuatan komputasi yang tidak terbatas. Dalam hal ini Anda dapat membayangkan memperkirakan setiap efek sebagai tetap, karena efek tetap memberi Anda lebih banyak fleksibilitas (memungkinkan kami untuk membandingkan efek individual). Namun, bahkan dalam kasus ini, kebanyakan dari kita akan enggan menggunakan efek tetap untuk semuanya.
Misalnya, bayangkan Anda ingin memodelkan hasil ujian sekolah di beberapa wilayah dan Anda memiliki data pada semua 100 sekolah di wilayah tersebut. Dalam hal ini Anda dapat mengancam sekolah sebagai hal yang tetap - karena Anda memiliki data di semua level - tetapi dalam praktiknya Anda mungkin lebih suka menganggapnya sebagai acak. Mengapa demikian?
Salah satu alasannya adalah bahwa pada umumnya dalam kasus-kasus seperti ini Anda tidak tertarik pada efek dari masing-masing sekolah (dan sulit untuk membandingkan semuanya), tetapi lebih merupakan variabilitas umum antar sekolah.
Argumen lain di sini adalah model kekikiran. Secara umum Anda tidak tertarik pada model "setiap pengaruh yang mungkin", jadi dalam model Anda, Anda menyertakan beberapa efek tetap yang ingin Anda uji dan kontrol untuk sumber variabilitas lain yang mungkin. Ini membuat model efek campuran cocok dengan cara berpikir umum tentang pemodelan statistik di mana Anda memperkirakan sesuatu dan mengendalikan hal-hal lain. Dengan data yang rumit (bertingkat atau hierarkis) Anda memiliki banyak efek untuk dimasukkan, sehingga Anda mengancam beberapa sebagai "tetap" dan beberapa sebagai "acak" sehingga untuk mengontrolnya.
Dalam skenario ini, Anda juga tidak akan menganggap sekolah sebagai sekolah yang masing-masing memiliki pengaruh sendiri, unik, dan hasil, tetapi sebagai sekolah yang memiliki pengaruh secara umum. Jadi argumen ini adalah bahwa kami percaya bahwa tidak benar-benar mungkin untuk memperkirakan efek unik dari masing-masing sekolah dan karenanya kami mengancam mereka sebagai sampel acak dari kemungkinan dampak sekolah.
Model efek campuran berada di antara skenario "semuanya sudah diperbaiki" dan "semuanya acak". Data yang kami temui membuat kami menurunkan ekspektasi kami tentang memperkirakan semuanya sebagai efek tetap, jadi kami memutuskan efek apa yang ingin kami bandingkan dan efek apa yang ingin kami kontrol, atau memiliki perasaan umum tentang pengaruhnya. Ini bukan hanya tentang apa data itu, tetapi juga bagaimana kita memikirkan data saat memodelkannya.
sumber
Ringkasan bisnis plan
Memang sering dikatakan bahwa jika semua tingkat faktor yang memungkinkan dimasukkan dalam model campuran, maka faktor ini harus diperlakukan sebagai efek tetap. Ini belum tentu benar UNTUK DUA ALASAN YANG BERBEDA:
(1) Jika jumlah tingkat besar, maka dapat masuk akal untuk mengobati [menyeberang] faktor acak.
Saya setuju dengan @Tim dan @RobertLong di sini: jika suatu faktor memiliki sejumlah besar level yang semuanya termasuk dalam model (seperti misalnya semua negara di dunia; atau semua sekolah di suatu negara; atau mungkin seluruh populasi subyek disurvei, dll.), maka tidak ada yang salah dengan memperlakukannya secara acak --- ini bisa lebih pelit, bisa memberikan penyusutan, dll.
(2) Jika faktor tersebut bersarang dalam efek acak lain, maka harus diperlakukan secara acak, terlepas dari jumlah levelnya.
Ada kebingungan besar di utas ini (lihat komentar) karena jawaban lain adalah tentang kasus # 1 di atas, tetapi contoh yang Anda berikan adalah contoh dari perbedaan situasi yang , yaitu kasus ini # 2. Di sini hanya ada dua tingkat (yaitu sama sekali tidak "jumlah besar"!) Dan mereka menghabiskan semua kemungkinan, tetapi mereka bersarang di dalam efek acak lain , menghasilkan efek acak bersarang.
Diskusi terperinci tentang contoh Anda
Sisi dan subjek dalam eksperimen imajiner Anda terkait seperti kelas dan sekolah dalam contoh model hierarkis standar. Mungkin setiap sekolah (# 1, # 2, # 3, dll.) Memiliki kelas A dan kelas B, dan kedua kelas ini kira-kira sama. Anda tidak akan memodelkan kelas A dan B sebagai efek tetap dengan dua level; Ini akan menjadi sebuah kesalahan. Tetapi Anda tidak akan memodelkan kelas A dan B sebagai efek acak "terpisah" (mis. Bersilangan) dengan dua level; ini juga akan menjadi kesalahan. Sebagai gantinya, Anda akan memodelkan kelas sebagai efek acak bersarang di dalam sekolah.
Lihat disini: Crossed vs nested random effects: bagaimana perbedaannya dan bagaimana mereka ditentukan dengan benar di lme4?
Seperti yang Anda tulis sendiri, "tidak ada alasan untuk percaya bahwa kaki kanan rata-rata akan lebih besar dari kaki kiri". Jadi seharusnya tidak ada efek "global" (baik yang tetap maupun yang acak) dari kaki kanan atau kiri sama sekali; sebaliknya, setiap subjek dapat dianggap memiliki kaki "satu" dan kaki "lain", dan variabilitas ini harus kita masukkan ke dalam model. Kaki "satu" dan "yang lain" ini bersarang di dalam subjek, karenanya memiliki efek acak bersarang.
Lebih detail dalam menanggapi komentar. [26 Sep]
Model saya di atas termasuk Sisi sebagai efek acak bersarang dalam Subjek. Berikut adalah model alternatif, disarankan oleh @Robert, di mana Side adalah efek tetap:
I challenge @RobertLong or @gung to explain how this model can take care of the dependencies existing for consecutive measurements of the same Side of the same Subject, i.e. of the dependencies for data points with the sameij combination.
It cannot.
The same is true for @gung's hypothetical model with Side as a crossed random effect:
It fails to account for dependencies as well.
Demonstration via a simulation [Oct 2]
Here is a direct demonstration in R.
I generate a toy dataset with five subjects measured on both feet for five consecutive years. The effect of age is linear. Each subject has a random intercept. And each subject has one of the feet (either the left or the right) larger than another one.
Apologies for my awful R skills. Here is how the data look like (each consecutive five dots is one feet of one person measured over the years; each consecutive ten dots are two feet of the same person):
Now we can fit a bunch of models:
All models include a fixed effect of
age
and a random effect ofsubject
, but treatside
differently.Model 1: fixed effect oft=1.8 ), residual variance is huge (29.81).
side
. This is @Robert's model. Result:age
comes out not significant (Model 2: crossed random effect oft=1.4 ), residual variance is huge (29.81).
side
. This is @gung's "hypothetical" model from OP. Result:age
comes out not significant (Model 3: nested random effect oft=37 , yes, thirty-seven), residual variance is tiny (0.07).
side
. This is my model. Result:age
is very significant (This clearly shows that
side
should be treated as a nested random effect.Finally, in the comments @Robert suggested to include the global effect of
side
as a control variable. We can do it, while keeping the nested random effect:These two models do not differe much from #3. Model 4 yields a tiny and insignificant fixed effect oft=0.5 ). Model 5 yields an estimate of
side
(side
variance equal to exactly zero.sumber
side
meets any of the usual definitions/guidelines of when a factor should be treated as random vs fixed. In particular, making inferences beyond the sampled levels of the factor is meaningless. Moreover, with only 2 levels of the factor, treating it as fixed seems an unambigious and straightforward way to approach the modelling.side
as a fixed effect means assuming that one of the sides (e.g. Right) is always bigger than the other (Left), by a certain amount. This amount is the same for all people. This is explicitly not what the OP had in mind. He wrote that in some people Right might be larger and in some other people Left. However, we need to account for theside
because of correlated errors. Why can't we treat as a nested random effect then? It's exactly like classes within schools.To add to the other answers:
I don't think you are logically obliged to always use a fixed effect in the manner described in the OP. Even when the usual definitions/guidelines for when to treat a factor as random are not met, I might be inclined to still model it as random when there are a large number of levels, so that treating the factor as fixed would consume many degrees of freedom and result in a cumbersome and less parsimonious model.
sumber
side
either as fixed or as a crossed random effect necessarily means assuming that one of the sides (e.g. Right) is always bigger than the other (Left), for all subjects. This is explicitly not what gung wrote in his OP, stating that "there is no reason to believe that right feet will on average be larger than left feet". I still see gung's example as a clear case for nested random effect, in full analogy with classes within schools.If you're talking about the situation where you know all possible levels of a factor of interest, and also have data to estimate the effects, then definitely you don't need to represent levels with random effects.
The reason that you want to set random effect to a factor is because you wish to make inference on the effects of all levels of that factor, which are typically unknown. To make that kind of inference, you impose the assumption that the effects of all levels form a normal distribution in general. But given your problem setting, you can estimates the effects of all levels. Then there is certainly no need to set random effects and impose additional assumption.
It's like the situation that you are able to get all the values of the population (thus you know the true mean), but you are trying to take a large sample from the population and use central limit theorem to approximate the sampling distribution, and then make inference on the true mean.
sumber