Dalam istilah sederhana, bagaimana Anda menjelaskan (mungkin dengan contoh sederhana) perbedaan antara model efek tetap, efek acak dan campuran?
269
Dalam istilah sederhana, bagaimana Anda menjelaskan (mungkin dengan contoh sederhana) perbedaan antara model efek tetap, efek acak dan campuran?
Jawaban:
Ahli statistik Andrew Gelman mengatakan bahwa istilah 'efek tetap' dan 'efek acak' memiliki makna variabel tergantung pada siapa yang menggunakannya. Mungkin Anda dapat memilih salah satu dari 5 definisi yang berlaku untuk kasus Anda. Secara umum mungkin lebih baik mencari persamaan yang menggambarkan model probabilitas yang penulis gunakan (saat membaca) atau menuliskan model probabilitas penuh yang ingin Anda gunakan (saat menulis).
sumber
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Ada buku bagus tentang ini seperti Gelman dan Hill . Berikut ini adalah ringkasan dari perspektif mereka.
Pertama-tama, Anda jangan terlalu terjebak dalam terminologi. Dalam statistik, jargon tidak boleh digunakan sebagai pengganti pemahaman matematis dari model itu sendiri. Itu terutama berlaku untuk model efek acak dan campuran. "Campur" hanya berarti model memiliki efek tetap dan acak, jadi mari kita fokus pada perbedaan antara tetap dan acak.
Efek Acak versus Tetap
Katakanlah Anda memiliki model dengan prediktor kategoris, yang membagi pengamatan Anda menjadi beberapa kelompok sesuai dengan nilai-nilai kategori. * Koefisien model, atau "efek", yang terkait dengan prediktor itu dapat tetap atau acak. Perbedaan praktis yang paling penting antara keduanya adalah ini:
Efek acak diperkirakan dengan pooling parsial, sedangkan efek tetap tidak.
Pengumpulan sebagian berarti bahwa, jika Anda memiliki beberapa titik data dalam suatu kelompok, perkiraan efek grup akan didasarkan sebagian pada data yang lebih berlimpah dari kelompok lain. Ini bisa menjadi kompromi yang bagus antara memperkirakan efek dengan menyatukan semua grup, yang menutupi variasi level grup, dan memperkirakan efek untuk semua grup secara terpisah, yang dapat memberikan estimasi buruk untuk grup sampel rendah.
Efek acak hanyalah perpanjangan dari teknik pengumpulan parsial sebagai model statistik tujuan umum. Hal ini memungkinkan aplikasi ide untuk berbagai situasi, termasuk beberapa prediktor, variabel kontinyu dan variabel campuran, dan struktur korelasi yang kompleks. (Tetapi dengan kekuatan besar muncul tanggung jawab besar: kompleksitas pemodelan dan inferensi secara substansial meningkat, dan dapat memunculkan bias halus yang membutuhkan kecanggihan yang harus dihindari.)
Untuk memotivasi model efek acak, tanyakan pada diri Anda: mengapa Anda mengumpulkan sebagian? Mungkin karena Anda pikir subkelompok kecil adalah bagian dari kelompok yang lebih besar dengan efek rata-rata yang sama. Subkelompok berarti dapat menyimpang sedikit dari mean kelompok besar, tetapi tidak dengan jumlah yang sewenang-wenang. Untuk memformalkan ide itu, kami berpendapat bahwa penyimpangan mengikuti distribusi, biasanya Gaussian. Di situlah "acak" dalam efek acak masuk: kami mengasumsikan penyimpangan dari subkelompok dari orangtua mengikuti distribusi variabel acak. Setelah Anda memiliki ide ini dalam pikiran, persamaan model efek campuran mengikuti secara alami.
Sayangnya, pengguna model efek campuran sering memiliki prasangka salah tentang apa efek acak dan bagaimana mereka berbeda dari efek tetap. Orang-orang mendengar "acak" dan berpikir itu berarti sesuatu yang sangat istimewa tentang sistem yang dimodelkan, seperti efek tetap harus digunakan ketika ada sesuatu yang "diperbaiki" sedangkan efek acak harus digunakan ketika sesuatu "sampel acak". Tetapi tidak ada yang terlalu acak tentang asumsi bahwa koefisien model berasal dari distribusi; itu hanya kendala lembut, mirip dengan penalti diterapkan pada koefisien model dalam regresi ridge. Ada banyak situasi di mana Anda mungkin atau mungkin tidak ingin menggunakan efek acak, dan mereka tidak harus banyak terkait dengan perbedaan antara "tetap" dan "acak"ℓ2
Sayangnya, kebingungan konsep yang disebabkan oleh istilah-istilah ini telah menyebabkan banyak definisi yang saling bertentangan . Dari lima definisi pada tautan ini, hanya # 4 yang sepenuhnya benar dalam kasus umum, tetapi juga sepenuhnya tidak informatif. Anda harus membaca seluruh makalah dan buku (atau gagal, posting ini) untuk memahami apa arti definisi itu dalam kerja praktek.
Contoh
Mari kita lihat kasus di mana pemodelan efek acak mungkin berguna. Misalkan Anda ingin memperkirakan pendapatan rumah tangga AS rata-rata dengan kode ZIP. Anda memiliki set data besar yang berisi pengamatan pendapatan rumah tangga dan kode ZIP. Beberapa kode ZIP terwakili dengan baik dalam dataset, tetapi yang lain hanya memiliki beberapa rumah tangga.
Untuk model awal Anda, Anda kemungkinan besar akan mengambil pendapatan rata-rata di setiap ZIP. Ini akan bekerja dengan baik ketika Anda memiliki banyak data untuk ZIP, tetapi perkiraan untuk ZIP yang sampelnya kurang akan menderita varian yang tinggi. Anda dapat mengurangi ini dengan menggunakan estimator penyusutan (alias pooling parsial), yang akan mendorong nilai ekstrim terhadap pendapatan rata-rata di semua kode ZIP.
Tetapi berapa banyak penyusutan / penyatuan yang harus Anda lakukan untuk ZIP tertentu? Secara intuitif, itu harus tergantung pada yang berikut:
Jika Anda memodelkan kode ZIP sebagai efek acak, estimasi pendapatan rata-rata dalam semua kode ZIP akan mengalami penyusutan yang secara statistik kuat, dengan mempertimbangkan semua faktor di atas.
Bagian terbaiknya adalah bahwa model efek acak dan campuran secara otomatis menangani (4), estimasi variabilitas, untuk semua efek acak dalam model. Ini lebih sulit daripada yang terlihat pada pandangan pertama: Anda bisa mencoba varians mean sampel untuk setiap ZIP, tetapi ini akan menjadi bias tinggi, karena beberapa varians antara perkiraan untuk ZIP yang berbeda hanyalah varians sampel. Dalam model efek acak, proses inferensi menyumbang varians sampling dan menyusut estimasi varians sesuai.
Setelah memperhitungkan (1) - (4), model efek acak / campuran mampu menentukan penyusutan yang sesuai untuk kelompok sampel rendah. Itu juga dapat menangani model yang jauh lebih rumit dengan banyak prediktor yang berbeda.
Hubungan dengan Hierarchical Bayesian Modelling
Jika ini kedengarannya seperti pemodelan Bayesian hierarkis bagi Anda, Anda benar - itu adalah kerabat dekat tetapi tidak identik. Model efek campuran bersifat hierarkis karena menempatkan distribusi untuk parameter laten dan tidak teramati, tetapi mereka biasanya tidak sepenuhnya Bayesian karena hiperparameter tingkat atas tidak akan diberikan prioritas yang tepat. Sebagai contoh, dalam contoh di atas kita kemungkinan besar akan memperlakukan pendapatan rata-rata dalam ZIP yang diberikan sebagai sampel dari distribusi normal, dengan rata-rata dan sigma yang tidak diketahui diperkirakan dengan proses pemasangan efek campuran. Namun, model efek campuran (non-Bayesian) biasanya tidak memiliki prior pada mean dan sigma yang tidak diketahui, sehingga tidak sepenuhnya Bayesian. Yang mengatakan, dengan set data berukuran layak, model efek campuran standar dan varian Bayesian penuh akan sering memberikan hasil yang sangat mirip.
* Sementara banyak perawatan dari topik ini fokus pada definisi sempit "kelompok", konsep ini sebenarnya sangat fleksibel: itu hanya seperangkat pengamatan yang memiliki kesamaan properti. Suatu kelompok dapat terdiri dari beberapa pengamatan dari satu orang, atau beberapa orang di sekolah, atau beberapa sekolah di suatu kabupaten, atau beberapa varietas dari satu jenis buah, atau beberapa jenis sayuran dari panen yang sama, atau beberapa panen dari jenis sayuran yang sama, dll. Setiap variabel kategori dapat digunakan sebagai variabel pengelompokan.
sumber
Saya telah menulis tentang ini dalam bab buku tentang model campuran (bab 13 dalam Fox, Negrete-Yankelevich, dan Sosa 2014 ); halaman yang relevan (hlm. 311-315) tersedia di Google Buku . Saya pikir pertanyaannya berkurang menjadi "apa definisi dari efek tetap dan acak?" ("model campuran" hanyalah model yang mengandung keduanya). Diskusi saya mengatakan sedikit tentang definisi formal mereka (yang saya akan tanyakan pada makalah Gelman yang ditautkan oleh jawaban @ JohnSalvatier di atas) dan lebih lanjut tentang sifat praktis dan kegunaannya. Berikut beberapa kutipannya:
sumber
Memperbaiki efek: Sesuatu yang langsung dimanipulasi oleh eksperimen dan sering diulang, misalnya, pemberian obat - satu kelompok mendapat obat, satu kelompok mendapat plasebo.
Efek acak: Sumber variasi acak / unit eksperimental misalnya, individu yang diambil (secara acak) dari suatu populasi untuk uji klinis. Efek acak memperkirakan variabilitas
Efek campuran: Mencakup keduanya, efek tetap dalam kasus-kasus ini memperkirakan koefisien tingkat populasi, sedangkan efek acak dapat menjelaskan perbedaan individu dalam menanggapi efek, misalnya, setiap orang menerima obat dan plasebo pada kesempatan yang berbeda, Efek memperkirakan efek obat, istilah efek acak akan memungkinkan setiap orang untuk merespons obat secara berbeda.
Kategori umum dari efek campuran - tindakan berulang, longitudinal, hierarkis, plot terpisah.
sumber
Saya datang ke pertanyaan ini dari sini , kemungkinan duplikat.
Sudah ada beberapa jawaban yang luar biasa, tetapi seperti yang dinyatakan dalam jawaban yang diterima, ada banyak kegunaan yang berbeda (tetapi terkait) dari istilah tersebut, jadi mungkin berharga untuk memberikan perspektif seperti yang digunakan dalam ekonometrik, yang tampaknya belum sepenuhnya dibahas di sini. .
m
Berikut ini adalah kode yang menghasilkan data dan yang menghasilkan estimasi RE positif dan estimasi FE negatif "benar". (Yang mengatakan, perkiraan RE juga akan sering negatif untuk benih lain, lihat di atas.)
Hasil:
sumber
Perbedaannya hanya bermakna dalam konteks statistik non-Bayesian. Dalam statistik Bayesian, semua parameter model "acak".
sumber
Dalam ekonometrik, istilah tersebut biasanya diterapkan dalam model linier umum, di mana model tersebut berbentuk
Efek acak: Ketikaαi⊥uit ,
Dalam model linier , keberadaan efek acak tidak menghasilkan inkonsistensi penaksir OLS. Namun, menggunakan estimator efek acak (seperti kuadrat terkecil yang layak) akan menghasilkan estimator yang lebih efisien .
Dalam model non-linear , seperti probit, tobit, ..., keberadaan efek acak akan, secara umum, menghasilkan estimator yang tidak konsisten. Menggunakan estimator efek acak kemudian akan mengembalikan konsistensi.
Untuk model linier dan non-linier, efek tetap menghasilkan bias. Namun, dalam model linier ada transformasi yang dapat digunakan (seperti perbedaan pertama atau merendahkan), di mana OLS pada data yang diubah akan menghasilkan estimasi yang konsisten. Untuk model non-linear, ada beberapa pengecualian di mana transformasi ada, efek tetap logit menjadi salah satu contoh.
Contoh: Kemungkinan efek acak. Seharusnya
dan hasil yang diamati adalah
The Pooled kemungkinan estimator maksimum meminimalkan sampel rata-rata
Tentu saja, di sini log dan produk disederhanakan, tetapi untuk alasan pedagogis, ini membuat persamaan lebih sebanding dengan pengukur efek acak, yang memiliki bentuk
sumber
Bukan definisi formal, tapi saya suka slide berikut: Model campuran dan mengapa sosiolinguis harus menggunakannya ( mirror ), dari Daniel Ezra Johnson. Rekap singkat 'ditawarkan pada slide 4. Meskipun sebagian besar berfokus pada studi psikolinguistik, ini sangat berguna sebagai langkah pertama.
sumber
Perspektif lain yang sangat praktis pada model efek acak dan tetap berasal dari ekonometrik ketika melakukan regresi linier pada data panel . Jika Anda memperkirakan hubungan antara variabel penjelas dan variabel hasil dalam dataset dengan banyak sampel per individu / grup, ini adalah kerangka kerja yang ingin Anda gunakan.
Contoh data panel yang baik adalah pengukuran tahunan dari sekumpulan individu:
Jika kami mencoba memahami hubungan antara olahraga dan perubahan berat badan, kami akan menyiapkan regresi berikut:
Jadi, pertanyaan kuncinya adalah menentukan model mana yang sesuai. Jawabannya adalah Tes Hausman . Untuk menggunakannya, kami melakukan regresi efek tetap dan acak, dan kemudian menerapkan Tes Hausman untuk melihat apakah estimasi koefisien mereka berbeda secara signifikan. Jika mereka berbeda, endogenitas berperan dan model efek tetap adalah pilihan terbaik. Kalau tidak, kita akan pergi dengan efek acak.
sumber