269

Dalam istilah sederhana, bagaimana Anda menjelaskan (mungkin dengan contoh sederhana) perbedaan antara model efek tetap, efek acak dan campuran?

mixed-model random-effects-model definition fixed-effects-model Andrew
sumber

4

Saya juga menemukan bahwa kadang-kadang sulit untuk menentukan kapan suatu efek harus dianggap sebagai efek tetap atau acak. Meskipun ada beberapa rekomendasi tentang fakta ini, tidak selalu mudah untuk mengambil keputusan yang tepat.

Manuel Ramón

3

Saya pikir bahwa tautan ini dapat membantu dalam menjelaskan prinsip-prinsip yang mendasari model campuran: Model Tetap, Acak, dan Campuran (dokumentasi SAS) .

pietrop

6

Jawaban yang sangat membantu juga dapat ditemukan di sini: Apa perbedaan antara efek acak-, efek campuran- & model marginal?

gung

146

Ahli statistik Andrew Gelman mengatakan bahwa istilah 'efek tetap' dan 'efek acak' memiliki makna variabel tergantung pada siapa yang menggunakannya. Mungkin Anda dapat memilih salah satu dari 5 definisi yang berlaku untuk kasus Anda. Secara umum mungkin lebih baik mencari persamaan yang menggambarkan model probabilitas yang penulis gunakan (saat membaca) atau menuliskan model probabilitas penuh yang ingin Anda gunakan (saat menulis).

Di sini kita menguraikan lima definisi yang telah kita lihat:

Efek tetap konstan di antara individu, dan efek acak bervariasi. Misalnya, dalam studi pertumbuhan, model dengan intersepsi acak dan kemiringan tetap sesuai dengan garis paralel untuk individu yang berbeda , atau model . Kreft dan De Leeuw (1998) dengan demikian membedakan antara koefisien tetap dan acak. $a_i$ $b$ $i$ $y_{it} = a_i + b t$

Efeknya tetap jika mereka menarik dalam dirinya sendiri atau acak jika ada minat pada populasi yang mendasarinya. Searle, Casella, dan McCulloch (1992, Bagian 1.4) mengeksplorasi perbedaan ini secara mendalam.

“Ketika sampel menguras populasi, variabel terkait diperbaiki; ketika sampel adalah bagian kecil (yaitu, dapat diabaikan) dari populasi variabel yang sesuai adalah acak. "(Green dan Tukey, 1960)

"Jika suatu efek diasumsikan sebagai nilai realisasi dari variabel acak, itu disebut efek acak." (LaMotte, 1983)

Efek tetap diperkirakan menggunakan kuadrat terkecil (atau, lebih umum, kemungkinan maksimum) dan efek acak diperkirakan dengan penyusutan ("prediksi linear tidak memihak" dalam terminologi Robinson, 1991). Definisi ini adalah standar dalam literatur pemodelan bertingkat (lihat, misalnya, Snijders dan Bosker, 1999, Bagian 4.2) dan dalam ekonometrika.

[ Gelman, 2004, Analisis varian — mengapa itu lebih penting dari sebelumnya. The Annals of Statistics. ]

John Salvatier
sumber

4

+1: tautan sangat bagus! Saya kira definisinya juga bervariasi tergantung pada bidangnya (mis. # 4 sangat matematis / statistik, tetapi # 1 dan # 2 lebih "dapat dimengerti" dari sudut pandang ilmu kehidupan)

nico

12

Juga informatif untuk membaca Diskusi dan Jawaban untuk makalah ini. Dalam diskusi tersebut, Peter McCullagh menulis bahwa dia tidak setuju dengan sebagian besar dari apa yang ditulis Gelman. Maksud saya bukan untuk mendukung satu atau yang lain, tetapi untuk mencatat bahwa ada ketidaksepakatan substansial di antara para ahli dan tidak terlalu banyak memberi bobot pada satu kertas.

julieth

6

Seluruh diskusi di link di

julieth

36

Sangat lucu bahwa Andrew Gelman digambarkan sebagai "blogger" daripada sebagai salah satu ahli statistik terkemuka di dunia saat ini. Meskipun dia, tentu saja, seorang blogger, dia mungkin harus disebut "Ahli Statistik Andrew Gelman" jika ada kualifikasi yang digunakan.

Brash Equilibrium

4

Tetapi sebagai ahli statistik dan bukan hanya blogger yang baik, ia seharusnya menempatkan setidaknya frekuensi relatif subjektif dari penggunaan lima kasus. Ketika orang berbicara tentang efek tetap vs efek acak, mereka sebagian besar berarti:

(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)

Ufos

253

Ada buku bagus tentang ini seperti Gelman dan Hill . Berikut ini adalah ringkasan dari perspektif mereka.

Pertama-tama, Anda jangan terlalu terjebak dalam terminologi. Dalam statistik, jargon tidak boleh digunakan sebagai pengganti pemahaman matematis dari model itu sendiri. Itu terutama berlaku untuk model efek acak dan campuran. "Campur" hanya berarti model memiliki efek tetap dan acak, jadi mari kita fokus pada perbedaan antara tetap dan acak.

Efek Acak versus Tetap

Katakanlah Anda memiliki model dengan prediktor kategoris, yang membagi pengamatan Anda menjadi beberapa kelompok sesuai dengan nilai-nilai kategori. * Koefisien model, atau "efek", yang terkait dengan prediktor itu dapat tetap atau acak. Perbedaan praktis yang paling penting antara keduanya adalah ini:

Efek acak diperkirakan dengan pooling parsial, sedangkan efek tetap tidak.

Pengumpulan sebagian berarti bahwa, jika Anda memiliki beberapa titik data dalam suatu kelompok, perkiraan efek grup akan didasarkan sebagian pada data yang lebih berlimpah dari kelompok lain. Ini bisa menjadi kompromi yang bagus antara memperkirakan efek dengan menyatukan semua grup, yang menutupi variasi level grup, dan memperkirakan efek untuk semua grup secara terpisah, yang dapat memberikan estimasi buruk untuk grup sampel rendah.

Efek acak hanyalah perpanjangan dari teknik pengumpulan parsial sebagai model statistik tujuan umum. Hal ini memungkinkan aplikasi ide untuk berbagai situasi, termasuk beberapa prediktor, variabel kontinyu dan variabel campuran, dan struktur korelasi yang kompleks. (Tetapi dengan kekuatan besar muncul tanggung jawab besar: kompleksitas pemodelan dan inferensi secara substansial meningkat, dan dapat memunculkan bias halus yang membutuhkan kecanggihan yang harus dihindari.)

Untuk memotivasi model efek acak, tanyakan pada diri Anda: mengapa Anda mengumpulkan sebagian? Mungkin karena Anda pikir subkelompok kecil adalah bagian dari kelompok yang lebih besar dengan efek rata-rata yang sama. Subkelompok berarti dapat menyimpang sedikit dari mean kelompok besar, tetapi tidak dengan jumlah yang sewenang-wenang. Untuk memformalkan ide itu, kami berpendapat bahwa penyimpangan mengikuti distribusi, biasanya Gaussian. Di situlah "acak" dalam efek acak masuk: kami mengasumsikan penyimpangan dari subkelompok dari orangtua mengikuti distribusi variabel acak. Setelah Anda memiliki ide ini dalam pikiran, persamaan model efek campuran mengikuti secara alami.

Sayangnya, pengguna model efek campuran sering memiliki prasangka salah tentang apa efek acak dan bagaimana mereka berbeda dari efek tetap. Orang-orang mendengar "acak" dan berpikir itu berarti sesuatu yang sangat istimewa tentang sistem yang dimodelkan, seperti efek tetap harus digunakan ketika ada sesuatu yang "diperbaiki" sedangkan efek acak harus digunakan ketika sesuatu "sampel acak". Tetapi tidak ada yang terlalu acak tentang asumsi bahwa koefisien model berasal dari distribusi; itu hanya kendala lembut, mirip dengan penalti diterapkan pada koefisien model dalam regresi ridge. Ada banyak situasi di mana Anda mungkin atau mungkin tidak ingin menggunakan efek acak, dan mereka tidak harus banyak terkait dengan perbedaan antara "tetap" dan "acak" $\ell_2$

Sayangnya, kebingungan konsep yang disebabkan oleh istilah-istilah ini telah menyebabkan banyak definisi yang saling bertentangan . Dari lima definisi pada tautan ini, hanya # 4 yang sepenuhnya benar dalam kasus umum, tetapi juga sepenuhnya tidak informatif. Anda harus membaca seluruh makalah dan buku (atau gagal, posting ini) untuk memahami apa arti definisi itu dalam kerja praktek.

Contoh

Mari kita lihat kasus di mana pemodelan efek acak mungkin berguna. Misalkan Anda ingin memperkirakan pendapatan rumah tangga AS rata-rata dengan kode ZIP. Anda memiliki set data besar yang berisi pengamatan pendapatan rumah tangga dan kode ZIP. Beberapa kode ZIP terwakili dengan baik dalam dataset, tetapi yang lain hanya memiliki beberapa rumah tangga.

Untuk model awal Anda, Anda kemungkinan besar akan mengambil pendapatan rata-rata di setiap ZIP. Ini akan bekerja dengan baik ketika Anda memiliki banyak data untuk ZIP, tetapi perkiraan untuk ZIP yang sampelnya kurang akan menderita varian yang tinggi. Anda dapat mengurangi ini dengan menggunakan estimator penyusutan (alias pooling parsial), yang akan mendorong nilai ekstrim terhadap pendapatan rata-rata di semua kode ZIP.

Tetapi berapa banyak penyusutan / penyatuan yang harus Anda lakukan untuk ZIP tertentu? Secara intuitif, itu harus tergantung pada yang berikut:

Berapa banyak pengamatan yang Anda miliki di ZIP itu
Berapa banyak pengamatan yang Anda miliki secara keseluruhan
The tingkat individu mean dan varians dari pendapatan rumah tangga di semua kode ZIP
The tingkat grup varians pendapatan rumah tangga rata-rata di semua kode ZIP

Jika Anda memodelkan kode ZIP sebagai efek acak, estimasi pendapatan rata-rata dalam semua kode ZIP akan mengalami penyusutan yang secara statistik kuat, dengan mempertimbangkan semua faktor di atas.

Bagian terbaiknya adalah bahwa model efek acak dan campuran secara otomatis menangani (4), estimasi variabilitas, untuk semua efek acak dalam model. Ini lebih sulit daripada yang terlihat pada pandangan pertama: Anda bisa mencoba varians mean sampel untuk setiap ZIP, tetapi ini akan menjadi bias tinggi, karena beberapa varians antara perkiraan untuk ZIP yang berbeda hanyalah varians sampel. Dalam model efek acak, proses inferensi menyumbang varians sampling dan menyusut estimasi varians sesuai.

Setelah memperhitungkan (1) - (4), model efek acak / campuran mampu menentukan penyusutan yang sesuai untuk kelompok sampel rendah. Itu juga dapat menangani model yang jauh lebih rumit dengan banyak prediktor yang berbeda.

Hubungan dengan Hierarchical Bayesian Modelling

Jika ini kedengarannya seperti pemodelan Bayesian hierarkis bagi Anda, Anda benar - itu adalah kerabat dekat tetapi tidak identik. Model efek campuran bersifat hierarkis karena menempatkan distribusi untuk parameter laten dan tidak teramati, tetapi mereka biasanya tidak sepenuhnya Bayesian karena hiperparameter tingkat atas tidak akan diberikan prioritas yang tepat. Sebagai contoh, dalam contoh di atas kita kemungkinan besar akan memperlakukan pendapatan rata-rata dalam ZIP yang diberikan sebagai sampel dari distribusi normal, dengan rata-rata dan sigma yang tidak diketahui diperkirakan dengan proses pemasangan efek campuran. Namun, model efek campuran (non-Bayesian) biasanya tidak memiliki prior pada mean dan sigma yang tidak diketahui, sehingga tidak sepenuhnya Bayesian. Yang mengatakan, dengan set data berukuran layak, model efek campuran standar dan varian Bayesian penuh akan sering memberikan hasil yang sangat mirip.

* Sementara banyak perawatan dari topik ini fokus pada definisi sempit "kelompok", konsep ini sebenarnya sangat fleksibel: itu hanya seperangkat pengamatan yang memiliki kesamaan properti. Suatu kelompok dapat terdiri dari beberapa pengamatan dari satu orang, atau beberapa orang di sekolah, atau beberapa sekolah di suatu kabupaten, atau beberapa varietas dari satu jenis buah, atau beberapa jenis sayuran dari panen yang sama, atau beberapa panen dari jenis sayuran yang sama, dll. Setiap variabel kategori dapat digunakan sebagai variabel pengelompokan.

Paul
sumber

19

+6. Saya pikir ini adalah jawaban terbaik di utas ini dan mudah-mudahan seiring berjalannya waktu akan menjadi yang paling terunggul. Salah satu saran yang akan saya buat adalah memasukkan beberapa rumus: mungkin di bagian Contoh Anda, Anda dapat memberikan rumus yang menetapkan model efek tetap dan acak (dan mungkin juga model "koefisien tunggal", yaitu yang dengan "penyatuan lengkap") "). Saya pikir rumus akan membuat jawaban Anda lebih jelas dan lebih menarik / menarik (saat ini terlihat sedikit seperti dinding teks).

amoeba

3

@amoeba terima kasih! Anda benar tentang koefisien menjadi kata yang salah, itu lebih seperti "model term" daripada koefisien. Rumus akan membantu membersihkan ini dan pertanyaan lainnya. Saya perlahan-lahan mengubah jawaban ini ketika waktu dan inspirasi menghantam, dan akan terus melakukannya sampai tiba di tempat yang harus dituju! Saya mungkin akan menyempurnakan formula untuk "regresi terhadap satu variabel kategori." Pooling lengkap = koefisien grup identik (delta prior, zero sigma), pooling parsial = mereka dapat sedikit berbeda (finite sigma), no pooling = tidak ada kendala (infinite sigma).

Paul

Terima kasih atas jawaban Anda! Namun, saya kehilangan Anda di "Anda dapat mengurangi ini dengan menggunakan estimator penyusutan (alias pooling parsial), yang akan mendorong nilai ekstrem terhadap pendapatan rata-rata di semua kode ZIP." Apa yang dimaksud dengan pooling parsial? Bisakah Anda memberikan contoh intuitif? Juga, bagaimana halaman Wikipedia tentang efek acak setuju dengan apa yang Anda katakan? Contoh mereka tentang "efek acak" tidak mempertimbangkan ukuran sampel apa pun.

AlphaOmega

2

Selamat telah melewati 100 upvotes untuk jawaban ini :-)

amoeba

1

@ Paul Saya benar-benar berjuang dengan memahami bagaimana menggabungkan jawaban ini (misalnya "Orang ... berpikir ... efek tetap harus digunakan ketika ada sesuatu yang" diperbaiki "sedangkan efek acak harus digunakan ketika ada sesuatu" sampel acak ") dengan apa yang saya lihat dengan cara kesalahan standar muncul dalam model campuran, di mana UK dengan efek acak bagi saya hanya konsisten dengan asumsi bahwa mereka sampel secara acak, dan UK dengan efek tetap hanya jika mereka diperbaiki . Lihat misalnya di sini Apa yang saya hilang Setiap pikiran dihargai melampaui kata-kata !!.?

Justme

47

Saya telah menulis tentang ini dalam bab buku tentang model campuran (bab 13 dalam Fox, Negrete-Yankelevich, dan Sosa 2014 ); halaman yang relevan (hlm. 311-315) tersedia di Google Buku . Saya pikir pertanyaannya berkurang menjadi "apa definisi dari efek tetap dan acak?" ("model campuran" hanyalah model yang mengandung keduanya). Diskusi saya mengatakan sedikit tentang definisi formal mereka (yang saya akan tanyakan pada makalah Gelman yang ditautkan oleh jawaban @ JohnSalvatier di atas) dan lebih lanjut tentang sifat praktis dan kegunaannya. Berikut beberapa kutipannya:

Pandangan tradisional tentang efek acak adalah sebagai cara untuk melakukan tes statistik yang benar ketika beberapa pengamatan berkorelasi.

Kita juga dapat memikirkan efek acak sebagai cara untuk menggabungkan informasi dari berbagai tingkat dalam variabel pengelompokan.

Efek acak sangat berguna ketika kita memiliki (1) banyak level (mis., Banyak spesies atau blok), (2) data yang relatif sedikit pada setiap level (walaupun kita membutuhkan banyak sampel dari sebagian besar level), dan (3) tidak merata pengambilan sampel lintas level (kotak 13.1).

Frequentists dan Bayesian mendefinisikan efek acak agak berbeda, yang mempengaruhi cara mereka menggunakannya. Frequentists mendefinisikan efek acak sebagai variabel kategori yang levelnya dipilih secara acak dari populasi yang lebih besar, misalnya, spesies yang dipilih secara acak dari daftar spesies endemik. Bayesian mendefinisikan efek acak sebagai set variabel yang parameternya diambil dari distribusi [yang sama]. Definisi frequentist secara filosofis koheren, dan Anda akan bertemu dengan para peneliti (termasuk pengulas dan pengawas) yang bersikeras, tetapi secara praktis bisa bermasalah. Misalnya, ini menyiratkan bahwa Anda tidak dapat menggunakan spesies sebagai efek acak ketika Anda telah mengamati semua spesies di lokasi lapangan Anda - karena daftar spesies bukan sampel dari populasi yang lebih besar - atau menggunakan tahun sebagai efek acak, karena para peneliti jarang melakukan percobaan dalam tahun-tahun sampel acak — mereka biasanya menggunakan serangkaian tahun berturut-turut, atau tahun-tahun serampangan ketika mereka bisa masuk ke lapangan.

Efek acak juga dapat digambarkan sebagai variabel prediktor di mana Anda tertarik untuk membuat kesimpulan tentang distribusi nilai (yaitu, varians di antara nilai-nilai respons pada level yang berbeda) daripada dalam menguji perbedaan nilai antara level tertentu.

Orang-orang kadang mengatakan bahwa efek acak adalah "faktor yang Anda tidak tertarik." Ini tidak selalu benar. Meskipun sering terjadi dalam percobaan ekologis (di mana variasi di antara situs biasanya hanya gangguan), kadang-kadang sangat menarik, misalnya dalam studi evolusi di mana variasi di antara genotipe adalah bahan baku untuk seleksi alam, atau dalam studi demografi di mana variasi antar-tahun menurunkan tingkat pertumbuhan jangka panjang. Dalam beberapa kasus efek tetap juga digunakan untuk mengontrol variasi yang tidak menarik, misalnya, menggunakan massa sebagai kovariat untuk mengendalikan efek ukuran tubuh.

Anda juga akan mendengar bahwa "Anda tidak dapat mengatakan apa-apa tentang nilai (perkiraan) dari mode bersyarat." Ini juga tidak benar — Anda tidak dapat secara resmi menguji hipotesis nol bahwa nilainya sama dengan nol, atau bahwa nilai dari dua level yang berbeda adalah sama, tetapi masih masuk akal untuk melihat nilai yang diprediksi, dan bahkan untuk menghitung kesalahan standar dari nilai yang diprediksi (misalnya, lihat bilah kesalahan di sekitar mode bersyarat pada gambar 13.1).

Kerangka kerja Bayesian memiliki definisi efek acak yang lebih sederhana. Di bawah pendekatan Bayesian, efek tetap adalah efek di mana kami memperkirakan setiap parameter (misalnya, rata-rata untuk setiap spesies dalam genus) secara independen (dengan prior yang ditentukan secara independen), sedangkan untuk efek acak, parameter untuk setiap level dimodelkan sebagai gambar yang diambil. dari distribusi (biasanya Normal); dalam notasi statistik standar, . $\textrm{species_mean} \sim {\cal N}(\textrm{genus_mean}, \sigma^2_{\textrm{species}})$

Saya katakan di atas bahwa efek acak paling berguna ketika variabel pengelompokan memiliki banyak level yang diukur. Sebaliknya, efek acak umumnya tidak efektif ketika variabel pengelompokan memiliki level terlalu sedikit. Anda biasanya tidak dapat menggunakan efek acak ketika variabel pengelompokan memiliki kurang dari lima level, dan perkiraan varians efek acak tidak stabil dengan kurang dari delapan level, karena Anda mencoba memperkirakan varians dari sampel yang sangat kecil.

Ben Bolker
sumber

pratinjau saat ini tidak menunjukkan halaman setelah 311, dan meleset di halaman 310, yang sepertinya sangat berguna di sini ...

terbang

mungkin ini masalah regional? terima kasih atas jawaban yang jelas di atas, bagaimanapun!

terbang

1

Saya juga tidak memiliki akses ke hasil Google Buku. Terima kasih telah memasukkan teks di sini.

MichaelChirico

Saya sangat suka kutipan ini. Ini mungkin deskripsi yang paling jelas dan paling berguna tentang kapan dan mengapa menggunakan efek acak yang pernah saya lihat. Seandainya saya memilikinya ketika saya mengajar beberapa tahun yang lalu.

Gregor

39

Memperbaiki efek: Sesuatu yang langsung dimanipulasi oleh eksperimen dan sering diulang, misalnya, pemberian obat - satu kelompok mendapat obat, satu kelompok mendapat plasebo.

Efek acak: Sumber variasi acak / unit eksperimental misalnya, individu yang diambil (secara acak) dari suatu populasi untuk uji klinis. Efek acak memperkirakan variabilitas

Efek campuran: Mencakup keduanya, efek tetap dalam kasus-kasus ini memperkirakan koefisien tingkat populasi, sedangkan efek acak dapat menjelaskan perbedaan individu dalam menanggapi efek, misalnya, setiap orang menerima obat dan plasebo pada kesempatan yang berbeda, Efek memperkirakan efek obat, istilah efek acak akan memungkinkan setiap orang untuk merespons obat secara berbeda.

Kategori umum dari efek campuran - tindakan berulang, longitudinal, hierarkis, plot terpisah.

Matt Albrecht
sumber

3

Anda tidak salah, tetapi definisi Anda tentang apa efek tetap itu bukan apa yang saya pikirkan ketika seseorang mengatakan efek tetap. Inilah yang saya pikirkan ketika seseorang mengatakan fixed effect en.wikipedia.org/wiki/Difference_in_difference , atau stata.com/support/faqs/stat/xtreg2.html (khususnya persamaan 3 pada halaman Stata)

Andy W

@AndyW: Apakah saya mengerti benar bahwa pemahaman Anda tentang "efek tetap" apa yang sesuai dengan definisi # 1 sebagaimana didaftar oleh Gelman dan dikutip dalam jawaban JohnSalvatier (diterima) di utas ini?

amoeba

1

a_{i}

$a_i$

1

a_{i}

$a_i$

1

@amoeba Saya setuju jawaban ini harus -1. Itu tidak memberikan penjelasan umum yang akurat, juga tidak menentukan kondisi di mana penjelasan khusus ini akan valid. Jadi siapa yang mungkin menemukan jawaban ini dan mendapatkan pengetahuan yang andal dan bermanfaat?

Paul

23

Saya datang ke pertanyaan ini dari sini , kemungkinan duplikat.

Sudah ada beberapa jawaban yang luar biasa, tetapi seperti yang dinyatakan dalam jawaban yang diterima, ada banyak kegunaan yang berbeda (tetapi terkait) dari istilah tersebut, jadi mungkin berharga untuk memberikan perspektif seperti yang digunakan dalam ekonometrik, yang tampaknya belum sepenuhnya dibahas di sini. .

y_{i t} = X_{i t} δ + α_{i} + η_{i t},

$y_{it}=X_{it}\delta+\alpha_i+\eta_{it},$

α_{i}

$\alpha_i$

η_{i t}

$\eta_{it}$

$\alpha_i$

$\alpha_i$ $X_{it}$ $Cov(\alpha_i,X_{it})=0$

$y$ $X$ $y_{it}$ $X_{it}$

$\alpha_i$ $X_{it}$ $i$ $X_{it}=0$ $X_{it}$

$\delta$ $t$ $\alpha_i$ $X_{it}$

$T$ m

Berikut ini adalah kode yang menghasilkan data dan yang menghasilkan estimasi RE positif dan estimasi FE negatif "benar". (Yang mengatakan, perkiraan RE juga akan sering negatif untuk benih lain, lihat di atas.)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

Hasil:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031

Christoph Hanck
sumber

1

δ

$\delta$

1

Juga, ternyata mungkin untuk menangani contoh ini dengan efek campuran. Inilah makalah yang menunjukkan caranya: academcommons.columbia.edu/download/fedora_content/download/…

Paul

1

T \to \infty

$T\to\infty$

N

$N$

7

Dalam diskusi sebelumnya akan lebih akurat untuk mengganti "efek acak" dengan "versi terbatas dari efek acak yang diterapkan dalam paket plm R". Ada model efek acak lain yang akan menangani masalah prediktor / grup berkorelasi dengan baik, seperti dalam makalah yang dikutip dalam komentar saya sebelumnya. Mereka belum menjadi bagian dari paket / literatur ekonometrik. Tampaknya definisi ekonometrik efek tetap dan acak sangat spesifik-domain dan tidak benar-benar mewakili makna umum yang lebih mendasar dari literatur statistik.

Paul

4

Cukup adil, saya membuat sedikit edit. Tetapi imo, inilah tepatnya yang membuat utas ini sangat berharga: bidang yang berbeda memiliki arti yang berbeda dengan terminologi yang kurang lebih sama, dan berbagai tulisan membantu menjelaskan perbedaan ini.

Christoph Hanck

12

Perbedaannya hanya bermakna dalam konteks statistik non-Bayesian. Dalam statistik Bayesian, semua parameter model "acak".

Shige
sumber

1

Menarik. Tetapi karena tetap atau acak dapat dianggap sebagai kondisi dari variabel tertentu (kolom data tertentu) daripada parameter yang terkait dengan variabel itu, ... apakah jawaban Anda sepenuhnya berlaku?

rolando2

1

@ rolando2 Bagaimanapun, ini hanya salah. Secara khusus, untuk Bayesian parameternya adalah apa pun jenis teori / kemungkinan mengatakan mereka. Hanya ketidakpastian seseorang tentang nilai-nilai apa yang mereka ambil diwakili menggunakan distribusi probabilitas. Akibatnya kadang-kadang parameter dimodelkan sebagai tetap dan tidak dikenal ('tetap') dan kadang-kadang berasal dari distribusi ('acak') meskipun perangkat yang terakhir sering dimotivasi oleh penilaian pertukaran yang lebih baik daripada keyakinan tentang proses pengambilan sampel.

conjugateprior

Ini berbeda dengan jawaban @ben. Saya yakin jawabannya salah.

SmallChess

9

Dalam ekonometrik, istilah tersebut biasanya diterapkan dalam model linier umum, di mana model tersebut berbentuk

y_{i t} = g (x_{i t} β + α_{i} + u_{i t}) .

$y_{it} = g(x_{it} \beta + \alpha_i + u_{it}).$

Efek acak: Ketika $\alpha_i \perp u_{it}$ ,

$\alpha_i \not \perp u_{it}$

Dalam model linier , keberadaan efek acak tidak menghasilkan inkonsistensi penaksir OLS. Namun, menggunakan estimator efek acak (seperti kuadrat terkecil yang layak) akan menghasilkan estimator yang lebih efisien .

Dalam model non-linear , seperti probit, tobit, ..., keberadaan efek acak akan, secara umum, menghasilkan estimator yang tidak konsisten. Menggunakan estimator efek acak kemudian akan mengembalikan konsistensi.

Untuk model linier dan non-linier, efek tetap menghasilkan bias. Namun, dalam model linier ada transformasi yang dapat digunakan (seperti perbedaan pertama atau merendahkan), di mana OLS pada data yang diubah akan menghasilkan estimasi yang konsisten. Untuk model non-linear, ada beberapa pengecualian di mana transformasi ada, efek tetap logit menjadi salah satu contoh.

Contoh: Kemungkinan efek acak. Seharusnya

y_{i t}^{*} = x_{i t} β + α_{i} + u_{i t}, α_{i} \sim N (0, σ_{α}^{2}), u_{i t} \sim N (0, 1) .

$y^*_{it} = x_{it} \beta + \alpha_i + u_{it}, \quad \alpha_i \sim \mathcal{N}(0,\sigma_\alpha^2), u_{it} \sim \mathcal{N}(0,1).$

dan hasil yang diamati adalah

y_{i t} = 1 (y_{i t}^{*} > 0) .

$y_{it} = \mathbb{1}(y^*_{it} > 0).$

The Pooled kemungkinan estimator maksimum meminimalkan sampel rata-rata

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \prod_{t = 1}^{T} [G (x_{i t} β)]^{y_{i t}} [1 - G (x_{i t} β)]^{1 - y_{i t}} .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \prod_{t=1}^T [G(x_{it}\beta)]^{y_{it}} [1 - G(x_{it}\beta)] ^{1-y_{it}}.$

Tentu saja, di sini log dan produk disederhanakan, tetapi untuk alasan pedagogis, ini membuat persamaan lebih sebanding dengan pengukur efek acak, yang memiliki bentuk

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log \int \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a)]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}} ϕ (a) d a .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log \int \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}} \phi(a) \mathrm{d}a.$

$R$

\hat{β} = \arg min_{β} N^{- 1} \sum_{i = 1}^{N} \log R^{- 1} \sum_{r = 1}^{R} \prod_{t = 1}^{T} [G (x_{i t} β + σ_{α} a_{r})]^{y_{i t}} [1 - G (x_{i t} β + σ_{α} a)]^{1 - y_{i t}}, a_{r} \sim N (0, 1) .

$\hat{\beta} = \arg \min_\beta N^{-1} \sum_{i=1}^N \log R^{-1} \sum_{r=1}^R \prod_{t=1}^T [G(x_{it}\beta + \sigma_\alpha a_r)]^{y_{it}} [1 - G(x_{it}\beta + \sigma_\alpha a )] ^{1-y_{it}},\quad a_r \sim \mathcal{N}(0,1).$

$\alpha_i$ $i$ $T$

Superpronker
sumber

7

Bukan definisi formal, tapi saya suka slide berikut: Model campuran dan mengapa sosiolinguis harus menggunakannya ( mirror ), dari Daniel Ezra Johnson. Rekap singkat 'ditawarkan pada slide 4. Meskipun sebagian besar berfokus pada studi psikolinguistik, ini sangat berguna sebagai langkah pertama.

chl
sumber

Saya pikir saya perlu melihat presentasi itu secara langsung untuk mendapatkan dampak penuh.

Andy W

Slide ini tidak berguna.

terbang

7

Meskipun tautan ini dapat menjawab pertanyaan, lebih baik untuk memasukkan bagian-bagian penting dari jawaban di sini dan memberikan tautan untuk referensi. Jawaban hanya tautan dapat menjadi tidak valid jika halaman tertaut berubah.

Ben Bolker

1

tautannya sudah mati

baxx

3

Perspektif lain yang sangat praktis pada model efek acak dan tetap berasal dari ekonometrik ketika melakukan regresi linier pada data panel . Jika Anda memperkirakan hubungan antara variabel penjelas dan variabel hasil dalam dataset dengan banyak sampel per individu / grup, ini adalah kerangka kerja yang ingin Anda gunakan.

Contoh data panel yang baik adalah pengukuran tahunan dari sekumpulan individu:

$gender_i$ $i$
${\Delta}weight_{it}$ $t$ $i$
$exercise_{it}$ $t$ $i$

Jika kami mencoba memahami hubungan antara olahraga dan perubahan berat badan, kami akan menyiapkan regresi berikut:

${\Delta}weight_{it} = \beta_0$ $exercise_{it} + \beta_1gender_i + \alpha_i + \epsilon_{it}$

$\beta_0$
$\beta_1$
$\alpha_i$
$\epsilon_{it}$

$\beta_0$ $\beta_0$

$\alpha_i$ $\beta_1$ $gender_i$ $\alpha_i$

Jadi, pertanyaan kuncinya adalah menentukan model mana yang sesuai. Jawabannya adalah Tes Hausman . Untuk menggunakannya, kami melakukan regresi efek tetap dan acak, dan kemudian menerapkan Tes Hausman untuk melihat apakah estimasi koefisien mereka berbeda secara signifikan. Jika mereka berbeda, endogenitas berperan dan model efek tetap adalah pilihan terbaik. Kalau tidak, kita akan pergi dengan efek acak.

Tom Q.
sumber

Apa perbedaan antara model efek tetap, efek acak dan campuran?

Jawaban:

Efek Acak versus Tetap

Contoh

Hubungan dengan Hierarchical Bayesian Modelling