Apa perbedaan matematika antara efek acak dan tetap?

26

Saya telah menemukan banyak hal di internet mengenai interpretasi efek acak dan tetap. Namun saya tidak bisa mendapatkan sumber yang menjelaskan hal berikut:

Apa perbedaan matematika antara efek acak dan tetap?

Maksud saya formulasi matematis dari model dan parameter cara diperkirakan.

jokel
sumber
1
Nah, efek tetap mempengaruhi rata-rata distribusi bersama dan efek acak mempengaruhi varians dan struktur asosiasi. Apa sebenarnya yang Anda maksud dengan "perbedaan matematis"? Apakah Anda bertanya bagaimana kemungkinannya berubah? Bisakah Anda lebih spesifik?
Makro
Yang mungkin menarik: Apa perbedaan antara efek acak-, efek tetap- & model marginal?
gung - Reinstate Monica
1
Juga terkait: Apa perbedaan antara model efek tetap, efek acak dan campuran?
Amoeba berkata Reinstate Monica
1
Pertanyaan itu tampaknya tidak membedakan latar belakang dari mana ia diambil. Terminologi ini dalam Ekonomi Panel Data berbeda dari yang ada dalam ilmu sosial lainnya menggunakan Model Multilevel. Pertanyaannya membutuhkan klarifikasi lebih lanjut. Lain, ini menyesatkan bagi mereka yang datang ke sini dari kedua latar belakang tidak mengetahui bahwa ada definisi alternatif di bidang terkait.
luchonacho

Jawaban:

21

Model paling sederhana dengan efek acak adalah model ANOVA satu arah dengan efek acak, yang diberikan oleh pengamatan dengan asumsi distribusi: ( y i jμ i ) iid N ( μ i , σ 2 w ) ,yij

(yijμi)iidN(μi,σw2),j=1,,J,μiiidN(μ,σb2),i=1,,I.

Di sini efek acak adalah . Mereka adalah variabel acak, sedangkan mereka adalah bilangan tetap dalam model ANOVA dengan efek tetap.μi

Misalnya masing-masing dari tiga teknisi di laboratorium mencatat serangkaian pengukuran, dan adalah pengukuran ke- dari teknisi . Sebut "nilai rata-rata sebenarnya" dari seri yang dihasilkan oleh teknisi ; ini adalah parameter sedikit buatan, Anda dapat melihat sebagai nilai rata-rata yang teknisi akan diperoleh jika ia / dia telah mencatat serangkaian besar pengukuran.y i j j i μ i i μ i ii=1,2,3yijjiμiiμii

Jika Anda tertarik untuk mengevaluasi , , (misalnya untuk menilai bias di antara operator), maka Anda harus menggunakan model ANOVA dengan efek tetap.μ 2 μ 3μ1μ2μ3

Anda harus menggunakan model ANOVA dengan efek acak ketika Anda tertarik dengan varians dan mendefinisikan model, dan total varian (lihat di bawah). Varians adalah varians dari rekaman yang dihasilkan oleh satu teknisi (diasumsikan sama untuk semua teknisi), dan disebut varians antar-teknisi. Mungkin idealnya, teknisi harus dipilih secara acak. σ 2 b σ 2 b + σ 2 w σ 2 w σ 2 bσw2σb2 σb2+σw2σw2σb2

Model ini mencerminkan dekomposisi formula varian untuk sampel data: masukkan deskripsi gambar di sini

Varians total = varians rata-rata -rata intra-varians+

yang tercermin oleh model ANOVA dengan efek acak: masukkan deskripsi gambar di sini

Memang, distribusi ditentukan oleh distribusi kondisionalnya diberikan dan oleh distribusi . Jika seseorang menghitung distribusi "tanpa syarat" dari maka kita menemukan . ( y i j ) μ i μ i y i j y i jN ( μ , σ 2 b + σ 2 w )yij(yij)μiμiyijyijN(μ,σb2+σw2)

Lihat slide 24 dan slide 25 di sini untuk gambar yang lebih baik (Anda harus menyimpan file pdf untuk menghargai overlay, jangan menonton versi online).

Stéphane Laurent
sumber
1
(+1) Angka yang sangat bagus!
Amuba mengatakan Reinstate Monica
1
Terima kasih @amoeba, kode saya untuk momen inersia tersedia di blog saya: stla.github.io/stlapblog/posts/Variance_inertia.html
Stéphane Laurent
Saya tidak mengerti. Jika saya memiliki sejumlah pengukuran yang dilakukan oleh sejumlah teknisi, mengapa saya perlu ANOVA? Tidak bisakah saya memasukkan gaussian ke hasil masing-masing teknisi, dan mendapatkan dan untuk masing- masing teknisi ? Apa cara Anda menyelesaikan masalah ini yang memungkinkan saya lakukan, yang tidak saya jalani? σμσ
TheChymera
@TheChymera ANOVA adalah asumsi dari . Anda mendapatkan interval kepercayaan yang lebih pendek dengan asumsi ini. Tetapi komentar Anda adalah tentang alasan untuk menggunakan ANOVA dengan varian umum vs ANOVA dengan varian berbeda, ini bukan topik di sini. σ
Stéphane Laurent
@ StéphaneLaurent ANOVA manakah yang merupakan asumsi dari ? - juga, hal-hal apa yang biasa terjadi pada ? Anda berkata "Jika Anda tertarik untuk mengevaluasi μ1, μ2, μ3 (misalnya untuk menilai bias antar operator), maka Anda harus menggunakan model ANOVA dengan efek tetap." Apa rumus metode ANOVA dengan efek tetap, dan bagaimana metode ini memberi tahu Anda di tanpa memberi tahu Anda tentang ? Juga, bagaimana itu bisa memberi Anda perkiraan tanpa memberikan semua info yang diperlukan untuk menghitung ? (dan sebaliknya untuk model efek acak)σ μ i σ 2 b μ i σ 2 wσσμiσb2μiσw2
TheChymera
16

Pada dasarnya, apa yang saya pikirkan adalah perbedaan yang paling berbeda jika Anda memodelkan faktor secara acak, adalah bahwa efeknya dianggap diambil dari distribusi normal yang umum.

Misalnya, jika Anda memiliki semacam model mengenai nilai dan Anda ingin memperhitungkan data siswa Anda yang berasal dari sekolah yang berbeda dan Anda menjadikan sekolah model sebagai faktor acak, ini berarti Anda berasumsi bahwa rata-rata berdasarkan sekolah didistribusikan secara normal. Itu berarti dua sumber variasi adalah pemodelan: variabilitas siswa di sekolah dan variabilitas di antara sekolah.

Ini menghasilkan sesuatu yang disebut pooling parsial . Pertimbangkan dua hal ekstrem:

  1. Sekolah tidak memiliki efek (antara variabilitas sekolah adalah nol). Dalam hal ini model linier yang tidak memperhitungkan sekolah akan optimal.
  2. Variabilitas sekolah lebih besar daripada variabilitas siswa. Maka pada dasarnya Anda perlu bekerja di tingkat sekolah alih-alih tingkat siswa (kurang # sampel). Ini pada dasarnya adalah model di mana Anda menghitung sekolah menggunakan efek tetap. Ini bisa menjadi masalah jika Anda memiliki beberapa sampel per sekolah.

Dengan memperkirakan variabilitas pada kedua level, model campuran membuat kompromi yang cerdas antara kedua pendekatan ini. Terutama jika Anda memiliki siswa yang tidak terlalu besar per sekolah, ini berarti Anda akan mendapatkan penyusutan efek untuk masing-masing sekolah seperti yang diperkirakan oleh model 2 terhadap rata-rata keseluruhan model 1.

Itu karena model mengatakan bahwa jika Anda memiliki satu sekolah dengan dua siswa termasuk yang lebih baik dari apa yang "normal" untuk populasi sekolah maka kemungkinan bahwa bagian dari efek ini dijelaskan oleh sekolah yang beruntung dalam pilihan dari dua siswa memandang. Itu tidak membuat ini secara membabi buta, itu tergantung pada perkiraan variabilitas dalam sekolah. Ini juga berarti bahwa tingkat efek dengan sampel lebih sedikit lebih kuat ditarik ke arah rata-rata keseluruhan daripada sekolah besar.

Yang penting adalah Anda membutuhkan kemampuan tukar pada level faktor acak. Itu berarti dalam hal ini sekolah-sekolah (dari pengetahuan Anda) dapat ditukar dan Anda tidak tahu apa pun yang membuat mereka berbeda (selain semacam ID). Jika Anda memiliki informasi tambahan, Anda dapat memasukkan ini sebagai faktor tambahan, cukup bahwa sekolah dapat ditukar tergantung pada informasi lain yang diperhitungkan.

Sebagai contoh, masuk akal untuk mengasumsikan bahwa orang dewasa berusia 30 tahun yang tinggal di New York dapat ditukar dengan persyaratan gender. Jika Anda memiliki lebih banyak informasi (umur, etnis, pendidikan), masuk akal untuk memasukkan informasi itu juga.

OTH jika Anda telah belajar dengan satu kelompok kontrol dan tiga kelompok penyakit yang sangat berbeda, tidak masuk akal untuk memodelkan kelompok sebagai acak karena penyakit tertentu tidak dapat ditukar. Namun, banyak orang menyukai efek penyusutan dengan baik sehingga mereka masih akan berdebat untuk model efek acak tapi itu cerita lain.

Saya perhatikan saya tidak terlalu banyak ke matematika, tetapi pada dasarnya perbedaannya adalah bahwa model efek acak memperkirakan kesalahan yang terdistribusi normal baik pada tingkat sekolah dan pada tingkat siswa sedangkan model efek tetap memiliki kesalahan hanya pada tingkat siswa. Terutama ini berarti bahwa setiap sekolah memiliki level sendiri yang tidak terhubung ke level lain oleh distribusi umum. Ini juga berarti bahwa model tetap tidak memungkinkan ekstrapolasi ke siswa sekolah tidak termasuk dalam data asli sementara model efek acak melakukannya, dengan variabilitas yang merupakan jumlah dari tingkat siswa dan variabilitas tingkat sekolah. Jika Anda secara khusus tertarik dengan kemungkinan kami dapat mengatasinya.

Erik
sumber
1
(+1) Sebuah jawaban yang bagus, yang secara mengejutkan kurang mendapat suara. Saya perhatikan salah ketik yang membingungkan: "dikecualikan" harus membaca "disertakan". Terlepas dari itu: apa yang akan menjadi perbedaan praktis yang diharapkan antara memperlakukan sekolah sebagai efek acak vs tetap? Saya mengerti bahwa memperlakukan dengan tetap tidak akan memungkinkan memprediksi kinerja siswa dari sekolah baru, tetapi bagaimana dengan perbedaan pada data yang tersedia? Katakanlah efek tetap lainnya adalah jenis kelamin, ras, dan berat badan siswa (apa pun). Apakah memperlakukan sekolah secara acak / tetap memengaruhi kekuatan efek utama atau interaksi yang menarik? Adakah perbedaan lain?
Amuba kata Reinstate Monica
3
@amoeba Meninggalkan konsistensi, MSE pada koefisien tingkat siswa dapat lebih atau kurang efisien dalam model acak vs model efek tetap tergantung pada, antara lain, tingkat korelasi antara siswa X dan efek acak, jumlah cluster, dll. . Clark dan Linzer 2012 memiliki hasil simulasi.
conjugateprior
1
@conjugateprior Wow, terima kasih banyak atas komentar ini! Saya membaca kertas yang tertaut dan itu adalah penjelasan paling jelas tentang masalah yang saya lihat. Saya telah menghabiskan cukup banyak waktu membaca berbagai utas di sini tentang CV tentang efek tetap / acak, tetapi tidak dapat menemukan kapan seseorang harus menggunakan satu sama lain dan mengapa. Membaca C&L membuat banyak hal menjadi lebih jelas bagi saya. Apakah Anda mungkin ingin menulis jawaban di suatu tempat di CV yang menyajikan ringkasan makalah ini dan / atau yang terkait? Saya menjalankan hadiah pada utas yang paling banyak dipilih [model-campuran] dan dengan senang hati akan memberi Anda satu sama lain di sana.
Amoeba berkata Reinstate Monica
@ Erik, saya mengedit untuk memperbaiki "sekolah parsial" menjadi "penyatuan sebagian". Saya pikir itu salah ketik tetapi minta maaf jika itu adalah permainan kata-kata yang dimaksudkan!
Amoeba berkata Reinstate Monica
2

Di tanah ekon, efek tersebut adalah intersep (atau konstanta) spesifik individu yang tidak teramati, tetapi dapat diperkirakan menggunakan data panel (pengamatan berulang pada unit yang sama dari waktu ke waktu). Metode estimasi efek tetap memungkinkan untuk korelasi antara intersep unit-spesifik dan variabel penjelas independen. Efek acak tidak. Biaya menggunakan efek tetap yang lebih fleksibel adalah Anda tidak dapat memperkirakan koefisien pada variabel yang invarian-waktu (seperti jenis kelamin, agama, atau ras).

NB Bidang lain memiliki terminologi sendiri, yang bisa agak membingungkan.

Dimitriy V. Masterov
sumber
(-1) ini tidak mengatakan apa pun tentang perbedaan matematika antara efek tetap dan acak
Makro
1
@ Macro Setuju. Sebelum itu muncul, akan sangat membantu untuk mengetahui apakah terminologi ekon adalah apa yang dicari OP. Seharusnya aku lebih jelas tentang itu.
Dimitriy V. Masterov
BAIK. Dalam hal ini mungkin lebih tepat sebagai komentar, bukankah begitu?
Makro
Pernyataan "Biaya menggunakan efek tetap yang lebih fleksibel adalah Anda tidak dapat memperkirakan koefisien pada variabel yang invarian waktu" tidak benar. Saya baru saja melakukan simulasi di mana Anda telah mengulangi pengukuran pada individu dan satu prediktor biner yang tidak bervariasi waktu. Jika Anda menyertakan efek tetap untuk ID dan satu untuk prediktor biner, Anda pasti dapat memperkirakan koefisien pada prediktor biner (meskipun, saya akui, jika Anda tidak memiliki banyak pengukuran berulang, estimasi tersebut memiliki kesalahan standar besar).
Makro
3
Andrew Gelman (yang bukan ekonom), mendaftar 5 definisi berbeda dalam makalah ANOVA-nya: stat.columbia.edu/~gelman/research/published/banova7.pdf .
Dimitriy V. Masterov
2

Dalam paket perangkat lunak standar (misalnya R lmer), perbedaan dasarnya adalah:

  • efek tetap diperkirakan dengan kemungkinan maksimum (kuadrat terkecil untuk model linier)
  • efek acak diperkirakan oleh Bayes empiris (kuadrat terkecil dengan beberapa susut untuk model linier, di mana parameter susut dipilih oleh kemungkinan maksimum)

Jika Anda menjadi Bayesian (mis. WinBUGS), maka tidak ada perbedaan nyata.

Simon Byrne
sumber
3
Saya sangat tidak setuju tentang tidak ada perbedaan. Anda dapat memasukkan model efek bayesian dengan semua koefisien memiliki prior terpisah atau model campuran bayesian di mana terdapat hiperparameter.
Erik
Jika Anda menjadi Bayesian perbedaannya terlihat seperti ini .
conjugateprior
@Simon itu adalah jawaban yang akurat dan renyah. Saya seharusnya menyebutkannya lama kembali.
Subhash C. Davar
-3

@ Lelucon Model efek tetap menyiratkan bahwa efek-ukuran yang dihasilkan oleh penelitian (atau percobaan) adalah tetap yaitu pengukuran berulang untuk intervensi ternyata efek-ukuran yang sama. Mungkin, kondisi eksternal dan internal untuk percobaan tidak berubah. Jika Anda memiliki sejumlah percobaan dan atau studi di bawah kondisi yang berbeda, Anda akan memiliki ukuran efek yang berbeda. Estimasi parametrik rata-rata dan varians untuk satu set efek-ukuran dapat diwujudkan dengan baik dengan menganggap bahwa ini adalah efek-tetap atau ini adalah efek-acak (diwujudkan dari populasi super). Saya pikir itu adalah masalah yang dapat diselesaikan dengan bantuan statistik matematika.

Subhash C. Davar
sumber