Saya memiliki masalah dalam merangkul manfaat pemberian label faktor model secara acak karena beberapa alasan. Bagi saya sepertinya dalam hampir semua kasus solusi optimal adalah memperlakukan semua faktor sebagai tetap.
Pertama, perbedaan fixed vs random cukup arbitrer. Penjelasan standar adalah bahwa, jika seseorang tertarik pada unit eksperimen tertentu, maka ia harus menggunakan efek tetap, dan, jika seseorang tertarik pada populasi yang diwakili oleh unit eksperimental, ia harus menggunakan efek acak. Ini tidak banyak membantu karena ini menyiratkan seseorang dapat berganti-ganti antara pandangan tetap dan acak bahkan jika data dan desain eksperimental tetap sama. Juga, definisi ini mempromosikan ilusi bahwa, jika suatu faktor diberi label sebagai acak, kesimpulan yang diambil dari model itu entah bagaimana lebih dapat diterapkan pada populasi daripada jika faktor tersebut diberi label sebagai tetap. Akhirnya, Gelman menunjukkan bahwa perbedaan tetap-acak membingungkan bahkan pada tingkat definisi karena ada empat definisi lagi tentang apa efek tetap dan acak.
Kedua, estimasi model campuran cukup rumit. Berbeda dengan model "murni diperbaiki", ada lebih dari beberapa cara untuk mendapatkan nilai-p. Prof. Bates yang menerapkan estimasi REML dalam paket lme4 dalam R bahkan menolak untuk melaporkan nilai-p sama sekali. .
Ketiga, ada masalah keruh tentang berapa banyak parameter implisit yang diperkenalkan oleh faktor acak. Contoh berikut adalah adaptasi saya tentang hal itu di Burnham & Anderson, Pemilihan Model dan Inferensi Multi-Model: Suatu Pendekatan Informasi-Teori Praktis . Dari perspektif pengorbanan bias-varians, peran efek acak dapat diilustrasikan sebagai berikut. Pertimbangkan ANOVA satu arah dengan perawatan dan efek faktor utama, yang yang diduga. Istilah kesalahan memiliki distribusi . Jika jumlah pengamatan tetap, tradeoff bias-varians akan memburuk saat naik. Misalkan kita mengatakan bahwaK K - 1 N ( 0 , σ 2 ) K Kefek utama diambil dari distribusi . Model yang sesuai akan memiliki kompleksitas yang berada di antara versi tetap (overfitted) dan model underfitted yang berisi intersep saja. Jumlah parameter efektif dalam model tetap adalah
Jumlah parameter efektif dalam model acak setidaknya tiga: . Selain itu, model acak memiliki sejumlah parameter "tersembunyi" tersirat oleh pembatasan distribusi (normal dalam kasus ini) yang dikenakan pada efek utama.
Secara khusus, jika ada faktor dengan dua level, tidak masuk akal untuk menyebutnya acak, bahkan jika kita tahu pasti bahwa levelnya telah diambil secara acak dari beberapa populasi. Itu karena versi efek tetap memiliki tiga parameter, dan versi efek acak memiliki lebih dari tiga parameter. Dalam hal ini, model acak ternyata memiliki lebih banyak kompleksitas daripada versi tetap. Rupanya, beralih dari versi tetap ke acak lebih membumi untuk lebih besar. Namun, jumlah parameter "tersembunyi" dalam model acak tidak diketahui, sehingga tidak mungkin untuk membandingkan versi tetap dan acak berdasarkan kriteria informasi seperti AIC. Oleh karena itu, sementara contoh ini menerangi kontribusi efek acak (kemungkinan tradeoff varians yang lebih baik), itu juga menunjukkan bahwa sulit untuk mengatakan kapan dibenarkan untuk menandai kembali faktor dari tetap menjadi acak.
Tak satu pun dari masalah di atas hadir dalam model "murni diperbaiki". Karena itu, saya bersedia bertanya:
Adakah yang bisa memberikan contoh ketika sesuatu yang sangat buruk terjadi ketika faktor acak digunakan seolah-olah itu diperbaiki? Saya percaya harus ada beberapa studi simulasi yang membahas masalah ini secara eksplisit.
Apakah ada metode kuantitatif yang terbukti untuk memutuskan kapan masuk akal untuk beralih dari label tetap ke acak?
Jawaban:
1. Sebuah contoh terkenal dalam psikologi dan linguistik dijelaskan oleh Herb Clark (1973; mengikuti Coleman, 1964): "Kekeliruan bahasa sebagai efek tetap: Kritik statistik bahasa dalam penelitian psikologis."
Clark adalah seorang psikolog yang membahas eksperimen psikologis di mana sampel subjek penelitian membuat tanggapan terhadap serangkaian bahan stimulus, umumnya berbagai kata yang diambil dari beberapa corpus. Dia menunjukkan bahwa prosedur statistik standar yang digunakan dalam kasus-kasus ini, berdasarkan ANOVA tindakan berulang, dan disebut oleh Clark sebagai , memperlakukan peserta sebagai faktor acak tetapi (mungkin secara implisit) memperlakukan bahan stimulus (atau "bahasa") sebagai tetap. Hal ini menyebabkan masalah dalam menginterpretasikan hasil tes hipotesis pada faktor kondisi eksperimental: tentu saja kami ingin mengasumsikan bahwa hasil positif memberi tahu kita sesuatu tentang kedua populasi dari mana kami menarik sampel peserta kami serta populasi teoritis dari mana kami menggambar materi bahasa. TapiF1 F1 , dengan memperlakukan peserta secara acak dan rangsangan sebagai tetap, hanya memberi tahu kita tentang pengaruh faktor kondisi di antara peserta serupa lainnya yang menanggapi rangsangan yang sama persis . Melakukan analisis ketika peserta dan rangsangan lebih tepat dipandang sebagai acak dapat menyebabkan tingkat kesalahan Tipe 1 yang secara substansial melebihi tingkat nominal - biasanya 0,05 - dengan tingkat tergantung pada faktor-faktor seperti jumlah dan variabilitas dari rangsangan dan desain percobaan. Dalam kasus-kasus ini, analisis yang lebih tepat, setidaknya di bawah kerangka kerja ANOVA klasik, adalah dengan menggunakan apa yang disebut statistik quasi- berdasarkan rasio kombinasi linear kuadrat rata - rata.F1 α F
Makalah Clark membuat percikan dalam psikolinguistik pada saat itu, tetapi gagal membuat penyok besar dalam literatur psikologis yang lebih luas. (Dan bahkan dalam psikolinguistik nasihat Clark menjadi agak terdistorsi selama bertahun-tahun, seperti yang didokumentasikan oleh Raaijmakers, Schrijnemakers, & Gremmen, 1999). Tetapi dalam beberapa tahun terakhir masalah ini telah melihat sesuatu yang membangkitkan kembali, sebagian besar karena kemajuan statistik dalam model efek campuran, di mana model campuran klasik ANOVA dapat dilihat sebagai kasus khusus. Beberapa makalah baru-baru ini termasuk Baayen, Davidson, & Bates (2008), Murayama, Sakaki, Yan, & Smith (2014), dan ( ahem ) Judd, Westfall, & Kenny (2012). Saya yakin ada beberapa yang saya lupa.
2. Tidak tepat. Ada yang metode mendapatkan apakah faktor lebih baik dimasukkan sebagai efek acak atau tidak dalam model sama sekali (lihat misalnya, Pinheiro & Bates, 2000, hlm 83-87;. Namun melihat Barr, Levy, Scheepers, & Tily, 2013). Dan tentu saja ada teknik perbandingan model klasik untuk menentukan apakah suatu faktor lebih baik dimasukkan sebagai efek tetap atau tidak sama sekali (yaitu,uji-). Tetapi saya berpikir bahwa menentukan apakah suatu faktor lebih baik dianggap sebagai tetap atau acak umumnya lebih baik dibiarkan sebagai pertanyaan konseptual, harus dijawab dengan mempertimbangkan desain penelitian dan sifat kesimpulan yang dapat ditarik darinya.F
Salah satu instruktur statistik pascasarjana saya, Gary McClelland, suka mengatakan bahwa mungkin pertanyaan mendasar dari inferensi statistik adalah: "Dibandingkan dengan apa?" Mengikuti Gary, saya pikir kita dapat membingkai pertanyaan konseptual yang saya sebutkan di atas sebagai: Apa kelas referensi dari hasil eksperimen hipotetis yang ingin saya bandingkan dengan hasil pengamatan saya yang sebenarnya? Tetap dalam konteks psikolinguistik, dan mempertimbangkan desain eksperimental di mana kami memiliki sampel Subjek menanggapi sampel Kata-kata yang diklasifikasikan dalam satu dari dua Kondisi (desain khusus yang dibahas panjang lebar oleh Clark, 1973), saya akan fokus pada dua kemungkinan:
Untuk membuat ini benar-benar konkret, di bawah ini adalah beberapa plot dari (di atas) 4 set hasil hipotesis dari 4 percobaan disimulasikan di bawah Model 1; (di bawah) 4 set hasil hipotetis dari 4 percobaan disimulasikan di bawah Model 2. Setiap percobaan melihat hasilnya dalam dua cara: (panel kiri) dikelompokkan berdasarkan Subjek, dengan Subjek Berdasarkan Kondisi berarti diplot dan diikat bersama untuk masing-masing Subjek; (panel kanan) dikelompokkan berdasarkan Kata-kata, dengan plot kotak yang merangkum distribusi tanggapan untuk setiap kata. Semua percobaan melibatkan 10 Subjek yang menanggapi 10 Kata, dan dalam semua percobaan "hipotesis nol" tanpa perbedaan kondisi adalah benar dalam populasi yang relevan.
Subjek dan Kata keduanya acak: 4 percobaan disimulasikan
Perhatikan di sini bahwa dalam setiap percobaan, profil respons untuk Subjek dan Kata-kata sangat berbeda. Untuk Subjek, kami terkadang mendapatkan responden keseluruhan rendah, terkadang responden tinggi, kadang-kadang Subjek yang cenderung menunjukkan perbedaan Kondisi yang besar, dan kadang-kadang Subjek yang cenderung menunjukkan perbedaan Kondisi kecil. Demikian pula, untuk Kata-kata, kita terkadang mendapatkan Kata-kata yang cenderung mendapat respons rendah, dan terkadang mendapatkan Kata-kata yang cenderung mendapat respons tinggi.
Subjek acak, Kata-kata tetap: 4 percobaan disimulasikan
Perhatikan di sini bahwa di seluruh 4 percobaan simulasi, Subjek terlihat berbeda setiap saat, tetapi profil respons untuk Kata-kata pada dasarnya terlihat sama, konsisten dengan asumsi bahwa kami menggunakan kembali rangkaian Kata yang sama untuk setiap percobaan dalam model ini.
Pilihan kami apakah kami menganggap Model 1 (Subjek dan Kata-kata acak) atau Model 2 (Subjek acak, Kata-kata tetap) memberikan kelas referensi yang sesuai untuk hasil eksperimen yang kami amati dapat membuat perbedaan besar pada penilaian kami apakah manipulasi kondisi "bekerja." Kami mengharapkan lebih banyak variasi peluang dalam data di bawah Model 1 daripada di bawah Model 2, karena ada lebih banyak "komponen bergerak". Jadi jika kesimpulan yang ingin kita tarik lebih konsisten dengan asumsi Model 1, di mana variabilitas peluang relatif lebih tinggi, tetapi kami menganalisis data kami di bawah asumsi Model 2, di mana variabilitas peluang relatif lebih rendah, maka kesalahan Tipe 1 kami tingkat untuk menguji perbedaan Kondisi akan meningkat hingga beberapa (mungkin cukup besar). Untuk informasi lebih lanjut, lihat Referensi di bawah ini.
Referensi
Baayen, RH, Davidson, DJ, & Bates, DM (2008). Pemodelan efek campuran dengan efek acak silang untuk subjek dan item. Jurnal memori dan bahasa, 59 (4), 390-412. PDF
Barr, DJ, Levy, R., Scheepers, C., & Tily, HJ (2013). Struktur efek acak untuk pengujian hipotesis konfirmasi: Jaga agar tetap maksimal. Jurnal Memori dan Bahasa, 68 (3), 255-278. PDF
Clark, HH (1973). Kekeliruan sebagai efek tetap: Kritik terhadap statistik bahasa dalam penelitian psikologis. Jurnal pembelajaran verbal dan perilaku verbal, 12 (4), 335-359. PDF
Coleman, EB (1964). Generalisasi ke populasi bahasa. Laporan Psikologis, 14 (1), 219-226.
Judd, CM, Westfall, J., & Kenny, DA (2012). Memperlakukan rangsangan sebagai faktor acak dalam psikologi sosial: solusi baru dan komprehensif untuk masalah yang meluas tetapi sebagian besar diabaikan. Jurnal kepribadian dan psikologi sosial, 103 (1), 54. PDF
Murayama, K., Sakaki, M., Yan, VX, & Smith, GM (2014). Inflasi Kesalahan Tipe I dalam Analisis Tradisional Oleh-Peserta ke Akurasi Metamem: Sebuah Perspektif Model Efek Campuran Umum. Jurnal Psikologi Eksperimental: Belajar, Memori, dan Kognisi. PDF
Pinheiro, JC, & Bates, DM (2000). Model efek campuran di S dan S-PLUS. Peloncat.
Raaijmakers, JG, Schrijnemakers, J., & Gremmen, F. (1999). Cara menangani "kekeliruan bahasa sebagai efek tetap": Kesalahpahaman umum dan solusi alternatif. Jurnal Memori dan Bahasa, 41 (3), 416-426. PDF
sumber
Misalkan saya memiliki proses pembuatan yang melibatkan pembuatan bahan pada beberapa mesin yang berbeda. Mereka satu-satunya mesin yang saya miliki sehingga "mesin" adalah efek tetap. Tetapi saya membuat banyak materi di setiap mesin dan saya tertarik untuk memprediksi hal-hal tentang lot di masa depan. Saya akan menjadikan "Jumlah lot" sebagai faktor acak karena saya tertarik dengan hasil yang akan saya dapatkan untuk lot di masa mendatang .
sumber
Jadi Anda memperlakukannya secara acak sehingga ada efek rata-rata antara rata-rata keseluruhan dan rata-rata untuk faktor tertentu berdasarkan ukuran sampel faktor dan jumlah keseluruhan pengamatan. Ini memungkinkan Anda untuk mengatakan bahwa hasil Anda berlaku untuk populasi pada umumnya, karena Anda memiliki jenis rata-rata tertimbang dan perkiraan variasi karena faktor itu, jika tidak, Anda benar-benar hanya bisa mengatakan bahwa hasil Anda berlaku untuk tingkat faktor. Anda menggunakan karena regresi akan memperlakukan mereka sebagai faktor diskrit dan bukan faktor acak yang mendapatkan rata-rata tertimbang.
Mereka juga berguna ketika Anda telah mengulangi tindakan pada subjek yang sama, karena Anda dapat menggunakannya untuk menjelaskan korelasi antara tindakan pada subjek yang sama.
sumber
(Jawaban Asli)
Satu tempat di mana Anda pada dasarnya diminta untuk menggunakan efek acak adalah ketika Anda ingin memasukkan parameter yang tidak berubah pada tingkat pengelompokan efek tetap.
Misalnya, Anda ingin menyelidiki dampak karakteristik dokter (misalnya / pendidikan) pada hasil pasien. Dataset adalah tingkat pasien dengan hasil pasien yang diamati dan karakteristik pasien / dokter. Karena pasien yang dirawat di bawah satu dokter kemungkinan berkorelasi, Anda ingin mengendalikannya. Anda dapat memasukkan efek tetap dokter di sini, tetapi dengan melakukannya, Anda tidak menyertakan karakteristik dokter apa pun dalam model. Yang bermasalah jika minatnya adalah karakteristik tingkat dokter.
sumber
Saya pikir ini terkait dengan konsistensi estimasi.
Neyman dan Scott (1948) menunjukkan masalah konsistensi
konsisten. Setidaknya, itulah yang saya mengerti ...
sumber