Mengapa kemungkinan maksimum yang dibatasi menghasilkan estimasi varians yang lebih baik (tidak bias)?

11

Saya sedang membaca makalah teori Doug Bates pada paket lme4 R untuk lebih memahami seluk beluk model campuran, dan menemukan hasil yang menarik yang ingin saya pahami lebih baik, tentang menggunakan kemungkinan maksimum terbatas (REML) untuk memperkirakan varian. .

Dalam bagian 3.3 pada kriteria REML, ia menyatakan bahwa penggunaan REML dalam estimasi varians terkait erat dengan penggunaan koreksi derajat kebebasan ketika memperkirakan varians dari penyimpangan residual dalam model linier yang sesuai. Secara khusus, "meskipun biasanya tidak diturunkan dengan cara ini", derajat koreksi kebebasan dapat diturunkan dengan memperkirakan varians melalui optimalisasi "kriteria REML" (Persamaan (28)). Kriteria REML pada dasarnya hanyalah kemungkinan, tetapi parameter kecocokan linier telah dihilangkan dengan memarginalkan (alih-alih menetapkannya sama dengan estimasi kecocokan, yang akan memberikan varians sampel yang bias).

Saya melakukan matematika dan memverifikasi hasil yang diklaim untuk model linier sederhana dengan hanya efek tetap. Yang saya perjuangkan adalah interpretasinya. Apakah ada beberapa perspektif dari mana wajar untuk mendapatkan estimasi varians dengan mengoptimalkan kemungkinan di mana parameter fit telah dipinggirkan? Rasanya seperti Bayesian, seolah-olah saya memikirkan kemungkinan sebagai posterior dan meminggirkan parameter kecocokan seolah-olah mereka adalah variabel acak.

Atau apakah pembenarannya terutama hanya matematis - ia bekerja dalam kasus linear tetapi juga dapat digeneralisasikan?

Paul
sumber

Jawaban:

4

Bias dalam varians berasal dari fakta bahwa rata-rata telah diperkirakan dari data dan oleh karena itu 'penyebaran data di sekitar perkiraan rata-rata ini' (yaitu varians) lebih kecil daripada penyebaran data di sekitar rata-rata 'benar' . Lihat juga: Penjelasan intuitif untuk membagi dengan saat menghitung standar deviasi?n1

Oleh karena itu, efek tetap menentukan model 'untuk rata-rata', jika Anda dapat menemukan estimasi varians yang diturunkan tanpa memperkirakan rata-rata dari data (dengan 'memarginalkan efek tetap (yaitu rata-rata)') maka perkiraan yang terlalu rendah dari penyebaran (yaitu varians) akan dimitigasi.

Ini adalah pemahaman 'intuitif' mengapa estimasi REML menghilangkan bias; Anda menemukan perkiraan untuk varians tanpa menggunakan 'perkiraan rata-rata'.

Komunitas
sumber
1

Lihat LAMPIRAN: METODE ESTIMASI REML dari dalam sumber terkait SAS ini dari penulis David Dickey.

" Kami selalu dapat menemukan (n-1) angka Z dengan rata-rata 0 yang diketahui dan jumlah kuadrat yang sama serta varians teoretis dengan nilai n Y. Ini memotivasi pembagian jumlah Z kuadrat dengan jumlah Zs, yaitu n -1. "

Ketika saya masih di sekolah pascasarjana, REML dibuat menjadi yang terbaik sejak memotong roti. Dari mempelajari paket lme4 , saya belajar bahwa itu tidak benar-benar menyamaratakan dengan baik dan mungkin itu tidak begitu penting dalam skema besar hal.

Ben Ogorek
sumber
Mungkin tidak ... sedikit matematika dan statistik yang menarik.
Paul
Saya setuju dengan Paul. Saya pikir REML adalah contoh yang bagus dari penyelesaian masalah yang elegan dan kreatif dalam Statistik. Sudah pasti digunakan dalam praktik, dan mungkin hanya itu yang dapat Anda harapkan dalam penelitian statistik.
Ben Ogorek