Mengapa bootstrap residu dari model efek campuran menghasilkan interval kepercayaan anti-konservatif?

11

Saya biasanya menangani data di mana beberapa individu masing-masing diukur beberapa kali dalam masing-masing 2 atau lebih kondisi. Saya baru-baru ini bermain dengan pemodelan efek campuran untuk mengevaluasi bukti perbedaan antara kondisi, pemodelan individualsebagai efek acak. Untuk memvisualisasikan ketidakpastian mengenai prediksi dari pemodelan seperti itu, saya telah menggunakan bootstrap, di mana pada setiap iterasi dari bootstrap baik individu dan pengamatan-dalam-kondisi-dalam-individu disampel dengan penggantian dan model efek campuran baru dihitung dari mana prediksi diperoleh. Ini berfungsi baik untuk data yang mengasumsikan kesalahan gaussian, tetapi ketika data bersifat binomial, bootstrap dapat memakan waktu yang sangat lama karena setiap iterasi harus menghitung model efek campuran binomial intensif yang relatif dapat dihitung.

Sebuah pemikiran yang saya miliki adalah bahwa saya mungkin dapat menggunakan residu dari model asli kemudian menggunakan residu ini alih-alih data mentah dalam bootstrap, yang akan memungkinkan saya untuk menghitung model efek campuran gaussian pada setiap iterasi bootstrap. Menambahkan prediksi asli dari model binomial data mentah ke prediksi bootstrap dari residu menghasilkan 95% CI untuk prediksi asli.

Namun, saya baru-baru ini mengkodekan evaluasi sederhana dari pendekatan ini, memodelkan tidak ada perbedaan antara dua kondisi dan menghitung proporsi kali interval kepercayaan 95% gagal untuk memasukkan nol, dan saya menemukan bahwa prosedur bootstrap berbasis residu di atas menghasilkan anti-anti yang sangat kuat. interval konservatif (mereka mengecualikan nol lebih dari 5% dari waktu). Lebih lanjut, saya kemudian memberi kode (tautan yang sama seperti sebelumnya) evaluasi yang serupa dari pendekatan ini sebagaimana diterapkan pada data yang awalnya gaussian, dan diperoleh juga CI anti-konservatif yang serupa (walaupun tidak ekstrem). Adakah yang tahu mengapa ini terjadi?

Mike Lawrence
sumber
hm, saya hanya memperhatikan bahwa dalam kode penghasil data untuk kedua kasus saya tidak benar-benar menambahkan variabilitas antar-individu yang biasanya tertarik untuk dihilangkan dengan memodelkan individu sebagai efek acak. Saya akan melihat apakah menambahkan variabilitas ini mengubah hasilnya; kembali dalam beberapa jam ...
Mike Lawrence
Jika saya ingat dengan benar, bootstrap membuat perkiraan lebih dekat dengan perkiraan populasi sebenarnya. Itu tidak mengatakan apa-apa tentang interval kepercayaan. (lih. Kesar Singh, Tentang akurasi asimptotik dari bootstrap Efron. Ann. Statist., 1981, 9, 1187-1195)
suncoolsu
@ saya: Saya dapat mengonfirmasi bahwa penambahan variabilitas antar individu dalam fungsi pembuatan data tidak meningkatkan kinerja bootstrap. Saya telah mengunggah kode yang saya gunakan untuk mengonfirmasi ini ke intisari yang tertaut di pos asli.
Mike Lawrence
@suncoolsu: Saya cukup yakin bahwa interval kepercayaan bootstrap telah menjadi standar untuk beberapa waktu. Efron menyebutkannya dalam makalahnya tahun 1978 yang menjelaskan prosedur bootstrap secara umum, kemudian ia memiliki banyak makalah di tahun 80-an dan 90-an tentang penyesuaian prosedur bootstrap untuk interval kepercayaan yang lebih akurat (koreksi bias, percepatan, siswa, dll).
Mike Lawrence
1
Sudahkah Anda membaca makalah berikut oleh Morris: "BLUP bukan yang terbaik dalam hal bootstrap". Ini mungkin berhubungan dengan pekerjaan Anda. link
julieth

Jawaban:

7

Ingat semua interval kepercayaan bootstrap hanya asimptotik pada tingkat kepercayaan yang dinyatakan. Ada juga banyak metode yang mungkin untuk memilih interval kepercayaan bootstrap. Metode persentil Efron, metode persentil Hall, double bootstrap, t bootstrap, bootstrap miring, BC, BCa dan mungkin beberapa lagi. Anda belum memberi tahu kami metode apa yang Anda gunakan. Makalah Schenker di JASA 1985 menunjukkan bahwa untuk distribusi chi square tertentu interval kepercayaan bootstrap BC menyamarkan persentase yang diiklankan. Dalam masalah ukuran sampel kecil masalah ini bisa parah. LaBudde dan saya memiliki dua makalah yang menunjukkan bagaimana dalam sampel kecil bahkan BCa dapat memiliki cakupan yang sangat buruk ketika memperkirakan varians dari distribusi lognormal dan ada masalah serupa untuk menguji kesetaraan dua varian. Ini hanya untuk masalah sederhana. Saya berharap hal yang sama dapat terjadi dengan residu dari model campuran. Dalam buku baru kami "Pengantar Metode Bootstrap dengan Aplikasi ke R" yang diterbitkan oleh Wiley pada 2011 kami membahas topik ini di Bagian 3.7 dan memberikan referensi. Yang mengejutkan adalah bahwa metode persentil kadang-kadang lebih baik daripada metode BCa akurat urutan tinggi, ketika ukuran sampel kecil.

Michael R. Chernick
sumber