Saya prihatin dengan masalah yang ingin saya bootstrap nilai-p untuk estimasi dari data multiply imputed (MI), tetapi tidak jelas bagi saya bagaimana menggabungkan nilai-p di seluruh set MI.
Untuk set data MI, pendekatan standar untuk mendapatkan total varian estimasi menggunakan aturan Rubin. Lihat di sini untuk ulasan tentang kumpulan data MI gabungan. Akar kuadrat dari total varian berfungsi sebagai estimasi kesalahan standar dari . Namun, untuk beberapa penduga varians total tidak memiliki bentuk tertutup yang diketahui atau distribusi sampling tidak normal. Statistik mungkin tidak akan didistribusikan-t, bahkan tanpa asimptotik.θ / s e ( θ )
Oleh karena itu, dalam kasus data lengkap, satu opsi alternatif adalah mem-bootstrap statistik untuk menemukan varians, nilai-p dan interval kepercayaan, bahkan jika distribusi sampel tidak normal dan bentuk tertutupnya tidak diketahui. Dalam kasus MI maka ada dua opsi:
- Pool varians bootstrap di set data MI
- Gabungkan batas-p atau batas kepercayaan di seluruh set data MI
Opsi pertama sekali lagi akan menggunakan aturan Rubin. Namun, saya percaya ini bermasalah, jika memiliki distribusi pengambilan sampel yang tidak normal. Dalam situasi ini (atau lebih umum, dalam semua situasi) nilai p bootstrap dapat digunakan secara langsung. Namun, dalam kasus MI, ini akan mengarah pada beberapa nilai p atau interval kepercayaan, yang perlu dikumpulkan di set data MI.
Jadi pertanyaan saya adalah: bagaimana saya harus menggabungkan beberapa nilai-p yang di-bootstrapped (atau interval kepercayaan) di seluruh set data yang diperhitungkan?
Saya akan menerima saran tentang bagaimana melanjutkan, terima kasih.
Jawaban:
Saya pikir kedua opsi menghasilkan jawaban yang benar. Secara umum, saya lebih suka metode 1 karena mempertahankan seluruh distribusi.
Untuk metode 1, bootstrap parameter kali dalam masing-masing solusi MI. Kemudian cukup campurkan distribusi bootstrapped untuk mendapatkan kepadatan akhir Anda, sekarang terdiri dari sampel yang mencakup variasi antara-imputasi. Kemudian perlakukan itu sebagai sampel bootstrap konvensional untuk mendapatkan interval kepercayaan. Gunakan bootstrap Bayesian untuk sampel kecil. Saya tahu tidak ada pekerjaan simulasi yang menyelidiki prosedur ini, dan ini sebenarnya masalah terbuka untuk diselidiki.m m k × mk m m k × m
Untuk metode 2, gunakan prosedur Licht-Rubin. Lihat Bagaimana mendapatkan nilai-p yang dikumpulkan pada tes yang dilakukan dalam beberapa dataset imputed?
sumber
Ini bukan literatur yang saya kenal, tetapi salah satu cara untuk mendekati ini mungkin dengan mengabaikan fakta bahwa ini adalah nilai-p yang di-bootstrap, dan melihat literatur tentang menggabungkan nilai-p di seluruh set data yang berlipat ganda.
Dalam hal itu, Li, Meng, Raghunathan, dan Rubin (1991) berlaku. Prosedur ini didasarkan pada statistik dari masing-masing dataset yang diimputasi, ditimbang menggunakan ukuran kehilangan informasi karena imputasi. Mereka mengalami masalah yang berkaitan dengan distribusi bersama statistik di seluruh imputasi, dan mereka membuat beberapa asumsi yang disederhanakan.
Yang menarik adalah Meng (1994) .
Memperbarui
Prosedur untuk menggabungkan nilai-p di seluruh dataset yang dilipatgandakan dijelaskan dalam disertasi Christine Licht, Ch. 4 . Idenya, yang dia atributkan kepada Don Rubin, pada dasarnya adalah untuk mengubah nilai-p yang akan didistribusikan secara normal, yang kemudian dapat digabungkan di seluruh dataset MI menggunakan aturan standar untuk kombinasi z-statistik.
sumber