Bagaimana saya bisa menyatukan nilai-p bootstrap di seluruh set data yang dilipatgandakan?

12

Saya prihatin dengan masalah yang ingin saya bootstrap nilai-p untuk estimasi dari data multiply imputed (MI), tetapi tidak jelas bagi saya bagaimana menggabungkan nilai-p di seluruh set MI.θ

Untuk set data MI, pendekatan standar untuk mendapatkan total varian estimasi menggunakan aturan Rubin. Lihat di sini untuk ulasan tentang kumpulan data MI gabungan. Akar kuadrat dari total varian berfungsi sebagai estimasi kesalahan standar dari . Namun, untuk beberapa penduga varians total tidak memiliki bentuk tertutup yang diketahui atau distribusi sampling tidak normal. Statistik mungkin tidak akan didistribusikan-t, bahkan tanpa asimptotik.θ / s e ( θ )θθ/se(θ)

Oleh karena itu, dalam kasus data lengkap, satu opsi alternatif adalah mem-bootstrap statistik untuk menemukan varians, nilai-p dan interval kepercayaan, bahkan jika distribusi sampel tidak normal dan bentuk tertutupnya tidak diketahui. Dalam kasus MI maka ada dua opsi:

  • Pool varians bootstrap di set data MI
  • Gabungkan batas-p atau batas kepercayaan di seluruh set data MI

Opsi pertama sekali lagi akan menggunakan aturan Rubin. Namun, saya percaya ini bermasalah, jika memiliki distribusi pengambilan sampel yang tidak normal. Dalam situasi ini (atau lebih umum, dalam semua situasi) nilai p bootstrap dapat digunakan secara langsung. Namun, dalam kasus MI, ini akan mengarah pada beberapa nilai p atau interval kepercayaan, yang perlu dikumpulkan di set data MI.θ

Jadi pertanyaan saya adalah: bagaimana saya harus menggabungkan beberapa nilai-p yang di-bootstrapped (atau interval kepercayaan) di seluruh set data yang diperhitungkan?

Saya akan menerima saran tentang bagaimana melanjutkan, terima kasih.

Tomka
sumber
Mungkin membantu: Data Yang Hilang, Imputasi, dan Bootstrap (Efron 1992) statistik.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly
@DLDahly Hmm, saya tidak terbiasa dengan kertas itu, tetapi idenya tampaknya bootstrap pertama , dan kemudian melakukan beberapa imputasi. OP tampaknya merupakan estimasi bootstrap dari dataset MI.
tchakravarty
@ fgnu Memang, prosedur standar untuk mendapatkan total varians dari estimasi dengan bootstrap adalah dengan bootstrap varians dalam setiap dataset MI, dan kemudian menerapkan aturan Rubin untuk menggabungkan varians bootstrap di set data MI.
tomka

Jawaban:

6

Saya pikir kedua opsi menghasilkan jawaban yang benar. Secara umum, saya lebih suka metode 1 karena mempertahankan seluruh distribusi.

Untuk metode 1, bootstrap parameter kali dalam masing-masing solusi MI. Kemudian cukup campurkan distribusi bootstrapped untuk mendapatkan kepadatan akhir Anda, sekarang terdiri dari sampel yang mencakup variasi antara-imputasi. Kemudian perlakukan itu sebagai sampel bootstrap konvensional untuk mendapatkan interval kepercayaan. Gunakan bootstrap Bayesian untuk sampel kecil. Saya tahu tidak ada pekerjaan simulasi yang menyelidiki prosedur ini, dan ini sebenarnya masalah terbuka untuk diselidiki.m m k × mkmmk×m

Untuk metode 2, gunakan prosedur Licht-Rubin. Lihat Bagaimana mendapatkan nilai-p yang dikumpulkan pada tes yang dilakukan dalam beberapa dataset imputed?

Stef van Buuren
sumber
+1 - JIKA tujuannya adalah untuk memahami variabilitas estimasi di seluruh dataset MI, saya akan bootstrap dalam setiap dataset MI dan melihat distribusi total dan spesifik MI dari parameter.
DL Dahly
@ Stef-van-Buuren Tampaknya apa yang disarankan DL Dahly setara dengan menyatukan varians boostrapped di seluruh set MI. Apakah Anda masih lebih suka metode satu Anda (tambahkan semua set data bootstrap) daripada pendekatan 'tidak langsung' ini?
Tomka
@ Tomka. Saya pasti akan melakukan hal yang sama seperti DL Dahly, dan mempelajari distribusi di dalam dan di antara imputasi. Untuk mengintegrasikan kedua jenis distribusi ini, kita perlu menggabungkan keduanya dalam beberapa cara. Saran saya adalah mencampurnya.
Stef van Buuren
6

Ini bukan literatur yang saya kenal, tetapi salah satu cara untuk mendekati ini mungkin dengan mengabaikan fakta bahwa ini adalah nilai-p yang di-bootstrap, dan melihat literatur tentang menggabungkan nilai-p di seluruh set data yang berlipat ganda.

Dalam hal itu, Li, Meng, Raghunathan, dan Rubin (1991) berlaku. Prosedur ini didasarkan pada statistik dari masing-masing dataset yang diimputasi, ditimbang menggunakan ukuran kehilangan informasi karena imputasi. Mereka mengalami masalah yang berkaitan dengan distribusi bersama statistik di seluruh imputasi, dan mereka membuat beberapa asumsi yang disederhanakan.

Yang menarik adalah Meng (1994) .

Memperbarui

Prosedur untuk menggabungkan nilai-p di seluruh dataset yang dilipatgandakan dijelaskan dalam disertasi Christine Licht, Ch. 4 . Idenya, yang dia atributkan kepada Don Rubin, pada dasarnya adalah untuk mengubah nilai-p yang akan didistribusikan secara normal, yang kemudian dapat digabungkan di seluruh dataset MI menggunakan aturan standar untuk kombinasi z-statistik.

tchakravarty
sumber
Jika saya mengerti Li et al. berfungsi dengan benar, ini berlaku untuk statistik yang Anda dapatkan dari setiap set MI. Misalnya, jika Anda mendapatkan Pearson Chi² di setiap set, maka aturan mereka dapat diterapkan untuk menggabungkannya untuk inferensi di seluruh set. Juga tes Wald dapat dilakukan, misalnya. Tetapi dalam kasus bootstrap Anda tidak mendapatkan statistik Anda akan mengumpulkan (tetapi hanya nilai-p). Jadi saya tidak yakin apakah ada sesuatu dalam Li et al. yang dapat diterapkan ke p bootstrap.
tomka
1
@ Tomka Saya telah memperbarui jawaban saya.
tchakravarty