Bagaimana cara kerja imputasi tikus?

9

Saya bertanya-tanya apakah ada yang punya pengalaman menggunakan fungsi mouse, seperti yang dijelaskan dalam mouse: Imputasi Multivarian oleh Chained Equations di R (JSS 2011 45 (3))? Saya memiliki dataset dengan sejumlah variabel, masing-masing dengan berbagai tingkat data yang hilang.

Pertanyaan utama saya adalah: katakanlah saya menggunakan regresi linier Bayesian untuk menyalahkan data yang hilang, apakah micesecara otomatis menggunakan variabel prediktor dari yang paling signifikan ke yang paling tidak signifikan untuk menyalahkan? Juga, apakah mungkin untuk rata-rata semua dataset yang diimputasi?

mjburns
sumber
Halo semua. Lebih jauh dari ini: Saya telah berhasil menggunakan fungsi mouse. Saya punya pertanyaan lain. Katakan misalnya fungsi membuat 5 dataset lengkap (X1, X2 ... X5). Saya menerapkan fungsi (x) pada setiap dataset dan mengembalikan Y1, Y2 ... Y5. Apakah Anda pikir akan baik-baik saja untuk melaporkan kisaran Ymin ke Ymax? Atau mungkin rata-rata Y1 ke Y5? Adakah yang memiliki pemikiran tentang masalah ini? Terima kasih.
mjburns

Jawaban:

8

Secara default, mouse akan menggunakan semua variabel dalam dataset Anda untuk memprediksi yang lainnya.

Adapun rata-rata, Anda perlu melakukan ini setelah menghitung statistik Anda, bukan sebelumnya. Misalnya, jika Anda ingin melakukan regresi linier, Anda akan melakukan sesuatu seperti ini:

library(mice)
mi <- mice(dataset)
mi.reg <- with(data=mi,exp=glm(y~x+z))
mi.reg.pool <- pool(mi.reg)
summary(mi.reg.pool)

Fungsi ringkasan akan menunjukkan kepada Anda koefisien rata-rata.

Dominic Comtois
sumber
Terima kasih untuk itu - apakah Anda mengatakan bahwa saya seharusnya hanya rata-rata setelah saya memeriksa bahwa statistik "OK"? Juga - dataset saya memiliki 6 variabel di dalamnya. Bagaimana cara menganalisis statistik menggunakan regresi linier? Apakah saya harus memeriksa setiap variabel secara terpisah? Misalnya, lm (x1 ~ x2 + x3 + x4 + x5 ....)
mjburns
Anda harus merujuk pada verifikasi asumsi? Hal yang paling penting untuk diperiksa adalah residu model Anda (termasuk semua prediktor). Saya mungkin akan berpegang pada analisis kasus lengkap untuk melakukan itu (sebelum imputasi ganda), tetapi Anda mungkin ingin meminta saran dari ahli statistik yang berpengalaman (yang saya tidak).
Dominic Comtois
1
@ mjburns: Dalam contoh dominic999, rata-rata adalah dari koefisien yang dihasilkan dari pemasangan model linier yang sama untuk masing-masing beberapa versi dari dataset berlipat ganda. Saya tidak berpikir itu masuk akal untuk rata-rata dataset sendiri, karena Anda akan kehilangan (mudah-mudahan dibenarkan dan realistis) variabilitas yang menyediakan beberapa imputasi. Statistik ringkasan untuk hasil gabungan (rata-rata) hampir sama dengan untuk model linier reguler (setidaknya dalam hal koefisien itu sendiri) di mana Anda harus melihat pada Pr (> | t |) untuk signifikansi masing-masing.
Wayne
Harap pertimbangkan memilih / menerima jawaban jika itu sesuai dengan tujuan Anda.
Dominic Comtois
Terima kasih dominic999 dan Wayne. Saya sekarang mengerti apa yang terjadi lebih banyak setelah mengikuti petunjuk Anda dan bermain dengan data lebih banyak.
mjburns