Saya memerlukan satu set data imputed (misalnya untuk membuat dummy grup negara dari data pendapatan per kapita negara imputed). R menawarkan paket paket untuk membuat beberapa data imputasi (misalnya Amelia) dan menggabungkan hasil dari beberapa dataset (seperti dalam MItools). Kekhawatiran saya adalah jika saya dapat rata-rata semua data yang dimasukkan untuk mendapatkan satu dataset. Jika demikian, bagaimana saya bisa melakukannya di R?
r
data-imputation
Amirul Islam
sumber
sumber
Jawaban:
Anda tidak dapat meratakan data. Karena variabel akan sama di seluruh data imputasi, Anda harus menambahkan setiap data imputasi. Misalnya, jika Anda memiliki 6 variabel dengan 1000 pengamatan dan frekuensi imputasi Anda adalah 5, maka Anda akan memiliki data akhir 6 variabel dengan 5000 pengamatan. Anda menggunakan
rbind
fungsi untuk menambahkan data dalam R. Misalnya, jika Anda memiliki lima data imputasi (dengan asumsi bahwa Anda sudah memiliki data ini di tangan), data akhir Anda akan diperoleh sebagaiUntuk detailnya, lihat di sini.
Setelah imputasi:
Koefisien regresi dari setiap data yang dimasukkan biasanya akan berbeda; sehingga koefisien diperoleh sebagai rata-rata koefisien dari semua data yang dimasukkan. Tapi, ada aturan tambahan untuk kesalahan standar. Lihat di sini untuk detailnya.
sumber
finaldata <- complete(data, "long")
dalam [tikus] [1] melakukan hal yang sama. Ini juga dapat menghasilkan bentuk lain, misalnya matriks luas atau matriks berulang. [1]: cran.r-project.org/web/packages/mice/index.html "mice"mice
. Saya ingin tahu apakahmice
analisis dilakukan ketika kami hanya memiliki beberapa data yang diperhitungkan (tetapi bukan data asli) dari survei.Model imputasi berganda untuk data yang hilang jarang digunakan dalam praktik karena studi simulasi menunjukkan bahwa kemungkinan parameter mendasar yang sebenarnya berada dalam interval cover tidak selalu digambarkan secara akurat. Saya akan sangat merekomendasikan pengujian proses berdasarkan data yang disimulasikan (dengan parameter yang dikenal tepat), berdasarkan data nyata di bidang investigasi. Referensi studi simulasi https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&MNFMTFP&G=TFMJPIDA&hl=id = d2VORWbqTNygdM6Z51TZEg
Saya menduga mempekerjakan mengatakan lima model sederhana / naif untuk data yang hilang mungkin lebih baik dalam menghasilkan lebih sedikit bias dan mencakup interval yang secara akurat menyertakan parameter mendasar yang sebenarnya. Daripada mengumpulkan perkiraan parmeter, seseorang dapat melakukan lebih baik dengan menggunakan teknik Bayesian (lihat bekerja dengan model imputasi dalam cahaya ini di https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDw&url=http: //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).
Ya, tidak banyak dukungan dering dari model imputasi data yang hilang standar dan mengutip sebuah sumber, misalnya, http://m.circoutcomes.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Kami menjelaskan beberapa latar belakang dari analisis data yang hilang dan mengkritik metode ad hoc yang rentan terhadap masalah serius. Kami kemudian fokus pada beberapa imputasi, di mana kasus yang hilang pertama kali diisi oleh beberapa set nilai yang masuk akal untuk membuat beberapa set data yang lengkap,. .. "di mana saya akan memasukkan" (?) "setelah masuk akal sebagai model naif, untuk satu, umumnya tidak digambarkan sebagai menghasilkan prediksi yang masuk akal. Namun, model yang menggabungkan variabel dependen y, itu sendiri, sebagai variabel independen (disebut regresi kalibrasi) mungkin lebih baik memenuhi karakterisasi ini.
sumber