Pertanyaan yang diberi tag data-imputation

Mengacu pada kelas umum metode yang digunakan untuk "mengisi" data yang hilang. Metode yang digunakan untuk melakukan ini biasanya terkait dengan interpolasi (http://en.wikipedia.org/wiki/Interpolation) dan memerlukan asumsi tentang mengapa data hilang (misalnya "hilang secara acak")

78
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

26
R caret dan NAs

Saya sangat suka caret karena kemampuan penyetelan parameter dan antarmuka yang seragam, tetapi saya telah mengamati bahwa selalu membutuhkan set data lengkap (yaitu tanpa NAS) bahkan jika model "telanjang" yang diterapkan memungkinkan NAs. Itu sangat merepotkan, mengingat seseorang harus...

23
Imputasi nilai yang hilang untuk PCA

Saya menggunakan prcomp()fungsi untuk melakukan PCA (analisis komponen utama) di R. Namun, ada bug di fungsi itu sehingga na.actionparameter tidak berfungsi. Saya meminta bantuan pada stackoverflow ; dua pengguna di sana menawarkan dua cara berbeda dalam menangani NAnilai. Namun, masalah dengan...

14
Paket R KNutasi imputasi

Saya mencari paket imputasi KNN. Saya telah melihat paket imputasi ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) tetapi untuk beberapa alasan fungsi impute KNN (bahkan ketika mengikuti contoh dari deskripsi) hanya tampak untuk memasukkan nilai nol (sesuai di bawah ini). Saya...

12
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE),...

9
Imputasi variabel yang disensor

Saya memiliki dataset medis dengan sekitar 200 variabel. Salah satu variabel adalah penanda-bio (konsentrasi enzim tertentu). Distribusinya condong ke kanan, dan masalahnya adalah bahwa nilai di atas level tertentu disensor / terputus pada level itu. Jadi, sementara rata-rata variabel sekitar 10,...

9
Bagaimana cara kerja imputasi tikus?

Saya bertanya-tanya apakah ada yang punya pengalaman menggunakan fungsi mouse, seperti yang dijelaskan dalam mouse: Imputasi Multivarian oleh Chained Equations di R (JSS 2011 45 (3))? Saya memiliki dataset dengan sejumlah variabel, masing-masing dengan berbagai tingkat data yang hilang. Pertanyaan...