Saya memiliki satu set data x, y yang saya gunakan untuk membangun hutan acak. Data x adalah vektor nilai yang mencakup beberapa NAS. Jadi saya gunakan rfImpute
untuk menangani data yang hilang dan membuat hutan acak. Sekarang saya memiliki observasi baru x yang tidak terlihat (dengan NA) dan saya ingin memprediksi y. Bagaimana cara menyalahkan nilai yang hilang sehingga saya dapat menggunakan hutan acak yang sudah saya tanam? The rfImpute
Fungsi tampaknya membutuhkan x dan y. Saya hanya punya x untuk keperluan prediksi.
Pertanyaan saya mirip (tetapi berbeda) dengan pertanyaan ini . Dan misalnya, saya bisa menggunakan set data iris yang sama. Jika saya telah benar menafsirkan kode dalam jawaban untuk pertanyaan yang saya referensi, kode iris.na[148, , drop=FALSE]
dalam pernyataan tersebut iris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])
mewakili data baru yang mencakup Species
(nilai Y). Dalam masalah saya, saya tidak akan tahu - Species
Saya ingin menggunakan hutan acak untuk memprediksi itu. Saya akan memiliki 4 variabel independen, tetapi beberapa mungkin NA
untuk baris yang diberikan. Untuk melanjutkan analogi, bayangkan saya memiliki 3 dari 4 variabel (satu hilang). Saya ingin menyalahkan nilai itu. Lalu saya ingin memprediksi spesies yang saya tidak tahu.
Menanggapi komentar gung bahwa saya harus menambahkan ilustrasi, izinkan saya memasukkannya ke dalam set data iris. Bayangkan saya memiliki data bunga. Aku tahu itu Sepal.Length
, Sepal.Width
, Petal.Length
, tapi bukan Petal.Width
. Saya ingin menyalahkan Petal.Width
dan kemudian menggunakan 4 nilai tersebut dalam model RF untuk memprediksi Species
.
sumber
Jawaban:
Saya pikir Anda memerlukan metode imputasi yang tidak diawasi. Itu adalah salah satu yang tidak menggunakan nilai target untuk imputasi. Jika Anda hanya memiliki beberapa vektor fitur prediksi, mungkin sulit untuk mengungkap struktur data. Alih-alih, Anda bisa mencampur prediksi Anda dengan vektor fitur pelatihan yang sudah diperhitungkan dan menggunakan struktur ini untuk menyalahkan sekali lagi. Perhatikan prosedur ini dapat melanggar asumsi independensi, oleh karena itu bungkus seluruh prosedur dalam validasi silang luar untuk memeriksa overfitting yang serius.
Saya baru belajar tentang missForest dari komentar untuk pertanyaan ini . missForest tampaknya melakukan triknya. Saya mensimulasikan masalah Anda pada data iris. (tanpa validasi silang luar)
sumber