Hampir semua basis data yang ingin kita prediksi menggunakan algoritma pembelajaran mesin akan menemukan nilai yang hilang untuk beberapa karakteristik.
Ada beberapa pendekatan untuk mengatasi masalah ini, untuk mengecualikan garis yang memiliki nilai yang hilang sampai mereka mengisi dengan nilai rata-rata dari karakteristik.
Saya ingin menggunakan pendekatan yang agak lebih kuat, yang pada dasarnya akan menjalankan regresi (atau metode lain) di mana variabel dependen (Y) akan menjadi masing-masing kolom yang memiliki nilai yang hilang tetapi hanya dengan baris tabel yang berisi semua data, dan prediksi nilai-nilai yang hilang dengan metode ini, lengkapi tabel dengan tabel dan pindah ke 'kolom' berikutnya dengan nilai-nilai yang hilang dan ulangi metode sampai semuanya diisi.
Tapi itu memberi saya beberapa keraguan.
Mengapa ada kolom yang dimulai? Saya percaya bahwa yang memiliki nilai hilang terkecil sampai yang paling banyak
Apakah ada ambang nilai yang hilang yang tidak layak untuk diselesaikan? (misalnya, jika karakteristik ini hanya memiliki 10% dari nilai yang diisi tidak akan lebih menarik untuk mengecualikannya)
Apakah ada jenis implementasi dalam paket tradisional atau metode lain yang kuat untuk hilang?
Amelia II
di R adalah pilihan yang solid. Atau Anda bisa menggunakan roll Anda sendiristan
.Jawaban:
Teknik yang Anda gambarkan disebut imputasi dengan regresi berurutan atau imputasi ganda oleh persamaan dirantai. Teknik ini dipelopori oleh Raghunathan (2001) dan diimplementasikan dalam paket R yang berfungsi baik disebut
mice
(van Buuren, 2012).Sebuah makalah oleh Schafer dan Graham (2002) menjelaskan dengan baik mengapa imputasi berarti dan penghapusan listwise (apa yang Anda sebut pengecualian jalur) biasanya bukan alternatif yang baik untuk teknik yang disebutkan di atas. Pada dasarnya rata-rata imputasi tidak bersyarat dan dengan demikian dapat membiaskan distribusi yang diperhitungkan terhadap rata-rata yang diamati. Ini juga akan mengecilkan varians, di antara dampak lain yang tidak diinginkan pada distribusi yang diperhitungkan. Selain itu, penghapusan listwise memang hanya akan berfungsi jika data hilang sepenuhnya secara acak, seperti oleh flip koin. Juga akan meningkatkan kesalahan pengambilan sampel, karena ukuran sampel berkurang.
Para penulis yang dikutip di atas biasanya merekomendasikan dimulai dengan variabel yang menampilkan nilai yang paling sedikit hilang. Juga, teknik ini biasanya diterapkan dengan cara Bayesian (yaitu perpanjangan saran Anda). Variabel dikunjungi lebih sering dalam prosedur imputasi, tidak hanya sekali. Secara khusus, setiap variabel diselesaikan dengan menarik dari distribusi prediktif posterior kondisionalnya, dimulai dengan variabel yang menampilkan nilai yang paling sedikit hilang. Setelah semua variabel dalam set data telah selesai, algoritma kembali dimulai pada variabel pertama dan kemudian mengulangi sampai konvergensi. Para penulis telah menunjukkan bahwa algoritma ini adalah Gibbs, sehingga biasanya konvergen ke distribusi multivariat yang benar dari variabel.
Biasanya, karena ada beberapa asumsi yang tidak dapat diuji yang terlibat, khususnya yang hilang pada data acak (yaitu apakah data diamati atau tidak tergantung pada data yang diamati saja, dan bukan pada nilai yang tidak dilindungi). Juga prosedur dapat sebagian tidak kompatibel, itulah sebabnya mereka disebut PIGS (sebagian Gibbs sampler tidak kompatibel).
Dalam praktiknya, imputasi berganda Bayesian masih merupakan cara yang baik untuk menangani masalah data yang hilang non-monoton multivariat. Juga, ekstensi non-parametrik seperti pencocokan rata-rata prediktif membantu mengendurkan asumsi pemodelan regresi.
Raghunathan, TE, Lepkowski, J., van Hoewyk, J., & Solenberger, P. (2001). Teknik multivariat untuk mengalikan nilai yang hilang dengan menggunakan serangkaian model regresi. Metodologi Survei, 27 (1), 85–95.
Schafer, JL, & Graham, JW (2002). Data tidak ada: Pandangan kami tentang keadaan terkini. Metode Psikologis, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Imputasi Fleksibel atas Data yang Hilang. Boca Raton: CRC Press.
sumber
mice
algoritma tersebut menggunakan regresi atau pencocokan prediktif rata-rata. Anda awalnya menyelesaikan data yang hilang dengan menarik dari distribusi yang diamati dan kemudian menyalahkan secara berurutan. Setelah selesai Anda ulangi, tetapi menggunakan nilai yang baru diperhitungkan. Data baru berpartisipasi, yaSaya tidak menemukan apa pun yang memecahkan masalah saya, jadi saya menulis sebuah fungsi yang menggabungkan beberapa solusi untuk kerangka data Pandas dengan nilai numerik yang hilang (dengan fancyimpute) dan kategorikal (dengan hutan acak).
sumber
R
fungsimice
, Stef van Buuren. Dia mungkin tertarik pada kode Python Anda dan / atau mengarahkan Anda ke pekerjaan orang lain dalam hal ini. stefvanbuuren.nlMeskipun biasanya lebih terlibat, Anda dapat mencoba dan membuat Distribusi Entropi Maksimum berdasarkan data apa yang Anda miliki.
http://proceedings.mlr.press/v5/huang09a/huang09a.pdf
sumber