Apa perbedaan utama antara data jarang dan data yang hilang? Dan bagaimana pengaruhnya terhadap pembelajaran mesin? Lebih khusus lagi, apa efek data jarang dan data yang hilang miliki pada algoritma klasifikasi dan tipe algoritma regresi (prediksi angka). Saya berbicara tentang situasi, di mana persentase data yang hilang signifikan dan kami tidak dapat menghapus baris yang berisi data yang hilang.
machine-learning
dataset
missing-data
sparse
dev lelah dan bosan
sumber
sumber
Jawaban:
Untuk memudahkan pemahaman, saya akan menjelaskan ini menggunakan contoh. Katakanlah Anda mengumpulkan data dari perangkat yang memiliki 12 sensor. Dan Anda telah mengumpulkan data selama 10 hari.
Data yang telah Anda kumpulkan adalah sebagai berikut:
Ini disebut data jarang karena sebagian besar output sensor adalah nol. Yang berarti sensor-sensor itu berfungsi dengan baik tetapi bacaan yang sebenarnya adalah nol. Meskipun matriks ini memiliki data dimensi tinggi (12 sumbu), dapat dikatakan bahwa itu mengandung informasi yang lebih sedikit.
Katakanlah 2 sensor perangkat Anda tidak berfungsi.
Maka data Anda akan seperti:
Dalam hal ini, Anda dapat melihat bahwa Anda tidak dapat menggunakan data dari Sensor1 dan Sensor6. Entah Anda harus mengisi data secara manual tanpa memengaruhi hasil atau Anda harus mengulang percobaan.
sumber