Perbedaan antara data yang hilang dan data yang jarang dalam algoritma pembelajaran mesin

20

Apa perbedaan utama antara data jarang dan data yang hilang? Dan bagaimana pengaruhnya terhadap pembelajaran mesin? Lebih khusus lagi, apa efek data jarang dan data yang hilang miliki pada algoritma klasifikasi dan tipe algoritma regresi (prediksi angka). Saya berbicara tentang situasi, di mana persentase data yang hilang signifikan dan kami tidak dapat menghapus baris yang berisi data yang hilang.

dev lelah dan bosan
sumber
4
Data jarang berarti bahwa banyak dari nilai-nilai itu nol, tetapi Anda tahu bahwa itu nol. Data yang hilang berarti Anda tidak tahu apa beberapa atau banyak dari nilai-nilai itu.
Anna SdTC
Terima kasih. Itu juga yang saya pikirkan, tetapi ingin dikonfirmasi. Juga, seperti yang disebutkan dalam pertanyaan, ingin tahu bagaimana, secara umum, dataset jenis ini ditangani dalam masalah pembelajaran mesin ..
lelah dan bosan dev
1
Saya pikir pertanyaan Anda agak kabur. "Pembelajaran mesin" mencakup beragam metode dan alat, jadi jawabannya tergantung pada apa yang Anda miliki atau apa yang ingin Anda lakukan. Di sini mereka membahas beberapa metode untuk menangani data yang hilang: stats.stackexchange.com/questions/103500/...
Anna SdTC
Terima kasih. Saya mengetahui beragam alat dan jenis algoritme ml. Tetapi ingin tahu apakah ada pendekatan umum.
dev lelah dan bosan

Jawaban:

16

Untuk memudahkan pemahaman, saya akan menjelaskan ini menggunakan contoh. Katakanlah Anda mengumpulkan data dari perangkat yang memiliki 12 sensor. Dan Anda telah mengumpulkan data selama 10 hari.

Data yang telah Anda kumpulkan adalah sebagai berikut: masukkan deskripsi gambar di sini

Ini disebut data jarang karena sebagian besar output sensor adalah nol. Yang berarti sensor-sensor itu berfungsi dengan baik tetapi bacaan yang sebenarnya adalah nol. Meskipun matriks ini memiliki data dimensi tinggi (12 sumbu), dapat dikatakan bahwa itu mengandung informasi yang lebih sedikit.

Katakanlah 2 sensor perangkat Anda tidak berfungsi.
Maka data Anda akan seperti:masukkan deskripsi gambar di sini

Dalam hal ini, Anda dapat melihat bahwa Anda tidak dapat menggunakan data dari Sensor1 dan Sensor6. Entah Anda harus mengisi data secara manual tanpa memengaruhi hasil atau Anda harus mengulang percobaan.

Lahiru Karunaratne
sumber