Pembersihan data otomatis

10

Masalah umum adalah ML adalah kualitas data yang buruk: kesalahan dalam nilai fitur, contoh kesalahan klasifikasi, dll.

Salah satu cara untuk mengatasi masalah ini adalah secara manual memeriksa data dan memeriksa, tetapi adakah teknik lain? (Aku yakin ada!)

Mana yang lebih baik dan mengapa?

andreister
sumber
Google Refine mungkin layak dilihat.
Dimitriy V. Masterov

Jawaban:

6

Pengurangan dimensi melalui sesuatu seperti PCA akan sangat membantu untuk mendapatkan gambaran tentang jumlah dimensi yang sangat penting untuk mewakili data Anda.

Untuk memeriksa contoh kesalahan klasifikasi, Anda dapat melakukan pengelompokan k-means dasar dari data Anda untuk mendapatkan gambaran seberapa baik data mentah Anda akan cocok dengan kategori yang Anda usulkan. Meskipun tidak otomatis, memvisualisasikan pada tahap ini akan sangat membantu, karena otak visual Anda adalah penggolong yang kuat dalam dirinya sendiri.

Dalam hal data yang benar-benar hilang, statistik memiliki banyak teknik untuk menangani situasi itu, termasuk imputasi, mengambil data dari perangkat yang ada atau perangkat lain untuk mengisi kekosongan.

jonsca
sumber
3
Merencanakan data adalah pemeriksaan manual.
andreister
@ andreister Saya menganggap memeriksa titik demi titik pada spreadsheet sebagai pemeriksaan manual, tapi oke, saya mengerti maksud Anda.
jonsca
5

Anda tidak dapat benar-benar menghapus orang yang berpengetahuan dari lingkaran dan mengharapkan hasil yang masuk akal. Itu tidak berarti bahwa orang tersebut harus melihat setiap item secara individual, tetapi pada akhirnya dibutuhkan beberapa pengetahuan aktual untuk mengetahui apakah ringkasan / grafik data masuk akal. (Misalnya: dapat variabel A menjadi negatif, dapatkah variabel B lebih besar dari variabel A, atau ada 4 atau 5 pilihan untuk variabel kategori C?)

Setelah Anda memiliki pengetahuan manusiawi tentang data, Anda mungkin dapat membuat serangkaian aturan yang dapat Anda gunakan untuk menguji data secara otomatis. Masalahnya adalah, kesalahan lain dapat muncul yang belum Anda pikirkan. (Misalnya, kesalahan pemrograman dalam proses pengumpulan data yang menggandakan variabel A ke variabel C.)

Wayne
sumber
Jawaban yang bagus Saya hanya akan menambahkan untuk memastikan bahwa sintaks yang digunakan untuk membersihkan variabel disimpan dalam dokumentasi, dengan komentar jika bukan bagian deskriptif tentang mengapa semuanya diubah. :)
Michelle
1

Jika Anda tahu bahwa data Anda tidak cukup baik, itu selalu baik untuk memeriksa outlier juga. Sebagian besar waktu ada anomali.

Jika Anda memiliki banyak fitur, pengurangan dimensi adalah suatu keharusan. PCA cukup efisien untuk itu.

Jika Anda memiliki data yang hilang, Anda dapat menggunakan imputasi atau interpolasi, tetapi jika kebutuhan Anda memungkinkan, kasus yang menang adalah menggunakan pemfilteran kolaboratif.

vonPetrushev
sumber