Pertanyaan yang diberi tag data-cleaning

16
Membersihkan data format tidak konsisten dalam R?

Saya sering berurusan dengan data survei yang berantakan yang membutuhkan banyak pembersihan sebelum statistik dapat dilakukan. Saya biasa melakukan ini "secara manual" di Excel, kadang-kadang menggunakan rumus Excel, dan kadang-kadang memeriksa entri satu-per-satu. Saya mulai melakukan semakin...

13
Terdepan dalam deduplikasi

Apa metode mutakhir dalam deduplikasi rekor? Deduplikasi juga kadang-kadang disebut: record linkage, resolusi entitas, resolusi identitas, gabungan / pembersihan. Saya tahu misalnya tentang CBLOCK [1]. Saya akan sangat menghargai jika jawaban juga termasuk referensi ke perangkat lunak yang ada...

10
Pembersihan data otomatis

Masalah umum adalah ML adalah kualitas data yang buruk: kesalahan dalam nilai fitur, contoh kesalahan klasifikasi, dll. Salah satu cara untuk mengatasi masalah ini adalah secara manual memeriksa data dan memeriksa, tetapi adakah teknik lain? (Aku yakin ada!) Mana yang lebih baik dan...

9
Membuat data "demo" dari data nyata: menyamarkan tanpa menodai

(Saya tidak tahu apa yang harus ditandai dengan ini karena saya bukan ahli statistik dan saya tidak tahu bidang apa ini. Jangan ragu untuk menambahkan tag yang lebih cocok.) Saya bekerja untuk perusahaan yang memproduksi perangkat lunak analisis data, dan kami membutuhkan set data yang layak untuk...