Pertanyaan yang diberi tag data-cleaning

Pembersihan data merupakan langkah awal untuk analisis statistik di mana kumpulan data diedit untuk memperbaiki kesalahan dan memasukkannya ke dalam bentuk yang sesuai untuk diproses oleh perangkat lunak statistik.

34
Proses terorganisir untuk membersihkan data

Dari sedikit berkecimpung dengan ilmu data menggunakan R, saya menyadari bahwa membersihkan data yang buruk adalah bagian yang sangat penting dalam mempersiapkan data untuk analisis. Apakah ada praktik atau proses terbaik untuk membersihkan data sebelum memprosesnya? Jika demikian, apakah ada...

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

14
Bagaimana cara melakukan pencocokan alamat pos fuzzy?

Saya ingin tahu cara mencocokkan alamat pos ketika formatnya berbeda atau ketika salah satu dari mereka salah eja. Sejauh ini saya telah menemukan solusi yang berbeda tetapi saya pikir mereka sudah cukup tua dan tidak terlalu efisien. Saya yakin ada beberapa metode yang lebih baik, jadi jika Anda...

11
Apakah ada model bahasa out-of-the-box yang bagus untuk python?

Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a...

10
Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang

10
Bagaimana cara melakukan batch product dalam Tensorflow?

Saya memiliki dua tensor a:[batch_size, dim] b:[batch_size, dim]. Saya ingin melakukan produk dalam untuk setiap pasangan dalam batch, menghasilkan c:[batch_size, 1], di mana c[i,0]=a[i,:].T*b[i,:].

10
Bahasa terbaik untuk komputasi ilmiah [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian...

10
Hubungan antara belit dalam matematika dan CNN

Saya sudah membaca penjelasan konvolusi dan memahaminya sampai batas tertentu. Adakah yang bisa membantu saya memahami bagaimana operasi ini berhubungan dengan konvolusi dalam Jaring Saraf Konvolusional? Apakah fungsi seperti filter gyang menerapkan