Pertanyaan yang diberi tag text-mining

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

17
Algoritma untuk pengelompokan teks

Saya memiliki masalah mengelompokkan kalimat dalam jumlah besar ke dalam kelompok dengan artinya. Ini mirip dengan masalah ketika Anda memiliki banyak kalimat dan ingin mengelompokkannya berdasarkan artinya. Algoritma apa yang disarankan untuk melakukan ini? Saya tidak tahu jumlah cluster di muka...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

16
Ekstrak bagian teks yang paling informatif dari dokumen

Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini. Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin...

14
Bagaimana cara melakukan pencocokan alamat pos fuzzy?

Saya ingin tahu cara mencocokkan alamat pos ketika formatnya berbeda atau ketika salah satu dari mereka salah eja. Sejauh ini saya telah menemukan solusi yang berbeda tetapi saya pikir mereka sudah cukup tua dan tidak terlalu efisien. Saya yakin ada beberapa metode yang lebih baik, jadi jika Anda...

13
Scaling Data Scaling yang Etis dan Hemat Biaya

Beberapa hal dalam hidup memberi saya kesenangan seperti menggores data terstruktur dan tidak terstruktur dari Internet dan memanfaatkannya dalam model saya. Sebagai contoh, Data Science Toolkit (atau RDSTKuntuk programmer R) memungkinkan saya untuk menarik banyak data berbasis lokasi yang baik...

12
Algoritma Pencocokan Preferensi

Ada proyek sampingan yang sedang saya kerjakan di mana saya perlu menyusun solusi untuk masalah berikut. Saya memiliki dua kelompok orang (klien). Grup Abermaksud untuk membeli dan grup Bbermaksud untuk menjual produk yang ditentukan X. Produk ini memiliki serangkaian atribut x_i, dan tujuan saya...

11
Menggunakan Clustering dalam pemrosesan teks

Hai, ini adalah pertanyaan pertama saya di tumpukan Ilmu Data. Saya ingin membuat algoritma untuk klasifikasi teks. Misalkan saya punya satu set besar teks dan artikel. Mari kita katakan sekitar 5000 teks biasa. Saya pertama kali menggunakan fungsi sederhana untuk menentukan frekuensi keempat kata...