Pertanyaan yang diberi tag text-mining

Mengacu pada subset penambangan data yang berkaitan dengan mengekstraksi informasi dari data dalam bentuk teks dengan mengenali pola. Tujuan dari penggalian teks sering untuk mengklasifikasikan dokumen yang diberikan ke dalam salah satu dari sejumlah kategori secara otomatis, dan untuk meningkatkan kinerja ini secara dinamis, menjadikannya contoh pembelajaran mesin. Salah satu contoh penambangan teks jenis ini adalah filter spam yang digunakan untuk email.

78
Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

36
Bagaimana kuasi mencocokkan dua vektor string (dalam R)?

Saya tidak yakin bagaimana ini harus disebut, jadi tolong perbaiki saya jika Anda tahu istilah yang lebih baik. Saya punya dua daftar. Salah satu dari 55 item (misalnya: vektor string), yang lain dari 92. Nama-nama item serupa tetapi tidak identik. Saya berharap untuk menemukan yang terbaik...

32
Klasifikasi statistik teks

Saya seorang programmer tanpa latar belakang statistik, dan saat ini saya sedang mencari metode klasifikasi yang berbeda untuk sejumlah besar dokumen yang berbeda yang ingin saya klasifikasikan ke dalam kategori yang telah ditentukan. Saya telah membaca tentang kNN, SVM dan NN. Namun, saya...

30
Teknik pembelajaran mesin untuk string parsing?

Saya memiliki banyak string alamat: 1600 Pennsylvania Ave, Washington, DC 20500 USA Saya ingin mengurai mereka menjadi komponen-komponen mereka: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Tetapi tentu saja datanya kotor: itu berasal dari banyak...

28
Di Naif Bayes, mengapa repot-repot dengan Laplace smoothing ketika kita memiliki kata-kata yang tidak diketahui dalam set tes?

Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing : Mari ccc merujuk ke kelas (seperti positif atau negatif), dan membiarkan www mengacu pada tanda atau kata. Estimasi kemungkinan maksimum untuk P( w | c )P(w|c)P(w|c)...

18
Klasifikasi teks skala besar

Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah...