Pertanyaan yang diberi tag text-mining

78

Contoh: regresi LASSO menggunakan glmnet untuk hasil biner

Saya mulai mencoba-coba penggunaan glmnetdengan LASSO Regression di mana hasil yang saya minati menjadi dikotomis. Saya telah membuat bingkai data mock kecil di bawah ini: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

70

Bagaimana cara kerja lapisan Keras 'Embedding'?

Perlu memahami cara kerja lapisan 'Embedding' di perpustakaan Keras. Saya menjalankan kode berikut dengan Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array =...

text-mining word-embeddings keras

36

Bagaimana kuasi mencocokkan dua vektor string (dalam R)?

Saya tidak yakin bagaimana ini harus disebut, jadi tolong perbaiki saya jika Anda tahu istilah yang lebih baik. Saya punya dua daftar. Salah satu dari 55 item (misalnya: vektor string), yang lain dari 92. Nama-nama item serupa tetapi tidak identik. Saya berharap untuk menemukan yang terbaik...

r text-mining

32

Klasifikasi statistik teks

Saya seorang programmer tanpa latar belakang statistik, dan saat ini saya sedang mencari metode klasifikasi yang berbeda untuk sejumlah besar dokumen yang berbeda yang ingin saya klasifikasikan ke dalam kategori yang telah ditentukan. Saya telah membaca tentang kNN, SVM dan NN. Namun, saya...

classification information-retrieval text-mining

30

Teknik pembelajaran mesin untuk string parsing?

Saya memiliki banyak string alamat: 1600 Pennsylvania Ave, Washington, DC 20500 USA Saya ingin mengurai mereka menjadi komponen-komponen mereka: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Tetapi tentu saja datanya kotor: itu berasal dari banyak...

machine-learning text-mining

30

Seberapa baik skala untuk tugas klasifikasi teks? [Tutup]

Saya mencoba untuk meningkatkan kecepatan dengan R. Saya akhirnya ingin menggunakan pustaka R untuk melakukan klasifikasi teks. Saya hanya ingin tahu apa pengalaman orang-orang sehubungan dengan skalabilitas R ketika datang untuk melakukan klasifikasi teks. Saya cenderung mengalami data dimensi...

r machine-learning svm text-mining random-forest

29

Perbedaan antara Bayes naif & Bayes naif multinomial

Saya pernah berurusan dengan classifier Naif Bayes sebelumnya. Saya telah membaca tentang Multinomial Naif Bayes belakangan ini. Juga Probabilitas Posterior = (Sebelum * Kemungkinan) / (Bukti) . Satu-satunya perbedaan utama (saat memprogram pengklasifikasi ini) yang saya temukan antara Naive...

bayesian classification text-mining naive-bayes

29

Paket R untuk melakukan pemodelan topik / LDA: cukup `topicmodels` dan` lda` [ditutup]

Sepertinya saya bahwa hanya dua paket R yang dapat melakukan Alokasi Dirichlet Latent : Salah satunya lda, ditulis oleh Jonathan Chang; dan yang lainnya topicmodelsditulis oleh Bettina Grün dan Kurt Hornik. Apa perbedaan antara kedua paket ini, dalam hal kinerja, detail implementasi, dan...

r bayesian text-mining topic-models latent-dirichlet-alloc

28

Di Naif Bayes, mengapa repot-repot dengan Laplace smoothing ketika kita memiliki kata-kata yang tidak diketahui dalam set tes?

Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing : Mari ccc merujuk ke kelas (seperti positif atau negatif), dan membiarkan www mengacu pada tanda atau kata. Estimasi kemungkinan maksimum untuk P( w | c )P(w|c)P(w|c)...

machine-learning classification text-mining naive-bayes laplace-smoothing

27

Apakah validasi silang merupakan pengganti yang tepat untuk set validasi?

Dalam klasifikasi teks, saya memiliki satu set pelatihan dengan sekitar 800 sampel, dan satu set tes dengan sekitar 150 sampel. Set tes belum pernah digunakan, dan menunggu untuk digunakan sampai akhir. Saya menggunakan seluruh rangkaian pelatihan sampel 800, dengan cross 10 kali lipat memvalidasi...

machine-learning classification cross-validation text-mining

26

Model topik dan kata metode co-kejadian

Model topik populer seperti LDA biasanya mengelompokkan kata-kata yang cenderung muncul bersama dalam topik yang sama (cluster). Apa perbedaan utama antara model topik tersebut, dan pendekatan pengelompokan sederhana berdasarkan kejadian bersama lainnya seperti PMI? (PMI singkatan dari Pointwise...

machine-learning text-mining natural-language topic-models

24

Bag-of-Words untuk Klasifikasi Teks: Mengapa tidak hanya menggunakan frekuensi kata daripada TFIDF?

Pendekatan umum untuk klasifikasi teks adalah untuk melatih classifier dari 'kata-kata'. Pengguna mengambil teks untuk diklasifikasikan dan menghitung frekuensi kata-kata di setiap objek, diikuti oleh semacam pemangkasan untuk menjaga matriks yang dihasilkan dari ukuran yang dapat...

machine-learning classification text-mining

20

Apakah kinerja canggih menggunakan vektor paragraf untuk analisis sentimen telah direplikasi?

Saya terkesan dengan hasil dalam makalah ICML 2014 " Representasi Terdistribusi dari Kalimat dan Dokumen " oleh Le dan Mikolov. Teknik yang mereka gambarkan, disebut "vektor paragraf", mempelajari representasi paragraf / dokumen yang panjangnya tidak diawasi secara sewenang-wenang, berdasarkan...

text-mining natural-language word-embeddings sentiment-analysis reproducible-research

19

Pembelajaran semi-diawasi, pembelajaran aktif dan pembelajaran mendalam untuk klasifikasi

Suntingan terakhir dengan semua sumber daya diperbarui: Untuk sebuah proyek, saya menerapkan algoritma pembelajaran mesin untuk klasifikasi. Tantangan: Data berlabel yang cukup terbatas dan lebih banyak lagi data yang tidak berlabel. Tujuan: Terapkan klasifikasi semi-terawasi Terapkan proses...

machine-learning classification software svm text-mining

18

Klasifikasi teks skala besar

Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes, 200 dokumen pelatihan per kelas (jadi 60000 documents in total) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ). Saya ingin melakukan langkah-langkah...

machine-learning classification text-mining

18

Bagaimana cara menghitung kebingungan ketidaksepakatan dengan Alokasi Dirichlet Laten?

Saya bingung tentang cara menghitung kebingungan sampel ketidaksepakatan saat melakukan Latent Dirichlet Allocation (LDA). Makalah-makalah tentang topik itu membahasnya, membuat saya berpikir saya kehilangan sesuatu yang jelas ... Kesederhanaan dipandang sebagai ukuran kinerja yang baik untuk LDA....

text-mining topic-models

18

Mengapa Pemrosesan Bahasa Alami tidak termasuk dalam domain Machine Learning? [Tutup]

Seperti saat ini, pertanyaan ini tidak cocok untuk format tanya jawab kami. Kami berharap jawaban didukung oleh fakta, referensi, atau keahlian, tetapi pertanyaan ini kemungkinan akan mengundang debat, argumen, polling, atau diskusi panjang. Jika Anda merasa bahwa pertanyaan ini

machine-learning text-mining natural-language

17

Mengapa classifier regresi ridge berfungsi cukup baik untuk klasifikasi teks?

Selama percobaan untuk klasifikasi teks, saya menemukan classifier ridge menghasilkan hasil yang secara konstan berada di atas tes di antara classifier yang lebih umum disebutkan dan diterapkan untuk tugas-tugas penambangan teks, seperti SVM, NB, kNN, dll. Meskipun, saya belum menguraikan tentang...

machine-learning classification text-mining ridge-regression

17

Parameter input untuk menggunakan alokasi Dirichlet laten

Saat menggunakan pemodelan topik (Alokasi Dirichlet Laten), jumlah topik adalah parameter input yang perlu ditentukan pengguna. Menurut saya, kita juga harus menyediakan kumpulan kumpulan topik kandidat yang harus diambil sampel oleh Dirichlet? Apakah pemahaman saya benar? Dalam praktiknya,...

machine-learning bayesian clustering text-mining dirichlet-distribution

17

Saya ingin membangun indeks kejahatan dan indeks ketidakstabilan politik yang didasarkan pada berita

Saya memiliki proyek sampingan ini di mana saya merangkak situs web berita lokal di negara saya dan ingin membangun indeks kejahatan dan indeks ketidakstabilan politik. Saya sudah membahas bagian pengambilan informasi dari proyek. Rencana saya adalah melakukan: Ekstraksi topik tanpa...

machine-learning classification text-mining