Ilmu Data - halaman 25

11

Mesin Faktorisasi Sadar Lapangan

Adakah yang bisa menjelaskan bagaimana mesin faktorisasi sadar lapangan (FFM) dibandingkan dengan Mesin Factorisasi standar (FM)? Standar: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware":

machine-learning recommender-system

11

Hubungan antara KS, AUROC, dan Gini

Statistik validasi model umum seperti uji Kolmogorov-Smirnov (KS), AUROC , dan koefisien Gini semuanya terkait secara fungsional. Namun, pertanyaan saya berkaitan dengan pembuktian bagaimana semua ini terkait. Saya ingin tahu apakah ada yang bisa membantu saya membuktikan hubungan ini. Saya belum...

data-mining statistics predictive-modeling accuracy

11

Menggunakan Clustering dalam pemrosesan teks

Hai, ini adalah pertanyaan pertama saya di tumpukan Ilmu Data. Saya ingin membuat algoritma untuk klasifikasi teks. Misalkan saya punya satu set besar teks dan artikel. Mari kita katakan sekitar 5000 teks biasa. Saya pertama kali menggunakan fungsi sederhana untuk menentukan frekuensi keempat kata...

text-mining clustering

11

Apa regresi yang digunakan untuk menghitung hasil pemilihan dalam sistem multi partai?

Saya ingin membuat prediksi untuk hasil pemilihan parlemen. Output saya akan menjadi% yang diterima masing-masing pihak. Ada lebih dari 2 pihak sehingga regresi logistik bukan pilihan yang layak. Saya bisa membuat regresi terpisah untuk masing-masing pihak tetapi dalam hal ini hasilnya akan dalam...

classification r python regression predictive-modeling

11

Konsekuensi dari Penskalaan Fitur

Saat ini saya menggunakan SVM dan meningkatkan fitur pelatihan saya ke kisaran [0,1]. Saya pertama kali cocok / mengubah set pelatihan saya dan kemudian menerapkan transformasi yang sama untuk set pengujian saya. Sebagai contoh: ### Configure transformation and apply to training set...

machine-learning svm feature-scaling

11

Bagaimana cara menggabungkan data bulanan, harian, dan mingguan?

Google Trends mengembalikan data mingguan sehingga saya harus menemukan cara untuk menggabungkannya dengan data harian / bulanan saya. Apa yang telah saya lakukan sejauh ini adalah memecah setiap seri menjadi data harian, sebagai contoh: dari: 2013-03-03 - 2013-03-09 37 untuk: 2013-03-03 37...

time-series

11

Apa yang terjadi ketika kita melatih SVM linier pada data yang dapat dipisahkan secara non-linear?

Apa yang terjadi ketika kita melatih mesin vektor dukungan dasar (kernel linear dan tidak ada margin lunak) pada data yang dapat dipisahkan secara non-linear? Masalah optimisasi tidak layak, jadi apa yang dihasilkan oleh algoritma

machine-learning svm

11

Intuisi untuk parameter regularisasi dalam SVM

Bagaimana memvariasikan parameter regularisasi dalam SVM mengubah batas keputusan untuk dataset yang tidak dapat dipisahkan? Jawaban visual dan / atau komentar tentang perilaku membatasi (untuk regularisasi besar dan kecil) akan sangat

svm

11

Menggores web LinkedIn

Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan...

data-mining social-network-analysis crawling scraping

11

Bagaimana mengkonversi data kategorikal menjadi data numerik di Pyspark

Saya menggunakan notebook Ipython untuk bekerja dengan aplikasi pyspark. Saya memiliki file CSV dengan banyak kolom kategorikal untuk menentukan apakah pendapatan berada di bawah atau di atas kisaran 50k. Saya ingin melakukan algoritma klasifikasi mengambil semua input untuk menentukan kisaran...

python apache-spark categorical-data pyspark

11

Bagaimana cara menghindari overfitting di hutan acak?

Saya ingin menghindari overfitting di hutan acak. Dalam hal ini, saya bermaksud menggunakan mtry, nodesize, dan maxnodes dll. Bisakah Anda membantu saya memilih nilai untuk parameter ini? Saya menggunakan R. Juga, jika mungkin, tolong katakan padaku bagaimana saya bisa menggunakan validasi silang...

machine-learning data-mining r predictive-modeling random-forest

11

Masalah dengan IPython / Jupyter di Spark (alias tidak dikenal)

Saya sedang bekerja menyiapkan seperangkat VM untuk bereksperimen dengan Spark sebelum saya menghabiskan keluar dan menghabiskan uang untuk membangun sebuah cluster dengan beberapa perangkat keras. Catatan singkat: Saya adalah seorang akademisi dengan latar belakang dalam pembelajaran mesin yang...

python apache-spark pyspark ipython

11

Kelas tidak seimbang - Bagaimana cara meminimalkan negatif palsu?

Saya memiliki dataset yang memiliki atribut kelas biner. Ada 623 contoh dengan kelas +1 (kanker positif) dan 101.671 contoh dengan kelas -1 (kanker negatif). Saya telah mencoba berbagai algoritma (Naif Bayes, Random Forest, AODE, C4.5) dan semuanya memiliki rasio negatif palsu yang tidak dapat...

classification random-forest decision-trees unbalanced-classes

11

Dapatkah pohon regresi memprediksi secara terus menerus?

Misalkan saya memiliki fungsi yang halus seperti . Saya memiliki set pelatihan D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ dalam \ mathbb {R} ^ 2 \} dan, tentu saja, saya tidak tahu f meskipun saya dapat mengevaluasi f di mana pun saya inginkan.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) =...

predictive-modeling regression decision-trees

11

Bagaimana word2vec dapat digunakan untuk mengidentifikasi kata-kata yang tidak terlihat dan menghubungkannya dengan data yang sudah terlatih

Saya sedang mengerjakan model gensim word2vec dan merasa sangat menarik. Saya tertarik menemukan bagaimana kata yang tidak diketahui / tidak terlihat ketika diperiksa dengan model akan bisa mendapatkan istilah yang sama dari model yang dilatih. Apakah ini mungkin? Bisakah word2vec di-tweak untuk...

nlp deep-learning word-embeddings unsupervised-learning

11

menerapkan word2vec pada file teks kecil

Saya benar-benar baru di word2vec jadi tolong bawa. Saya memiliki satu set file teks yang masing-masing berisi satu set tweet, antara 1000-3000. Saya telah memilih kata kunci yang umum ("kw1") dan ingin mencari istilah yang relevan secara semantik untuk "kw1" menggunakan word2vec. Misalnya jika...

machine-learning nlp text-mining

11

Overfitting / Underfitting dengan ukuran data set

Dalam grafik di bawah ini, x-axis => Ukuran set data y-axis => Skor validasi silang Garis merah untuk Data Pelatihan Garis hijau untuk Pengujian Data Dalam tutorial yang saya maksudkan, penulis mengatakan bahwa titik di mana garis merah dan garis hijau tumpang tindih,...

machine-learning cross-validation

11

Apa perbedaan dalam xgboost biner: logistik dan reg: logistik

Apa perbedaan R dalam xgboost antara biner: logistik dan reg: logistik? Apakah hanya dalam metrik evaluasi? Jika ya, bagaimana RMSE pada klasifikasi biner dibandingkan dengan tingkat kesalahan? Apakah hubungan antara metrik kurang lebih monotonik, keluaran dari penyetelan pada satu metrik...

r logistic-regression xgboost

11

Yang mana yang pertama: pembandingan algoritma, pemilihan fitur, penyetelan parameter?

Ketika mencoba melakukan mis klasifikasi, pendekatan saya saat ini adalah coba berbagai algoritma terlebih dahulu dan patok mereka melakukan pemilihan fitur pada algoritma terbaik dari 1 di atas tune parameter menggunakan fitur dan algoritma yang dipilih Namun, saya sering tidak dapat...

feature-selection parameter-estimation

11

Bagaimana cara "niat recognisers" bekerja?

Amazon Alexa , Nuance's Mix dan Facebook's Wit.ai semuanya menggunakan sistem yang sama untuk menentukan cara mengubah perintah teks menjadi maksud - yaitu sesuatu yang akan dipahami komputer. Saya tidak yakin apa nama "resmi" untuk ini, tetapi saya menyebutnya "pengakuan niat". Pada dasarnya cara...

machine-learning nlp