Ilmu Data

15
Alat Ilmu Data Menggunakan Scala

Saya tahu bahwa Spark sepenuhnya terintegrasi dengan Scala. Ini menggunakan case khusus untuk set data besar. Alat lain mana yang memiliki dukungan Scala yang bagus? Apakah Scala paling cocok untuk set data yang lebih besar? Atau apakah itu juga cocok untuk set data yang lebih

15
Prediksi kesamaan kalimat

Saya mencari untuk memecahkan masalah berikut: Saya memiliki satu set kalimat sebagai dataset saya, dan saya ingin dapat mengetikkan kalimat baru, dan menemukan kalimat yang paling mirip dengan yang ada di dataset. Contohnya akan terlihat seperti: Kalimat baru: " I opened a new mailbox" Prediksi...

15
Mengapa fungsi aktivasi harus monoton?

Saat ini saya sedang mempersiapkan ujian pada jaringan saraf. Dalam beberapa protokol dari ujian sebelumnya saya membaca bahwa fungsi aktivasi neuron (dalam multilayer perceptrons) harus monotonik. Saya mengerti bahwa fungsi aktivasi harus dapat dibedakan, memiliki turunan yang bukan 0 pada...

15
Pohon keputusan vs. KNN

Dalam kasus apa lebih baik menggunakan pohon Keputusan dan kasus lainnya KNN? Mengapa menggunakan salah satunya dalam kasus tertentu? Dan yang lainnya dalam kasus yang berbeda? (Dengan melihat fungsinya, bukan pada algoritma) Adakah yang punya penjelasan atau referensi tentang

15
R: pembelajaran mesin pada GPU

Apakah ada paket pembelajaran mesin untuk R yang dapat memanfaatkan GPU untuk meningkatkan kecepatan pelatihan (seperti theano dari dunia python)? Saya melihat bahwa ada paket yang disebut gputools yang memungkinkan eksekusi kode pada GPU, tetapi saya sedang mencari perpustakaan yang lebih lengkap...

15
Bagaimana cara kerja SelectKBest?

Saya melihat tutorial ini: https://www.dataquest.io/mission/75/improving-your-submission Pada bagian 8, menemukan fitur terbaik, itu menunjukkan kode berikut. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch",...

14
Kapan nilai-p menipu?

Apa kondisi data yang harus kita waspadai, di mana nilai-p mungkin bukan cara terbaik untuk menentukan signifikansi statistik? Apakah ada tipe masalah spesifik yang termasuk dalam kategori

14
RNN menggunakan beberapa seri waktu

Saya mencoba membuat jaringan saraf menggunakan deret waktu sebagai input, untuk melatihnya berdasarkan jenis masing-masing seri. Saya membaca bahwa menggunakan RNNs Anda dapat membagi input ke dalam batch dan menggunakan setiap titik dari rangkaian waktu menjadi neuron individu dan akhirnya...

14
K-means cepat seperti algoritma untuk 10 ^ 10 poin?

Saya mencari untuk melakukan k-means pengelompokan pada set poin 10-dimensi. Tangkapan: ada 10 ^ 10 poin . Saya hanya mencari pusat dan ukuran cluster terbesar (misalkan 10 hingga 100 cluster); Saya tidak peduli tentang tujuan dari setiap titik. Menggunakan k-means secara spesifik tidak penting;...