Pertanyaan yang diberi tag bigdata

12
Berapa banyak sel LSTM yang harus saya gunakan?

Apakah ada aturan praktis (atau aturan aktual) yang berkaitan dengan jumlah sel LSTM minimum, maksimum, dan "wajar" yang harus saya gunakan? Secara khusus saya berhubungan dengan BasicLSTMCell dari TensorFlow dan num_unitsproperti. Harap asumsikan bahwa saya memiliki masalah klasifikasi yang...

12
Apa itu 'nama lama' ilmuwan data?

Istilah seperti 'ilmu data' dan 'ilmuwan data' semakin banyak digunakan akhir-akhir ini. Banyak perusahaan merekrut 'ilmuwan data'. Tapi saya pikir itu bukan pekerjaan yang sama sekali baru. Data sudah ada dari masa lalu dan seseorang harus berurusan dengan data. Saya kira istilah 'ilmuwan data'...

11
Bekerja dengan cluster HPC

Di universitas saya, kami memiliki cluster komputasi HPC. Saya menggunakan cluster untuk melatih pengklasifikasi dan sebagainya. Jadi, biasanya, untuk mengirim pekerjaan ke cluster, (misalnya skrip python scikit-learn), saya perlu menulis skrip Bash yang berisi (antara lain) perintah seperti qsub...

10
Deteksi Pencilan / Anomali Terukur

Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau...

10
Bagaimana cara melakukan batch product dalam Tensorflow?

Saya memiliki dua tensor a:[batch_size, dim] b:[batch_size, dim]. Saya ingin melakukan produk dalam untuk setiap pasangan dalam batch, menghasilkan c:[batch_size, 1], di mana c[i,0]=a[i,:].T*b[i,:].

10
Kapan harus memilih regresi linier atau Pohon Keputusan atau regresi Hutan Acak? [Tutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 4 tahun yang lalu . Saya sedang

10
Menangani set fitur yang terus meningkat

Saya sedang mengerjakan sistem deteksi penipuan. Di bidang ini, penipuan baru muncul secara teratur, sehingga fitur baru harus ditambahkan ke model secara berkelanjutan. Saya bertanya-tanya apa cara terbaik untuk menanganinya (dari perspektif proses pengembangan)? Hanya menambahkan fitur baru ke...

10
Bahasa terbaik untuk komputasi ilmiah [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Sepertinya sebagian...

8
Kesalahan Bertingkat dalam Badai Apache

Melalui presentasi dan materi Summingbird oleh Twitter, salah satu alasan yang disebutkan untuk menggunakan cluster Storm dan Hadoop bersama-sama di Summingbird adalah bahwa pemrosesan melalui Storm menghasilkan cascading of error. Untuk menghindari cascading kesalahan dan akumulasi itu, cluster...