Pertanyaan yang diberi tag data-mining

13
Apakah ada API untuk merayapi abstrak kertas?

Jika saya memiliki daftar nama kertas yang sangat panjang, bagaimana saya bisa mendapatkan abstrak dari makalah ini dari internet atau database apa pun? Nama-nama kertas seperti "Penilaian Utilitas dalam Penambangan Web untuk Domain Kesehatan Masyarakat". Adakah yang tahu API apa pun yang bisa...

13
Neo4j vs OrientDB vs Titan

Saya sedang mengerjakan proyek data-sains yang terkait dengan penambangan hubungan sosial dan perlu menyimpan data dalam beberapa basis data grafik. Awalnya saya memilih Neo4j sebagai databasenya. Tapi sepertinya Neo4j tidak skala dengan baik. Alternatif yang saya temukan adalah Titan dan oriebtDB....

13
Studi kasus big data atau contoh penggunaan kasus

Saya telah membaca banyak artikel \ blog tentang bagaimana berbagai jenis industri menggunakan Big Data Analytic. Tetapi sebagian besar dari artikel ini gagal menyebutkan Apa yang agak data perusahaan ini digunakan. Berapa ukuran data Alat teknologi apa yang mereka gunakan untuk memproses...

11
Menggores web LinkedIn

Baru- baru ini saya menemukan paket R baru untuk terhubung ke API LinkedIn. Sayangnya API LinkedIn tampaknya cukup terbatas untuk memulainya; misalnya, Anda hanya bisa mendapatkan data dasar tentang perusahaan, dan ini terlepas dari data individu. Saya ingin mendapatkan data tentang semua karyawan...

11
Apakah ada model bahasa out-of-the-box yang bagus untuk python?

Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a...

11
Bekerja dengan cluster HPC

Di universitas saya, kami memiliki cluster komputasi HPC. Saya menggunakan cluster untuk melatih pengklasifikasi dan sebagainya. Jadi, biasanya, untuk mengirim pekerjaan ke cluster, (misalnya skrip python scikit-learn), saya perlu menulis skrip Bash yang berisi (antara lain) perintah seperti qsub...

10
Deteksi Pencilan / Anomali Terukur

Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau...