Pertanyaan yang diberi tag bigdata

Big data adalah istilah untuk kumpulan set data yang begitu besar dan kompleks sehingga menjadi sulit untuk diproses menggunakan alat manajemen basis data di tangan atau aplikasi pemrosesan data tradisional. Tantangannya termasuk penangkapan, kurasi, penyimpanan, pencarian, berbagi, transfer, analisis dan visualisasi.

86
Seberapa besar data besar?

Banyak orang menggunakan istilah data besar dalam cara yang agak komersial , sebagai sarana untuk menunjukkan bahwa kumpulan data besar terlibat dalam perhitungan, dan karenanya solusi potensial harus memiliki kinerja yang baik. Tentu saja, big data selalu membawa istilah yang terkait, seperti...

48
Apakah bahasa R cocok untuk Big Data

R memiliki banyak perpustakaan yang ditujukan untuk Analisis Data (misalnya JAGS, BUGS, ARULES dll.), Dan disebutkan dalam buku teks populer seperti: J.Krusche, Melakukan Analisis Data Bayesian; B.Lantz, "Pembelajaran Mesin dengan R". Saya telah melihat pedoman 5TB untuk dataset yang dianggap...

40
Ilmu Data dalam C (atau C ++)

Saya seorang Rprogrammer bahasa. Saya juga berada dalam kelompok orang yang dianggap sebagai Ilmuwan Data tetapi berasal dari disiplin akademis selain CS. Ini berfungsi dengan baik dalam peran saya sebagai Data Scientist, namun, dengan memulai karir saya Rdan hanya memiliki pengetahuan dasar...

33
Membuka file 20GB untuk analisis dengan panda

Saat ini saya mencoba untuk membuka file dengan panda dan python untuk tujuan pembelajaran mesin, akan ideal bagi saya untuk memiliki semuanya dalam DataFrame. Sekarang file tersebut berukuran 18GB dan RAM saya 32 GB tetapi saya terus mendapatkan kesalahan memori. Dari pengalaman Anda, mungkinkah?...

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

23
Gagasan Proyek Sains Data [ditutup]

Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Saya...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

14
Kapan nilai-p menipu?

Apa kondisi data yang harus kita waspadai, di mana nilai-p mungkin bukan cara terbaik untuk menentukan signifikansi statistik? Apakah ada tipe masalah spesifik yang termasuk dalam kategori

14
Apakah Python cocok untuk data besar

Saya membaca di posting ini Apakah bahasa R cocok untuk Big Data yang merupakan data besar 5TB, dan sementara itu melakukan pekerjaan yang baik dalam memberikan informasi tentang kelayakan bekerja dengan jenis data di Rdalamnya memberikan informasi yang sangat sedikit tentang Python. Saya...

13
Studi kasus big data atau contoh penggunaan kasus

Saya telah membaca banyak artikel \ blog tentang bagaimana berbagai jenis industri menggunakan Big Data Analytic. Tetapi sebagian besar dari artikel ini gagal menyebutkan Apa yang agak data perusahaan ini digunakan. Berapa ukuran data Alat teknologi apa yang mereka gunakan untuk memproses...