Pertanyaan yang diberi tag data

Pertanyaan sebagian besar berkaitan dengan pengelolaan data, tanpa fokus pada pemrosesan awal atau pemodelan.

86
Seberapa besar data besar?

Banyak orang menggunakan istilah data besar dalam cara yang agak komersial , sebagai sarana untuk menunjukkan bahwa kumpulan data besar terlibat dalam perhitungan, dan karenanya solusi potensial harus memiliki kinerja yang baik. Tentu saja, big data selalu membawa istilah yang terkait, seperti...

48
Apakah bahasa R cocok untuk Big Data

R memiliki banyak perpustakaan yang ditujukan untuk Analisis Data (misalnya JAGS, BUGS, ARULES dll.), Dan disebutkan dalam buku teks populer seperti: J.Krusche, Melakukan Analisis Data Bayesian; B.Lantz, "Pembelajaran Mesin dengan R". Saya telah melihat pedoman 5TB untuk dataset yang dianggap...

40
Ilmu Data dalam C (atau C ++)

Saya seorang Rprogrammer bahasa. Saya juga berada dalam kelompok orang yang dianggap sebagai Ilmuwan Data tetapi berasal dari disiplin akademis selain CS. Ini berfungsi dengan baik dalam peran saya sebagai Data Scientist, namun, dengan memulai karir saya Rdan hanya memiliki pengetahuan dasar...

33
Membuka file 20GB untuk analisis dengan panda

Saat ini saya mencoba untuk membuka file dengan panda dan python untuk tujuan pembelajaran mesin, akan ideal bagi saya untuk memiliki semuanya dalam DataFrame. Sekarang file tersebut berukuran 18GB dan RAM saya 32 GB tetapi saya terus mendapatkan kesalahan memori. Dari pengalaman Anda, mungkinkah?...

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

23
Gagasan Proyek Sains Data [ditutup]

Ditutup . Pertanyaan ini didasarkan pada pendapat . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga dapat dijawab dengan fakta dan kutipan dengan mengedit posting ini . Ditutup 5 tahun yang lalu . Saya...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...