Ilmu Data

40
Ilmu Data dalam C (atau C ++)

Saya seorang Rprogrammer bahasa. Saya juga berada dalam kelompok orang yang dianggap sebagai Ilmuwan Data tetapi berasal dari disiplin akademis selain CS. Ini berfungsi dengan baik dalam peran saya sebagai Data Scientist, namun, dengan memulai karir saya Rdan hanya memiliki pengetahuan dasar...

37
Bagaimana menafsirkan output dari XGBoost pentingnya?

Saya menjalankan model xgboost. Saya tidak tahu persis bagaimana menafsirkan output dari xgb.importance. Apa arti dari Penguatan, Penutupan, dan Frekuensi dan bagaimana kita menafsirkannya? Juga, apa arti Split, RealCover, dan RealCover%? Saya punya beberapa parameter tambahan di sini Apakah ada...

37
Apakah para ilmuwan data menggunakan Excel?

Saya akan menganggap diri saya sebagai ilmuwan data pekerja harian. Seperti kebanyakan (saya pikir), saya membuat bagan pertama saya dan melakukan agregasi pertama saya di sekolah menengah dan perguruan tinggi, menggunakan Excel. Ketika saya melewati masa kuliah, sekolah pascasarjana dan ~ 7 tahun...

35
Penjelasan kerugian lintas-entropi

Misalkan saya membuat NN untuk klasifikasi. Lapisan terakhir adalah lapisan padat dengan aktivasi softmax. Saya memiliki lima kelas yang berbeda untuk diklasifikasi. Misalkan untuk contoh pelatihan tunggal, true labeladalah [1 0 0 0 0]saat prediksi [0.1 0.5 0.1 0.1 0.2]. Bagaimana saya menghitung...

35
Apa pendapat Anda tentang sertifikasi Ilmu Data?

Saya sekarang telah melihat dua program sertifikasi sains data - yang John Hopkins tersedia di Coursera dan yang Cloudera . Saya yakin ada orang lain di luar sana. Rangkaian kelas John Hopkins difokuskan pada R sebagai toolset, tetapi mencakup berbagai topik: Pemrograman R membersihkan dan...

34
Proses terorganisir untuk membersihkan data

Dari sedikit berkecimpung dengan ilmu data menggunakan R, saya menyadari bahwa membersihkan data yang buruk adalah bagian yang sangat penting dalam mempersiapkan data untuk analisis. Apakah ada praktik atau proses terbaik untuk membersihkan data sebelum memprosesnya? Jika demikian, apakah ada...

33
Multi GPU dalam keras

Bagaimana Anda bisa memprogram di perpustakaan keras (atau tensorflow) untuk mempartisi pelatihan pada beberapa GPU? Katakanlah Anda menggunakan instance Amazon ec2 yang memiliki 8 GPU dan Anda ingin menggunakan semuanya untuk berlatih lebih cepat, tetapi kode Anda hanya untuk satu CPU atau...

33
Membuka file 20GB untuk analisis dengan panda

Saat ini saya mencoba untuk membuka file dengan panda dan python untuk tujuan pembelajaran mesin, akan ideal bagi saya untuk memiliki semuanya dalam DataFrame. Sekarang file tersebut berukuran 18GB dan RAM saya 32 GB tetapi saya terus mendapatkan kesalahan memori. Dari pengalaman Anda, mungkinkah?...