Ilmu Data

12
Apa itu 'nama lama' ilmuwan data?

Istilah seperti 'ilmu data' dan 'ilmuwan data' semakin banyak digunakan akhir-akhir ini. Banyak perusahaan merekrut 'ilmuwan data'. Tapi saya pikir itu bukan pekerjaan yang sama sekali baru. Data sudah ada dari masa lalu dan seseorang harus berurusan dengan data. Saya kira istilah 'ilmuwan data'...

12
Mengunduh dataset besar di web langsung ke AWS S3

Adakah yang tahu apakah mungkin mengimpor set data besar ke Amazon S3 dari URL? Pada dasarnya, saya ingin menghindari mengunduh file besar dan kemudian mengunggahnya kembali ke S3 melalui portal web. Saya hanya ingin menyediakan URL unduhan ke S3 dan menunggu mereka mengunduhnya ke sistem file...

12
MinHashing vs SimHashing

Misalkan saya memiliki lima set yang ingin saya klaster. Saya mengerti bahwa teknik SimHashing dijelaskan di sini: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ dapat menghasilkan tiga cluster ( {A}, {B,C,D}dan {E}), misalnya, jika hasilnya adalah: A -> h01 B...

12
Berapa banyak dimensi yang harus dikurangi saat melakukan PCA?

Bagaimana cara memilih K untuk PCA? K adalah jumlah dimensi untuk diproyeksikan ke. Satu-satunya persyaratan adalah tidak kehilangan terlalu banyak informasi. Saya mengerti ini tergantung pada data, tetapi saya mencari lebih banyak gambaran umum sederhana tentang karakteristik apa yang harus...

12
Bagaimana cara menggabungkan dua frame data dalam Python Pandas?

Saya memiliki dua frame data df1 dan df2 dan saya ingin menggabungkannya menjadi satu frame data. Seolah-olah df1 dan df2 dibuat dengan memisahkan satu frame data di tengah secara vertikal, seperti merobek selembar kertas yang berisi daftar menjadi dua sehingga separuh kolom diletakkan pada satu...

12
Perlu bantuan untuk memahami proposal poin split perkiraan xgboost

Latar Belakang: di xgboost yang iterasi mencoba untuk menyesuaikan pohon atas segala contoh yang meminimalkan tujuan berikut:f t ntttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] di mana adalah urutan pertama dan kedua, di...

12
Mengimpor konten file csv ke dalam kerangka data pyspark

Bagaimana saya bisa mengimpor file .csv ke dalam dataframe pyspark? Saya bahkan mencoba membaca file csv di Pandas dan kemudian mengubahnya menjadi dataframe percikan menggunakan createDataFrame, tetapi masih menunjukkan beberapa kesalahan. Bisakah seseorang membimbing saya melalui ini? Juga,...

12
Bagaimana cara menggunakan RBM untuk klasifikasi?

Saat ini saya sedang bermain dengan Mesin Boltzmann Terbatas dan sejak itu saya ingin mengklasifikasikan angka tulisan tangan. Model yang saya buat sekarang model generatif yang cukup mewah tapi saya tidak tahu bagaimana melangkah lebih jauh dengannya. Dalam artikel ini penulis mengatakan, bahwa...