Python memiliki beberapa alat yang sangat bagus untuk bekerja dengan data besar:
numpy
Array memmory-mapped Numpy memungkinkan Anda mengakses file yang disimpan di disk seolah-olah itu sebuah array. Hanya bagian-bagian dari array yang Anda gunakan secara aktif yang perlu dimuat ke dalam memori. Dapat digunakan hampir sama dengan array biasa.
h5py dan pytables
Kedua perpustakaan ini menyediakan akses ke file HDF5. File-file ini memungkinkan akses ke bagian data saja. Lebih lanjut, berkat pustaka dasar yang digunakan untuk mengakses data, banyak operasi matematika dan manipulasi data lainnya dapat dilakukan tanpa memuatnya ke dalam struktur data python. File masif, sangat terstruktur dimungkinkan, jauh lebih besar dari 5 TB. Ini juga memungkinkan kompresi yang mulus dan tanpa kehilangan.
basis data
Ada berbagai jenis database yang memungkinkan Anda untuk menyimpan kumpulan data besar dan memuat hanya bagian-bagian yang Anda butuhkan. Banyak basis data memungkinkan Anda untuk melakukan manipulasi tanpa memuat data ke dalam struktur data python sama sekali.
panda
Ini memungkinkan akses tingkat yang lebih tinggi ke berbagai jenis data, termasuk data HDF5, file csv, database, bahkan situs web. Untuk data besar, ia menyediakan pembungkus di sekitar akses file HDF5 yang membuatnya lebih mudah untuk melakukan analisis pada set data besar.
mpi4py
Ini adalah alat untuk menjalankan kode python Anda secara terdistribusi di banyak prosesor atau bahkan beberapa komputer. Ini memungkinkan Anda untuk bekerja pada bagian data Anda secara bersamaan.
dask
Ini memberikan versi array numpy normal yang mendukung banyak operasi numpy normal dengan cara multi-core yang dapat bekerja pada data yang terlalu besar untuk masuk ke dalam memori.
api
Alat yang dirancang khusus untuk data besar. Ini pada dasarnya adalah pembungkus di sekitar perpustakaan di atas, menyediakan antarmuka yang konsisten untuk berbagai metode yang berbeda untuk menyimpan data dalam jumlah besar (seperti HDF5 atau database) dan alat untuk membuatnya mudah untuk memanipulasi, melakukan operasi matematika, dan menganalisis data yang terlalu besar untuk masuk ke memori.