Untuk "tujuan menyewa", saya harus menentukan sumber daya komputasi yang saya butuhkan dari pusat komputasi di Universitas saya. Saya tidak tahu apa yang harus saya tanyakan.
Mempertimbangkan informasi di bawah ini, bisakah Anda menyarankan sesuatu?
Ini adalah cluster komputasi: "Server sepuluh blade dengan masing-masing blade terdiri dari 2 Quad Core Intel Xeon 2.33 Ghz CPU dengan 16 GB memori untuk total 80 CPU dan 160 GB memori. Akun pada sistem disk 2 TB. Menjalankan Linux 64-bit "
Dengan kompresi lossless, data asli adalah satu file tiff 50GB. Pada titik waktu tertentu saya akan bekerja dengan beberapa (hingga sepuluh) file berukuran 50 GB.
Saya akan menggunakan GDAL, Python scripting dan mungkin C ++ scripting. Jika diizinkan, saya akan menggunakan perangkat lunak seperti Grass GIS dan Saga GIS. Juga, bahasa R dengan perpustakaan spasial. Saya akan menurunkan parameter medan yang biasa, mencoba menerapkan algoritma berorientasi objek untuk ekstraksi fitur tertentu (bentuk lahan) dan menggunakan analisis statistik untuk tujuan deskriptif dan pemodelan.
Jawaban:
Seperti yang dinyatakan DavidF dalam komentar yang lebih penting adalah stategy, tidak masalah dengan mesinnya, Anda tidak dapat menjalankan (atau itu bukan ide yang baik untuk menjalankan) aljabar matriks 50GB dengan seluruh matriks sekaligus karena secara konseptual ini mengimplikasikan bahwa seluruh matriks harus ditulis ke memori.
Strategi yang baik, cepat, sangat mudah dan efisien adalah dengan menggunakan gdal_calc , membaca dan menulis raster dalam potongan-potongan sehingga sangat hemat memori.
Sebagai contoh: gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"
Cobalah, sangat mungkin bahwa Anda dapat menjalankan pemrosesan di desktop Anda, dan kemudian Anda mungkin hanya perlu mesin yang lebih baik untuk mempercepat proses atau tidak.
Obs: Anda perlu melakukan spam beberapa proses gdal_calc untuk memanfaatkan prosesor multicore.
sumber