Sumber daya pemrosesan cluster diperlukan untuk DEM 50 Gb?

9

Untuk "tujuan menyewa", saya harus menentukan sumber daya komputasi yang saya butuhkan dari pusat komputasi di Universitas saya. Saya tidak tahu apa yang harus saya tanyakan.

Mempertimbangkan informasi di bawah ini, bisakah Anda menyarankan sesuatu?

Ini adalah cluster komputasi: "Server sepuluh blade dengan masing-masing blade terdiri dari 2 Quad Core Intel Xeon 2.33 Ghz CPU dengan 16 GB memori untuk total 80 CPU dan 160 GB memori. Akun pada sistem disk 2 TB. Menjalankan Linux 64-bit "

Dengan kompresi lossless, data asli adalah satu file tiff 50GB. Pada titik waktu tertentu saya akan bekerja dengan beberapa (hingga sepuluh) file berukuran 50 GB.

Saya akan menggunakan GDAL, Python scripting dan mungkin C ++ scripting. Jika diizinkan, saya akan menggunakan perangkat lunak seperti Grass GIS dan Saga GIS. Juga, bahasa R dengan perpustakaan spasial. Saya akan menurunkan parameter medan yang biasa, mencoba menerapkan algoritma berorientasi objek untuk ekstraksi fitur tertentu (bentuk lahan) dan menggunakan analisis statistik untuk tujuan deskriptif dan pemodelan.

Marco
sumber
3
Apa sebenarnya yang Anda harapkan dari sebuah jawaban - berapa jumlah atau jumlah yang dapat diminta? Jumlah blade, jumlah core pada 1 blade, dll? Apakah ada formulir yang harus Anda isi yang bisa memberikan petunjuk?
blah238
1
Hai. Tidak ada bentuk. Atasan saya menanyakan pertanyaan-pertanyaan ini sebelumnya (dengan sesuatu yang tidak saya sadari). Tapi, nanti, ketika mengakses platform, jumlah prosesor harus ditentukan secara tepat, serta kebutuhan memori yang diharapkan dan waktu pemrosesan. Jadi, akan lebih baik untuk memiliki ide tentang tidak. prosesor dan jumlah memori yang akan memungkinkan melakukan aljabar matriks sederhana (A * 0,1 + B + C / 50), masing-masing ukuran matriks 50Gb dalam, misalnya, kurang dari satu jam (mengingat bahwa perangkat lunak memungkinkan komputasi paralel) ). Terima kasih.
Marco
2
Mungkin membantu jika Anda menentukan strategi Anda untuk menyerang masalah terlebih dahulu. Saya tidak percaya bahwa 'out of the box' skrip Python Anda (menggunakan binding GDAL) akan dapat memanfaatkan banyak prosesor. Bagaimana Anda berencana untuk membagi data dan bekerja untuk pemrosesan paralel. Anda kemudian dapat menjalankan beberapa tes pada sepotong data dan memperkirakan waktu pemrosesan total berdasarkan jumlah core yang Anda rencanakan untuk digunakan, dll.
DavidF
Terima kasih David. Saya telah memikirkan lebih mendalam tentang ini. Saya akan melakukan beberapa tes dengan Matlab.
Marco

Jawaban:

2

Jadi, akan lebih baik untuk memiliki ide tentang tidak. prosesor dan jumlah memori yang memungkinkan melakukan aljabar matriks sederhana (A * 0,1 + B + C / 50)

Seperti yang dinyatakan DavidF dalam komentar yang lebih penting adalah stategy, tidak masalah dengan mesinnya, Anda tidak dapat menjalankan (atau itu bukan ide yang baik untuk menjalankan) aljabar matriks 50GB dengan seluruh matriks sekaligus karena secara konseptual ini mengimplikasikan bahwa seluruh matriks harus ditulis ke memori.

Strategi yang baik, cepat, sangat mudah dan efisien adalah dengan menggunakan gdal_calc , membaca dan menulis raster dalam potongan-potongan sehingga sangat hemat memori.

Sebagai contoh: gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"

Cobalah, sangat mungkin bahwa Anda dapat menjalankan pemrosesan di desktop Anda, dan kemudian Anda mungkin hanya perlu mesin yang lebih baik untuk mempercepat proses atau tidak.

Obs: Anda perlu melakukan spam beberapa proses gdal_calc untuk memanfaatkan prosesor multicore.

Pablo
sumber