Adakah yang tahu apakah mungkin mengimpor set data besar ke Amazon S3 dari URL?
Pada dasarnya, saya ingin menghindari mengunduh file besar dan kemudian mengunggahnya kembali ke S3 melalui portal web. Saya hanya ingin menyediakan URL unduhan ke S3 dan menunggu mereka mengunduhnya ke sistem file mereka. Sepertinya ini hal yang mudah dilakukan, tetapi saya tidak dapat menemukan dokumentasinya.
Jawaban:
Karena Anda jelas memiliki akun AWS, saya akan merekomendasikan yang berikut ini:
wget http://example.com/my_large_file.csv
.s3cmd
untuk mengunggah file ke S3. Sebagai contoh:s3cmd cp my_large_file.csv s3://my.bucket/my_large_file.csv
Karena koneksi yang dibuat antara berbagai layanan AWS memanfaatkan jaringan internal AWS, mengunggah dari instance EC2 ke S3 cukup cepat. Jauh lebih cepat daripada mengunggahnya dari komputer Anda sendiri. Dengan cara ini Anda dapat menghindari mengunduh file ke komputer dan menghemat waktu pengunggahan yang signifikan melalui antarmuka web.
sumber
Luncurkan instance EC2 dengan penyimpanan yang cukup
ssh ke instance
Dapatkan perintah curl yang sesuai dengan unduhan dari mesin lokal Anda. Anda dapat menggunakan opsi pengembang di Google chrome -> tab jaringan -> salin -> salin sebagai ikal (langkah ini diperlukan untuk beberapa situs web yang memerlukan otentikasi seperti kaggle)
Dari terminal instance, jalankan
curl
perintah (tambahkan-o output_file
ke perintah). Ini akan mengunduh dan menyimpan fileKonfigurasikan kredensial aws untuk menghubungkan instance ke s3 (salah satu caranya adalah dengan menggunakan perintah
aws config
, berikan ID kunci akses AWS dan rahasia),Gunakan perintah ini untuk mengunggah file ke s3:
sumber
Lihat dokumentasi Aws: http://aws.amazon.com/code ada perpustakaan yang tersedia untuk sebagian besar bahasa pemrograman. Jadi Anda dapat membuat ember dan mengonfigurasi dalam kode Anda untuk mengambil data dari url dan menulis ke ember ini di s3
untuk eg dengan python:
Ref: https://boto.readthedocs.org/en/latest/s3_tut.html
sumber
Anda dapat memasang ember s3 ke instance EC2 dan kemudian cd ke / path / ke / s3_mounted_on_a_folder, di sana Anda cukup menggunakan perintah:
untuk memasang s3 ke EC2 Anda, gunakan s3fs.
sumber