Program apa yang harus saya gunakan untuk mentransfer data 20TB di jaringan?

10

Saya perlu menyalin 20TB data ke array thunderbolt. Kotak di mana data ada tidak memiliki koneksi thunderbolt, jadi saya perlu memanfaatkan jaringan 1GB lokal untuk ini. (Ya, itu akan berlangsung selamanya).

Saya mencoba menggunakan Filezilla / sftp, tetapi macet ketika antrian bertambah besar. Apakah rsync atau scp cara untuk pergi?

Lacinda
sumber
2
Bisakah Anda mengeluarkan drive dari perangkat lama dan memasangnya langsung?
Setuju dengan komentar di atas. Transfer fisik memiliki bandwidth terbesar.
Siyuan Ren
Saya suka Carbon Copy Cloner, yang merupakan utilitas GUI yang bagus berdasarkan rsync. Pengembang menggunakan rsync dan membuat banyak perbaikan. Saya tidak dapat berbicara dengan kecepatan vs rsync dan / atau tar atau apa pun, tetapi itu adalah pilihan saya untuk segala jenis transfer data, di mana saya ingin tahu tanpa keraguan bahwa data saya baik setelah semua dikatakan dan dilakukan. Dan jika tidak, CCC akan memberi tahu saya.
Harv
Saya terkejut tidak ada referensi ke Fedex .
tedder42

Jawaban:

16

rsync adalah cara yang baik untuk pergi (scp hampir sama dengan lebih sedikit fitur). Anda mungkin ingin menggunakan -Zopsi, yang akan mengaktifkan kompresi zlib. Bergantung pada seberapa cepat drive / komputer Anda, mungkin lebih cepat daripada mengirim yang tidak terkompresi, yaitu jika tautan jaringan Anda jenuh. Anda juga mungkin menginginkan opsi mode arsip, -ayang akan mempertahankan symlink, izin, dan waktu pembuatan / modifikasi, serta menyalin direktori secara rekursif. Tergantung pada apa yang Anda salin, Anda mungkin ingin -Eyang mempertahankan atribut diperluas dan garpu sumber daya mac. Akhirnya, --progressakan menunjukkan kepada Anda informasi kemajuan.

Michael DM Dryden
sumber
11
rsync juga pandai memulai kembali penyalinan jika ada gangguan.
Lee Joramo
3
Membagi @LeeJoramo, bisa mengetahui di mana transfer gagal gagal sangat penting. Transfer sebesar ini akan gagal di beberapa titik, dan Anda ingin memastikan bahwa Anda tidak kehilangan kemajuan apa pun yang Anda buat pada titik itu.
blahdiblah
6

Meskipun tidak di mana-mana seperti rsync, di masa lalu saya pernah menggunakan panggilan alat "mpscp" - http://www.sandia.gov/MPSCP/mpscp_design.htm

Dari Sandia National Labs, ini adalah alat salin file yang berjalan di atas SSH yang secara khusus dioptimalkan untuk menjenuhkan jaringan berkecepatan tinggi antara sistem tertutup (seperti menyalin terabyte data antara dua super komputer di situs yang sama, terhubung melalui 10Gb + atau Infiniband). Ini bekerja dengan baik, tetapi bisa jadi agak sulit untuk diatur. Dalam pengujian, saya dengan mudah melihatnya menjalankan 2x-3x lebih cepat dari rsync.

Yeraze
sumber
3

Gunakan rsync dan pertimbangkan untuk menggunakannya dengan rsyncd. Jika Anda menggunakan rsync tanpa rsyncd, Anda terjebak menggunakan ssh, yang berarti menggunakan semacam enkripsi. Anda mungkin menyalin data dari mesin yang lebih lama ke mesin yang lebih baru dan mesin yang lebih tua mungkin tidak memiliki CPU yang menggerutu untuk mengenkripsi data untuk transmisi cukup cepat untuk menjaga link Ethernet gigabit jenuh. Tes mentransfer kumpulan file menggunakan kedua metode dan melihat mana yang lebih cepat.

Untuk alasan yang sama saya akan menyarankan pengujian penggunaan opsi kompresi rsync sebelum berkomitmen untuk menggunakannya. Kompresi adalah aktivitas intensif CPU lain yang mungkin tidak dapat mengimbangi kecepatan gigabit Ethernet ketika dicoba pada perangkat keras yang lebih lama. rsync adalah program berusia lima belas tahun, ditulis kembali ketika mayoritas orang bahkan di negara-negara dunia pertama mengakses Internet melalui modem dialup. Bandwidth jaringan vs pengorbanan CPU jauh berbeda saat itu.

Kyle Jones
sumber
Anda benar bahwa rsync default untuk menggunakan ssh, tapi itu bukan satu-satunya pilihan. Anda dapat membuatnya menggunakan rsh sebagai gantinya menggunakan -eopsi. Dengan opsi yang sama, Anda dapat mengubah opsi ssh untuk menggunakan enkripsi intensif CPU kurang: -e 'ssh -c arcfour,blowfish-cbc'atau sejenisnya. Entah ini membuat perbedaan kecepatan dengan mesin modern, saya tidak tahu, tetapi patokan cepat mungkin bermanfaat, terutama dengan 20 TB file.
Michael DM Dryden
3

Apakah 20TB ini dikemas dalam sejumlah kecil file besar (seperti video, database monster) atau jutaan file kecil?

Jika banyak file kecil saya akan menggunakan rsync untuk restart atau aliran tar pipa untuk efisiensi (satu koneksi jaringan untuk lot, mulai lagi dari awal jika gagal)

tar -cf - * | ( cd newhome; tar -xf - )

folder jarak jauh harus dipasang.

Bisakah Anda langsung melampirkan array baru dengan antarmuka yang berbeda? Rsync lokal tidak menggunakan ssh sehingga Anda menghapus titik kegagalan itu. Ya, Firewire 800 lebih lambat dari gigabit ethernet tetapi Anda tidak dapat memuat ethernet hingga 100% - mungkin lebih cepat dengan firewire. FYI Anda juga dapat jaringan firewire jika kotaknya cukup dekat. Tambahkan antarmuka dalam preferensi sistem -> jaringan.

paul
sumber
0

Pilihan lain adalah mencoba Bittorrent Sync ( http://www.bittorrent.com/sync ). Saya telah menggunakannya untuk menyinkronkan foto dan video keluarga antara anggota keluarga kami di WAN tetapi tidak ada alasan itu tidak akan berfungsi untuk jaringan lokal. Ini menggunakan koneksi peer-to-peer sehingga data tidak akan melalui server seperti itu jika Anda mencoba menggunakan sesuatu seperti dropbox (bukankah saya pikir Anda memiliki 20TB ruang dropbox atau ingin menunggu selama itu untuk mengunggah sebanyak itu data!)

Ini juga didukung pada banyak platform sehingga memiliki lebih banyak fleksibilitas daripada rsync dan tar.

KenB
sumber