Mentransfer 10 TB file dari pusat data AS ke Inggris

96

Saya memigrasi server saya dari Amerika Serikat ke Inggris dari satu pusat data ke yang lain. Tuan rumah saya mengatakan saya harus bisa mencapai 11 megabita per detik.

Sistem operasi adalah Windows Server 2008 di kedua ujungnya.

Ukuran file rata-rata saya sekitar 100 MB dan data dibagi menjadi lima drive 2 TB.

Apa cara yang disarankan untuk mentransfer file-file ini?

  • FTP
  • SMB
  • Rsync / Robocopy
  • Lain?

Saya tidak terlalu peduli dengan keamanan karena ini adalah file publik, tapi saya hanya ingin solusi yang dapat mendorong kecepatan transfer 11 MB / s penuh untuk meminimalkan total waktu transfer.

Paul Hinett
sumber
19
11 MB / s atau 11 Mb / s?
wim
14
mentransfer data ke kartu punch biner dan menggunakan merpati
pos
9
Anda harus memberikan detail. Menurut Anda, berapa banyak merpati pos yang dibutuhkan? Tunjukkan pekerjaan Anda.
Evik James
18
@Evik Eropa atau Afrika?
wim
8
Sebagai tambahan, Wolfram Alpha adalah cara paling mudah untuk melakukan perhitungan, "10 TB pada 11MB / s". wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
pufferfish

Jawaban:

173

Kirim hard drive melintasi laut sebagai gantinya.

Pada 11 Mbps dengan pemanfaatan penuh, Anda hanya membutuhkan waktu 90 hari untuk mentransfer 10 TB.


11 Mbps = 1.375 MBps = 116.015 GB / hari .

10240 GB / 116.015 GB / hari = ~ 88,3 hari .

Shane Madden
sumber
42
+1 untuk Sneakernet . Anda juga lupa overhead TCP / IP. Ini lebih seperti ~ 100 hari dalam kondisi ideal.
Chris S
43
Seorang pria bijak pernah berkata, "Jangan pernah meremehkan lebar pita station wagon yang penuh dengan kaset yang meluncur di jalan raya". Persamaan ini sangat benar dan tidak banyak berubah dengan mengubah station wagon untuk kapal. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Rob Moir
5
Lebih baik mengirimkan kaset, atau disk blueray, daripada drive. Jika Anda menggunakan drive, pastikan dokumen asli disimpan dengan aman dan tersedia untuk berjaga-jaga. Saya akan menggunakan drive sendiri (kecuali jika saya memiliki drive Ultrium 4) karena 10 TB = 410 disk blueray single layer!
Allen
9
Baru menyadari bahwa saya mengetik 11Mbps, namun sebenarnya yang saya maksud adalah 11MB / s. Saya kira ini membuat perbedaan yang sangat besar, perhitungan saya sekitar 11-14 hari kira-kira ... apakah ini benar?
Paul Hinett
18
masih percaya bahwa mengirim seorang pria yang diawasi dengan cadangan 10TB sementara disk resmi masih berfungsi maka setelah pengaturan selesai, Anda dapat makan siang rsync untuk memperbarui server baru untuk setiap perubahan. Anda akan menyalakan dan menjalankan mesin sekitar satu hari.
Loïc Faure-Lacroix
26

Saya akan mengatakan rsync, pada 11 MB / s Anda akan melihat 10-14 hari dan bahkan jika Anda terganggu, rsync akan dengan mudah memulai di mana ia berhenti terakhir kali.

Pada 11 Mbps saya akan mengirimkan hard disk seperti yang disarankan di atas :)

Lucas Kauffman
sumber
1
Perkiraan Anda berbeda sangat signifikan dari yang diposkan orang lain (dan saya tidak tahu siapa yang benar). Bisakah Anda menyediakan metodologi Anda untuk sampai pada angka-angka itu?
John Gardeniers
9
Perbedaan muncul dari OP salah saji 11 Mbps padahal sebenarnya maksudnya 11 MBps - yang 8 kali lebih cepat. BTW, memulai kembali 10 TB rsync dalam kasus gangguan mungkin akan memakan waktu cukup lama, bukan? Berjam-jam, atau lebih lama?
Frank Farmer
@ Frankfarmer: saya tidak akan khawatir tentang restart rsync; Saya menyimpan salinan di luar kantor sebesar ~ 20TB melalui saluran nirkabel 30Mbps, dan memulai kembali dalam kisaran detik. salinan awal memakan waktu beberapa minggu, tetapi pembaruan setiap malam biasanya beberapa jam.
Javier
@ Frankfarmer - rsync tampaknya berskala sangat baik. Saya memiliki ~ 2TB di atas garis ADSL1 pedesaan yang diinitalisasi dengan sneakernet, tetapi membutuhkan ~ 5 menit untuk rsync setiap malam jika tidak ada yang berubah.
Flexo
6
rsync memulai kembali skala waktu dengan jumlah file (terutama dari statwaktu, menurut pengalaman saya), bukan dengan data total. Saya harapkan tidak menunggu signifikan (paling banyak beberapa menit). Meskipun pengalaman saya dengan puncak rsync sedikit di bawah 5TB.
derobert
15

Rsync tentu saja.

Setidaknya Anda dapat melanjutkan kapan saja setelah istirahat, dan itu tanpa rasa sakit.

Korjavin Ivan
sumber
7
3+ bulan untuk menyalin dengan pemanfaatan 100%. Maaf, tapi itu cara yang mengerikan untuk mentransfer data sebanyak itu.
Chris S
Saya harus setuju dengan @ChrisS, menggunakan rsynchanya untuk menyalin file besar tidak efisien. Untuk barang-barang saya, saya akhirnya menggunakan tarlebih dari netcatatau sshuntuk transfer awal. Ini jauh lebih cepat dan mulai mentransfer segera, sementara rsyncakan memindai semua file terlebih dahulu yang membutuhkan waktu. Jika ini terputus, Anda masih bisa menggunakannya rsyncsesudahnya. Bahkan, saya melakukan ini kadang-kadang setelah taritu untuk memastikan semua izin, file soket, dll sudah benar.
Martin Scharrer
1
Setelah OP mengoreksi bahwa dia punya ~ koneksi 100Mb, bukan 11Mb, rsync jauh lebih masuk akal. +1 untuk yang pertama menyebutkannya.
Chris S
12

Jangan pernah meremehkan bandwidth dari station wagon yang penuh dengan kaset

- Trad.

Dalam kasus Anda, disk atau kaset dikirim oleh kurir, tetapi prinsipnya masih berlaku. Jika Anda tidak peduli tentang latensi, ini akan jauh lebih murah daripada bandwidth jaringan untuk mentransfer 10TB data dalam jangka waktu yang wajar.

ConcernedOfTunbridgeWells
sumber
Jeff Atwood berlari angka-angka dalam salah satu posting Coding Horror lamanya .. codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate
10

Anda harus menggunakan rsync. Ini akan memampatkan data dan menduplikat sebelum mengirim. Itu juga dapat melanjutkan transfer parsial, yang sangat penting untuk transfer besar.

Kemungkinan tidak mentransfer 10 TB; jika log dan teks dan semacamnya bisa di bawah 1 TB; mungkin jauh di bawah 1 TB.

Ada alat yang melakukan pekerjaan kompresi yang lebih baik daripada rsync dan kemungkinan menemukan lebih banyak kecocokan. Anda bisa menggunakan lrzip, dll.

Ada tipe data tertentu yang tidak kompres dengan baik dan tidak mengandung dupe literal - video dan media lainnya misalnya. Dalam kasus tersebut, FTP dan rsync melakukan banyak upaya yang sama.

Akan
sumber
3
RSync mendupuplikasi data? Saya pikir itu hanya melakukan ini di tingkat file, yang berarti deduplikasi sebagian besar tidak berguna dalam kasus ini.
devicenull
6

Saya tahu ini sudah diterima tetapi sudahkah Anda mempertimbangkan untuk membawa disk ke pusat data / penyedia / host tempat Anda bisa mendapatkan lebih banyak bandwidth? Mungkin akan dikenakan biaya sejumlah uang tetapi menyalin 10240Gb ke disk cadangan dan pengiriman juga akan menghabiskan waktu dan uang (2 x uang).

Anda juga akan memastikan disk Anda tidak rusak saat diangkut.

Asken
sumber
Bagaimana jawaban ini berbeda dari jawaban yang diterima?
Chris S
2
@ Chris Jawaban ini menyarankan untuk mengangkut disk ke pipa yang lebih besar di benua yang sama.
Alex Jasmin
5

11Mbps? Ini adalah batasan yang Anda miliki di sini. Dalam situasi Anda, saya hanya akan:

  • Mengkloning data
  • Kompreslah
  • Sewa server di kedua ujungnya dengan bandwidth minimal 10 kali lebih banyak (di pusat data yang sama atau di ujung Anda di pusat data di dekat Anda).
  • Transfer file
  • Terapkan data ke server baru.

Jika Anda benar-benar tidak punya solusi untuk meningkatkan bandwidth ... Maka pengiriman drive fisik akan jauh lebih cepat.

Dari pengalaman menyakitkan saya, hard drive cenderung rusak ... USB flash drive adalah solusi yang lebih baik untuk transfer data yang sering. Dalam kasus Anda itu akan memerlukan beberapa dari mereka :) Jadi, kirim 2 salinan data Anda pada beberapa hard drive.

Mengingat jumlah data yang Anda miliki, Anda juga dapat mengirim drive dari array RAID 5 atau RAID 6 jika Anda memiliki perangkat keras / perangkat lunak yang sama di sisi lain untuk menyambungkan drive Anda. Tetapi jika demikian ingatlah untuk menandai urutan drive Anda. dan nomor seri mereka sehingga ketika mengkonfigurasi ulang mereka tidak tercampur aduk.

Anjing hutan
sumber
1
maaf, 11Mbps adalah kesalahan ketik, 11MB / s ... saya sebutkan di salah satu komentar di atas.
Paul Hinett
4

Sementara saya harus menyetujui jawaban "kirim menggunakan harddisk" dalam kasus ini, di sini solusi salin yang saya gunakan ketika saya harus menyalin sejumlah besar file untuk pertama kalinya:

Meskipun rsyncbaik untuk menjaga dua penyimpanan data tetap sinkron, ini memperkenalkan sedikit overhead yang tidak perlu untuk transfer awal. Saya pikir cara tercepat adalah tarmenyalurkannya netcat. Di situs penerima Anda juga dapat menggunakan netcatdalam mode mendengarkan yang menyalurkan data yang masuk ke ekstraksi tar. Keuntungannya adalah tarmulai mengirim segera dan netcatmengirimkannya sebagai aliran TCP polos tanpa overhead protokol tingkat lebih tinggi. Ini harus secepat yang didapat. Namun, tidak mudah untuk memulai kembali transfer yang terputus di posisi terakhir.

Juga dimungkinkan untuk mengompres data untuk transfer dengan menggunakan taropsi yang tepat atau menambahkan alat kompresi di dalam pipa. Catatan yang netcatmengirim tanggal tidak terenkripsi. Dalam kasus di mana ini bukan opsi, sshkoneksi terenkripsi dapat digunakan sebagai gantinya ( tar <options> | ssh <target> -c 'tar -x <options>').

Jika semua data ditransfer rsyncdapat digunakan untuk memastikan bahwa semua file yang diperbarui sementara disinkronkan. Selain itu IIRC tartidak membuat soket yang akan hilang jika tidak, tetapi mereka tidak benar-benar digunakan untuk data pusat data.

Martin Scharrer
sumber
Kelemahannya adalah tidak toleran terhadap interupsi
Joel Coel
3

Sudahkah Anda mempertimbangkan IPoAC ?

Seekor merpati tunggal mungkin dapat membawa puluhan gigabyte data dalam waktu sekitar satu jam, yang secara rata-rata bandwidth membandingkan dengan standar ADSL saat ini, bahkan ketika menghitung drive yang hilang.

wim
sumber
21
Merpati akan menderita kehilangan sinyal pada jarak yang dijelaskan oleh OP.
Roy Tinker
@RoyTinker Cleared IPoAC perlu diimplementasikan menggunakan proses windowing.
JamesBarnett
3

Sekali lagi, saran pertama adalah mengirimkan drive.

Saran kedua adalah menggunakan rsync ke rsyncd, bukan melalui SSH. Saya sudah mencoba banyak hal dan biasanya yang tercepat. Ingatlah untuk mengaktifkan kompresi. Juga, lihat menambah atau mengurangi ukuran buffer rsync untuk mendapatkan kecepatan transfer yang optimal. Mungkin juga membantu meningkatkan ukuran MTU Anda . Ini hanya membantu jika router dalam perjalanan tidak memecah-pecah paket Anda. Ada cara untuk menentukan apakah mereka melakukannya.

Sayangnya tidak ada pengaturan yang selalu yang terbaik. Anda harus bereksperimen untuk mencari tahu apa yang paling sesuai dengan situasi Anda.

sjbotha
sumber
2

Anda menyebutkan server menjalankan Windows 2008. Apakah Microsoft DFS cocok? Ada beberapa keajaiban di ujung bawah yang mencoba untuk mendapatkan bandwidth sebanyak mungkin dari koneksi, dan juga memiliki kompresi dan de-duplikasi (IIRC).

Pikiran Anda, hard drive, DVD atau BluRays akan lebih cepat ... Perhitungan saya adalah 11 hari pada penuh 11 MB / s ...

Tiernano
sumber
1

Anda dapat menggunakan torrent untuk ini.

Buat torrent pribadi di satu ujung dan gunakan klien di sisi lain.

Meskipun ada enkripsi di tempat Anda harus memeriksa dengan persyaratan Anda.

Drago
sumber
1
Hubungan torrent 1 ke 1 tidak lebih baik dari transfer file 1 ke 1. Jika ada pipa yang terbatas di antara kedua lokasi, Anda memerlukan banyak seeder pada pipa yang berbeda, idealnya didistribusikan secara geografis.
Jeremy
@ Jeremy - tidak ada yang lebih baik atau lebih buruk dalam hal throughput. Mungkin lebih baik dalam hal keandalan (easy pause / resume), yang untuk ukuran ini xfer bisa menjadi penting
Joel Coel