Bagaimana perusahaan besar membuat cadangan data mereka?

8

Bagaimana perusahaan yang menangani data dalam jumlah besar, misalnya Google atau Facebook, membuat cadangan semuanya?

Menurut artikel platform Google ini di Wikipedia, Google memiliki sekitar 450.000 server masing-masing dengan hard disk 80+ GB. Itu banyak data. Apakah mereka benar-benar menyimpan cadangan 1+ GB untuk setiap 1 GB data?

Olivier Lalonde
sumber
Saya ragu Boogle mencadangkan perangkat lunak server karena mereka tampaknya dapat membangun server dari bare metal dengan sangat cepat. Mereka tampaknya memiliki salinan cadangan data pengguna.
BillThor
Ya, Google memiliki lebih dari 1 juta server (dari 2007): pandia.com/sew/481-gartner.html
Kedare
Saya pikir Anda membuat SATU kesalahan mendasar: GOogle memiliki BANYAK server yang semuanya SIMILAR. Node server X yang melayani indeks. ANDA tidak mencadangkan indeks yang sama satu juta kali.
TomTom

Jawaban:

8

Itu tergantung pada apa tujuan Anda.

Jika Anda mencari cadangan untuk pemulihan bencana (server meledak, pusat data terbakar, dll) maka jawaban singkatnya adalah mereka mungkin tidak melakukan pencadangan sama sekali. Kami memiliki klien yang berurusan dengan data pemerintah yang sensitif, dan bagian dari mandat mereka adalah bahwa kami tidak diizinkan melakukan pencadangan atau pencadangan ke media yang dapat dilepas . Kami diizinkan replikasi langsung ke situs DR dan hanya itu. Kedua situs tercakup dalam tingkat keamanan fisik dan logis yang sama. Tangkapan di sini adalah bahwa jika saya mengacaukan sesuatu di Situs A, maka itu direplikasi ke Situs B hampir secara instan.

Jika Anda berbicara tentang cadangan dari sudut pandang integritas data (mis. Anda secara tidak sengaja menjatuhkan tabel Pelanggan dan itu sudah direplikasi ke situs DR), maka kaset KPP-5 di perpustakaan tape besar sering kali menjadi pilihan. Dengan hingga 3TB per kaset, dan beberapa kaset di perpustakaan tape Anda dapat dengan cepat mencadangkan sejumlah besar data (cepat di sini mengacu pada Mbps, mungkin masih diperlukan banyak, berjam-jam untuk mencadangkan 25TB data).

Setiap suite cadangan yang layak akan melakukan kompresi dan de-duping tinggi, yang sangat mengurangi jumlah ruang penyimpanan yang dibutuhkan. Saya melihat perkiraan untuk alat cadangan Exchange terkompresi dan de-duped sekali yang mengklaim rasio 15: 1 (15gb data yang disimpan dalam cadangan 1gb).

Saya sangat meragukan Google repot-repot dengan cadangan untuk banyak data mesin pencari mereka, karena sebagian besar dapat diganti, dan itu didistribusikan begitu jauh dan luas sehingga jika mereka kehilangan bahkan bagian yang signifikan, atau mungkin bahkan keseluruhan, pusat data sistem tetap online berkat kegagalan rute BGP.


Sebenarnya, sepertinya Google melakukan back up metrik ton data ke tape , yang tidak sesuai dengan yang saya harapkan:

Bagian dari perpustakaan tape Google

Mark Henderson
sumber
2

Sebagian besar data mereka disimpan di sistem file GFS mereka sendiri, dan GFS mengharuskan setidaknya ada tiga salinan dari setiap blok 64 MB yang membuat file (GFS menggunakan blok 64 MB). Karena itu, saya tidak berpikir mereka repot-repot dengan cadangan, karena mereka memiliki setidaknya tiga salinan dari setiap file, dan blok pada node gagal dapat dengan cepat diganti dengan hanya mereplikasi data dari salah satu dari dua salinan baik yang tersisa ke node baru.

Untuk informasi lebih lanjut, lihat http://labs.google.com/papers/gfs.html

ipozgaj
sumber
1
Redundansi meningkatkan ketersediaan, tetapi itu bukan cadangan (dan Anda tidak menyebutnya begitu) karena mudah ditimpa.
Tobu
Ya, itu poin bagus. Maksud saya hanyalah bahwa mereka mungkin tidak memerlukan cadangan untuk sebagian besar data mereka.
ipozgaj
0

Jawaban farseeker baik tetapi saya pikir dapat diklarifikasi dengan memikirkannya dari perspektif ini: Apa yang Anda coba kembalikan? Apakah itu untuk DR? Apa waktu pemulihan yang dibutuhkan? Sebagai contoh, misalkan perusahaan Anda mengandalkan database server 25 TB sql. Dalam hal kegagalan atau kesalahan data (tabel jatuh, db rusak dll) CTO ingin dapat memulihkan database dalam waktu kurang dari satu jam. Dalam kasus kegagalan situs diperlukan 2 jam.

Secara langsung ini kedengarannya sulit tetapi bukan tidak mungkin. Karena Anda tahu strategi cadangan Anda harus pulih dalam satu jam, Anda tahu bahwa Anda tidak akan memulihkan cadangan penuh, Anda harus bekerja dengan tim dba untuk memastikan bahwa DB dipartisi menjadi potongan yang dapat dikelola. Anda juga akan sering melakukan pencadangan trans-log. Untuk DR harus melihat strategi replikasi (mungkin versi waktu tertunda dengan data log direplikasi secara realtime tetapi tidak diterapkan). Seperti yang dikatakan farseeker, itu tergantung pada tujuannya, dan tujuan itu seharusnya untuk melakukan semacam pemulihan.

Jim B
sumber