Database Kapasitas 100 TeraBytes - Sumber Daya dan Perkiraan Waktu

10

Saya sedang mengerjakan perhitungan 'belakang amplop' untuk pengaturan basis data pelaporan 100TB. Saya mencari pemikiran dari para ahli di sini. Lingkungan yang diusulkan:

  1. Kapasitas Penyimpanan ~ 100TB
  2. Tabel ~ 200, ukuran mulai dari 1GB hingga 5TB. ukuran rata-rata bisa berada di antara 100GB-200GB
  3. ETL - pekerjaan mungkin memerlukan gabungan antara tabel 10 dari jutaan baris, dengan kunci gabungan mulai dari 10 byte hingga 500 byte. gabungan seperti itu harus selesai dalam waktu kurang dari 2-5 menit
  4. Live Selects - awalnya, hanya tertarik pada kecepatan tertentu. harus mendukung 500 pilihan / detik. Pembaruan / detik akan menjadi jumlah yang relatif jauh lebih kecil dan dapat diabaikan untuk latihan ini.
  5. membutuhkan ketersediaan 24x7. 2 server DB independen harus tersedia untuk melayani panggilan tertentu (dengan data direplikasi).

Pertanyaan:

  1. Saat ini, saya sedang melihat Oracle. Bagaimana pengalaman Anda dengan solusi opensource komersial (atau) lainnya untuk basis data besar?
  2. Hardware-OS apa yang Anda lihat berfungsi paling baik? Saya berencana untuk Linux di Dell.
  3. Apakah penyimpanan Jaringan, seperti NetApp, suatu keharusan? Masalah apa yang Anda ramalkan dengan menggunakan iklan di luar rak disk?
  4. Setelah perangkat keras dan OS siap, berapa banyak waktu yang Anda sisihkan untuk pengaturan, konfigurasi DB, penyimpanan dll.
  5. Komposisi tim apa yang paling berhasil di lingkungan yang telah Anda amati? Maksud saya, berbagai Admin (Admin OS, Oracle DB Admin?) Yang diperlukan untuk mengelola dan mengoperasikan pengaturan seperti itu. Berapa banyak dari mereka yang mungkin diperlukan untuk mencapai uptime 24x7.
  6. Setiap perkiraan / kisaran pada Lisensi DB, biaya Penyimpanan Jaringan.

Saya tahu saya tidak memiliki semua detail lingkungan. Saya tidak mencari detail yang tepat, perkiraan sudah cukup. Meskipun beberapa pertanyaan mungkin paling baik dijawab oleh manajer, saya tertarik pada perspektif Admin. Saya menghargai masukan Anda.

Kash
sumber
1
Saya pikir pertanyaan ini terlalu luas untuk dijawab. Saya akan membiarkan orang lain melihat apakah mereka setuju sebelum saya maju.
Philᵀᴹ
1
@Phil Saya setuju, saya tidak yakin apakah ini harus dibagi menjadi beberapa pertanyaan, sehingga pengguna dengan keahlian yang berbeda dapat menjawab bagian yang berbeda. Tetapi deskripsi lingkungan sama untuk semua pertanyaan, jadi lanjutkan membuat satu pertanyaan. Saya pikir ini mungkin pertanyaan pertama saya di SO (meskipun pengguna biasa SO), jadi anggap saya sebagai pemula dan jika ada cara yang lebih baik untuk mengajukan pertanyaan ini, silakan sarankan.
Kash
10
Kedengarannya seperti proyek multi-juta $. Apakah Anda akan mendasarkan proyek seperti itu pada saran forum?
Remus Rusanu
1
@RemusRusanu Ini bukan satu-satunya sumber informasi. Ketika ini menuju tahap evaluasi formal, akan ada banyak kegiatan lainnya. Saya memiliki pendapat yang tinggi tentang saran yang diberikan pengguna SO. Saat menulis pertanyaan, saya yakin saya akan menemukan beberapa detail yang sangat berguna yang saya tidak memikirkan sama sekali.
Kash
1
@RemusRusanu - itu. Harga terakhir yang saya lihat untuk Netezza adalah $ 20k / TB untuk sistem TwinFin. Tidak yakin untuk apa kotak Exadata dengan kapasitas itu. Juga, SLA cukup agresif dan sistemnya sepertinya memiliki basis pengguna yang besar. Mungkin perlu sejumlah besar server data mart untuk menangani beban kueri.
ConcernedOfTunbridgeWells

Jawaban:

21

Kesan pertama

  1. Bergantung pada persyaratan kinerja Anda, 100TB adalah volume data yang cukup agresif. Jika Anda menginginkan Oracle, Anda harus memeriksa sistem Exadata mereka. Juga, lihat penawaran dari Netezza atau Teradata. Dengan volume pemilihan itu, Anda mungkin ingin melihat ujung depan berbasis OLAP atau setidaknya penggunaan tampilan terwujud dan menulis ulang permintaan yang cukup agresif. Anda tidak akan mendapatkan 500 pemindaian tabel / detik dari apa pun.

    Untuk hal-hal dengan persyaratan latensi yang kurang ketat, Anda mungkin ingin mempertimbangkan lebih banyak data mart untuk menyediakan kapasitas pelaporan kepada komunitas pengguna Anda. Dalam hal ini, SQL Server dan SSAS mungkin menjadi pilihan untuk data mart karena lisensi pada sejumlah besar server akan lebih murah daripada mencoba melakukan hal yang sama dengan Oracle.

  2. Lihat (1). Perangkat keras konvensional pada arsitektur disk bersama cenderung lambat pada set data ukuran ini.

  3. TIDAK! Jika ada yang menyarankan NFS memberi mereka tendangan yang bagus. Baik penyimpanan pemasangan langsung atau SAN pengontrol berganda dengan banyak pengontrol kelas menengah. Pikirkan dalam hal mungkin beberapa lusin seri pengontrol MD3000 atau yang serupa - jika Anda tidak menggunakan platform 'big data' yang dibuat khusus.

  4. Dapatkan spesialis penyimpanan dengan pengalaman dalam platform gudang data rentang PB. Anda mungkin siap untuk pekerjaan pengembangan ETL yang signifikan, dan banyak pekerjaan pengujian jika Anda harus memenuhi SLA yang kaku.

  5. 24x7 pada gudang data ambisius pada saat terbaik. Apakah ini platform pelaporan operasional? Mungkin Anda mungkin sedikit menjelaskan kebutuhan Anda.

  6. Sphincter-puckeringly mahal, dan tergantung pada persyaratan kinerja Anda. Terakhir saya melihat (beberapa tahun yang lalu) Netezza biasa mengutip $ 20.000 / TB untuk sistem TwinFin, membuat platform Anda $ 2 juta untuk 100TB ditambah biaya server yang berlebihan dan perangkat keras cadangan. Exadata, saya percaya, sedikit lebih murah, tapi saya tidak punya harga apa pun.

    Lihatlah Netezza, Exadata dan platform Teradata untuk perbandingan, dan penetapan biaya untuk Ab Initio sebagai alat ETL.

Ini adalah seperangkat persyaratan yang cukup agresif - 24x7 pada data warehouse biasanya tidak dilakukan dan volume data cukup besar untuk menempatkan Anda dalam ranah platform 'data besar'. Jika Anda memiliki persyaratan pelaporan operasional, maka Anda harus melihat dengan cermat apa itu. Pisahkan dari analitik Anda kecuali jika Anda memiliki alasan tertentu (mis. Umpan data pasar latensi rendah) untuk tidak melakukannya. Mencampur persyaratan operasional dan analitik pada platform yang sama adalah hal yang buruk.

Saya pikir Anda benar-benar perlu mendapatkan spesialis untuk mengevaluasi kebutuhan Anda. Tanpa melihat lebih dekat apa yang ingin Anda capai, yang bisa saya berikan hanyalah beberapa saran empiris tentang apa yang harus dilakukan atau tidak.

ConcernedOfTunbridgeWells
sumber
8

Beberapa opsi lain yang perlu dipertimbangkan ketika berhadapan dengan volume data besar seperti ini meliputi:

  1. Segala sesuatu yang diposting @ConcernedOfTunbridgeWells
  2. Greenplum dari EMC
  3. Gudang Data Paralel dari Microsoft

Jangan berencana menghemat biaya perangkat keras di mana pun. Sebuah sistem dengan spesifikasi semacam ini akan dikenakan biaya sejumlah besar.

mrdenny
sumber