Saya sedang mengerjakan perhitungan 'belakang amplop' untuk pengaturan basis data pelaporan 100TB. Saya mencari pemikiran dari para ahli di sini. Lingkungan yang diusulkan:
- Kapasitas Penyimpanan ~ 100TB
- Tabel ~ 200, ukuran mulai dari 1GB hingga 5TB. ukuran rata-rata bisa berada di antara 100GB-200GB
- ETL - pekerjaan mungkin memerlukan gabungan antara tabel 10 dari jutaan baris, dengan kunci gabungan mulai dari 10 byte hingga 500 byte. gabungan seperti itu harus selesai dalam waktu kurang dari 2-5 menit
- Live Selects - awalnya, hanya tertarik pada kecepatan tertentu. harus mendukung 500 pilihan / detik. Pembaruan / detik akan menjadi jumlah yang relatif jauh lebih kecil dan dapat diabaikan untuk latihan ini.
- membutuhkan ketersediaan 24x7. 2 server DB independen harus tersedia untuk melayani panggilan tertentu (dengan data direplikasi).
Pertanyaan:
- Saat ini, saya sedang melihat Oracle. Bagaimana pengalaman Anda dengan solusi opensource komersial (atau) lainnya untuk basis data besar?
- Hardware-OS apa yang Anda lihat berfungsi paling baik? Saya berencana untuk Linux di Dell.
- Apakah penyimpanan Jaringan, seperti NetApp, suatu keharusan? Masalah apa yang Anda ramalkan dengan menggunakan iklan di luar rak disk?
- Setelah perangkat keras dan OS siap, berapa banyak waktu yang Anda sisihkan untuk pengaturan, konfigurasi DB, penyimpanan dll.
- Komposisi tim apa yang paling berhasil di lingkungan yang telah Anda amati? Maksud saya, berbagai Admin (Admin OS, Oracle DB Admin?) Yang diperlukan untuk mengelola dan mengoperasikan pengaturan seperti itu. Berapa banyak dari mereka yang mungkin diperlukan untuk mencapai uptime 24x7.
- Setiap perkiraan / kisaran pada Lisensi DB, biaya Penyimpanan Jaringan.
Saya tahu saya tidak memiliki semua detail lingkungan. Saya tidak mencari detail yang tepat, perkiraan sudah cukup. Meskipun beberapa pertanyaan mungkin paling baik dijawab oleh manajer, saya tertarik pada perspektif Admin. Saya menghargai masukan Anda.
Jawaban:
Kesan pertama
Bergantung pada persyaratan kinerja Anda, 100TB adalah volume data yang cukup agresif. Jika Anda menginginkan Oracle, Anda harus memeriksa sistem Exadata mereka. Juga, lihat penawaran dari Netezza atau Teradata. Dengan volume pemilihan itu, Anda mungkin ingin melihat ujung depan berbasis OLAP atau setidaknya penggunaan tampilan terwujud dan menulis ulang permintaan yang cukup agresif. Anda tidak akan mendapatkan 500 pemindaian tabel / detik dari apa pun.
Untuk hal-hal dengan persyaratan latensi yang kurang ketat, Anda mungkin ingin mempertimbangkan lebih banyak data mart untuk menyediakan kapasitas pelaporan kepada komunitas pengguna Anda. Dalam hal ini, SQL Server dan SSAS mungkin menjadi pilihan untuk data mart karena lisensi pada sejumlah besar server akan lebih murah daripada mencoba melakukan hal yang sama dengan Oracle.
Lihat (1). Perangkat keras konvensional pada arsitektur disk bersama cenderung lambat pada set data ukuran ini.
TIDAK! Jika ada yang menyarankan NFS memberi mereka tendangan yang bagus. Baik penyimpanan pemasangan langsung atau SAN pengontrol berganda dengan banyak pengontrol kelas menengah. Pikirkan dalam hal mungkin beberapa lusin seri pengontrol MD3000 atau yang serupa - jika Anda tidak menggunakan platform 'big data' yang dibuat khusus.
Dapatkan spesialis penyimpanan dengan pengalaman dalam platform gudang data rentang PB. Anda mungkin siap untuk pekerjaan pengembangan ETL yang signifikan, dan banyak pekerjaan pengujian jika Anda harus memenuhi SLA yang kaku.
24x7 pada gudang data ambisius pada saat terbaik. Apakah ini platform pelaporan operasional? Mungkin Anda mungkin sedikit menjelaskan kebutuhan Anda.
Sphincter-puckeringly mahal, dan tergantung pada persyaratan kinerja Anda. Terakhir saya melihat (beberapa tahun yang lalu) Netezza biasa mengutip $ 20.000 / TB untuk sistem TwinFin, membuat platform Anda $ 2 juta untuk 100TB ditambah biaya server yang berlebihan dan perangkat keras cadangan. Exadata, saya percaya, sedikit lebih murah, tapi saya tidak punya harga apa pun.
Lihatlah Netezza, Exadata dan platform Teradata untuk perbandingan, dan penetapan biaya untuk Ab Initio sebagai alat ETL.
Ini adalah seperangkat persyaratan yang cukup agresif - 24x7 pada data warehouse biasanya tidak dilakukan dan volume data cukup besar untuk menempatkan Anda dalam ranah platform 'data besar'. Jika Anda memiliki persyaratan pelaporan operasional, maka Anda harus melihat dengan cermat apa itu. Pisahkan dari analitik Anda kecuali jika Anda memiliki alasan tertentu (mis. Umpan data pasar latensi rendah) untuk tidak melakukannya. Mencampur persyaratan operasional dan analitik pada platform yang sama adalah hal yang buruk.
Saya pikir Anda benar-benar perlu mendapatkan spesialis untuk mengevaluasi kebutuhan Anda. Tanpa melihat lebih dekat apa yang ingin Anda capai, yang bisa saya berikan hanyalah beberapa saran empiris tentang apa yang harus dilakukan atau tidak.
sumber
Beberapa opsi lain yang perlu dipertimbangkan ketika berhadapan dengan volume data besar seperti ini meliputi:
Jangan berencana menghemat biaya perangkat keras di mana pun. Sebuah sistem dengan spesifikasi semacam ini akan dikenakan biaya sejumlah besar.
sumber