Adakah yang tahu bagaimana Google atau Yahoo melakukan pencarian kata kunci terhadap jumlah data yang sangat besar? Database atau teknologi apa yang mereka gunakan untuk ini?
Dibutuhkan beberapa milidetik, tetapi indeks mereka lebih dari satu miliar halaman.
database-design
full-text-search
rkosegi
sumber
sumber
Jawaban:
Saya yakin ada kombinasi beberapa hal:
banyak - data didistribusikan dan direplikasi di banyak node dan pusat data yang berbeda
sumber
Merpati .
Inti dari teknologi pencarian Google adalah PigeonRank ™ , sistem untuk menentukan peringkat halaman web yang dikembangkan oleh pendiri Google Larry Page dan Sergey Brin di Stanford University:
sumber
Penting untuk diingat beberapa hal tentang google:
DB mereka adalah BigTable yang dipatenkan - itu dirancang khusus oleh GOOGLE agar sesuai dengan kebutuhan mereka
DB milik mereka dibangun di atas sistem file milik mereka - Google File System - ini dirancang, lagi-lagi oleh GOOGLE , agar mudah diperluas menggunakan perangkat keras komoditas umum. Seperti yang disebutkan Aaron dalam jawabannya, mereka memiliki sejumlah besar server rata-rata alih-alih sejumlah kecil server yang sangat kuat.
Mereka menyimpan tabel individual di beberapa mesin sebagai cara untuk membuat akses lebih cepat - perangkat lunak mereka tahu data mana yang ada di mesin mana dan alih-alih meretas melalui disk untuk menemukannya dapat langsung menuju ke server dengan info yang relevan.
sumber
Google tidak menggunakan teknologi basis data relasional tradisional. Ini mengembangkan teknologi sendiri, mengurangi tabel besar dan peta. Makalah penelitian asli ada di sini: Tabel Besar dan Peta / Kurangi . Yang juga menarik adalah tabel string SSTable yang diurutkan .
Teknologi serupa sekarang digunakan dalam Hadoop dan database NoSQL .
sumber
Baca Steven Levy " In The Plex: Bagaimana Google Berpikir, Bekerja, dan Membentuk Kehidupan Kita ". Buku ini adalah bacaan yang menarik tentang semua hal yang dibahas Google dan pada tingkat tinggi beberapa teknologi dan teknik di balik pencarian. Aaron meringkaskannya dengan sangat baik dalam jawabannya dan buku Levy akan memberi Anda lebih banyak detail tentang bagaimana mereka melakukannya.
sumber