Kami sedang membuat situs mashup yang menarik informasi dari banyak sumber di seluruh web. Banyak dari situs-situs ini tidak menyediakan umpan RSS atau API untuk mengakses informasi yang mereka berikan. Ini meninggalkan kita dengan pengikisan layar sebagai metode kami untuk mengumpulkan data.
Ada banyak alat skrip di luar sana yang ditulis dalam berbagai bahasa skrip untuk skrap layar yang mengharuskan Anda untuk menulis skrip skrip dalam bahasa yang digunakan oleh scraper. Scrapy, scrAPI, dan scrubyt adalah beberapa tulisan dalam Ruby dan Python.
Ada alat berbasis web lain yang pernah saya lihat seperti Dapper yang membuat umpan XML atau RSS berdasarkan halaman web. Ini memiliki antarmuka berbasis web yang indah yang tidak memerlukan keterampilan scripting untuk digunakan. Ini akan menjadi alat yang hebat, jika bisa melintasi beberapa halaman untuk mengumpulkan data dari ratusan halaman hasil.
Kami membutuhkan sesuatu yang akan mengikis informasi dari situs web paginasi, seperti scrubyt, tetapi dengan antarmuka pengguna yang dapat digunakan oleh non-programmer. Kami akan membuat skrip solusi kami sendiri jika perlu, mungkin menggunakan scrubyt, tetapi jika ada solusi yang lebih baik di luar sana, kami ingin menggunakannya. Apakah ada yang seperti ini?
Scrapinghub (dari pencipta Scrapy) menawarkan layanan pembayaran untuk non-programer yang mirip dengan Mozenda .
sumber
Saya telah menggunakan iMacros untuk mengikis data dari situs web. Ini dapat digunakan oleh seseorang tanpa pengalaman pemrograman dan dengan beberapa keterampilan pemrograman dasar Anda dapat sangat memperluas kemampuannya. Ini tutorialnya .
iMacros sangat berguna jika Anda perlu melakukan beberapa tindakan untuk mengambil data. Itu dapat mengklik tombol, navigasi melalui flash, pilih dari menu, isi formulir dll.
Ada juga Scraperwiki , yang membutuhkan keterampilan pemrograman. Non-programmer dapat membayar bantuan.
Semoga Datatracker akan segera keluar. Ini ditujukan untuk pekerjaan semacam ini tetapi bagi pengguna tanpa keterampilan pemrograman.
sumber
Artikel wikipedia ini berisi banyak informasi tentang masalah ini, termasuk daftar 15 crawler web open-source:
Perayap web
sumber