Perangkat lunak pengikis layar yang akan melintasi halaman

3

Kami sedang membuat situs mashup yang menarik informasi dari banyak sumber di seluruh web. Banyak dari situs-situs ini tidak menyediakan umpan RSS atau API untuk mengakses informasi yang mereka berikan. Ini meninggalkan kita dengan pengikisan layar sebagai metode kami untuk mengumpulkan data.

Ada banyak alat skrip di luar sana yang ditulis dalam berbagai bahasa skrip untuk skrap layar yang mengharuskan Anda untuk menulis skrip skrip dalam bahasa yang digunakan oleh scraper. Scrapy, scrAPI, dan scrubyt adalah beberapa tulisan dalam Ruby dan Python.

Ada alat berbasis web lain yang pernah saya lihat seperti Dapper yang membuat umpan XML atau RSS berdasarkan halaman web. Ini memiliki antarmuka berbasis web yang indah yang tidak memerlukan keterampilan scripting untuk digunakan. Ini akan menjadi alat yang hebat, jika bisa melintasi beberapa halaman untuk mengumpulkan data dari ratusan halaman hasil.

Kami membutuhkan sesuatu yang akan mengikis informasi dari situs web paginasi, seperti scrubyt, tetapi dengan antarmuka pengguna yang dapat digunakan oleh non-programmer. Kami akan membuat skrip solusi kami sendiri jika perlu, mungkin menggunakan scrubyt, tetapi jika ada solusi yang lebih baik di luar sana, kami ingin menggunakannya. Apakah ada yang seperti ini?

Edward Anderson
sumber

Jawaban:

2

Yahoo Pipes terlintas dalam pikiran, mudah digunakan untuk non programmer, meskipun Anda harus benar-benar belajar regex untuk mendapatkan potensi penuhnya.

solarc
sumber
4
Anda yakin harus menggunakan regex di html? ( stackoverflow.com/questions/1732348/… )
Michael Todd
Yah pilihan yang lebih baik adalah menggunakan xpath (Y! P dapat menggunakannya via yql). Bagaimanapun memiliki regex di tangan itu tidak buruk sama sekali.
solarc
1

Scrapinghub (dari pencipta Scrapy) menawarkan layanan pembayaran untuk non-programer yang mirip dengan Mozenda .

Steven Almeroth
sumber
1

Saya telah menggunakan iMacros untuk mengikis data dari situs web. Ini dapat digunakan oleh seseorang tanpa pengalaman pemrograman dan dengan beberapa keterampilan pemrograman dasar Anda dapat sangat memperluas kemampuannya. Ini tutorialnya .

iMacros sangat berguna jika Anda perlu melakukan beberapa tindakan untuk mengambil data. Itu dapat mengklik tombol, navigasi melalui flash, pilih dari menu, isi formulir dll.

Ada juga Scraperwiki , yang membutuhkan keterampilan pemrograman. Non-programmer dapat membayar bantuan.

Semoga Datatracker akan segera keluar. Ini ditujukan untuk pekerjaan semacam ini tetapi bagi pengguna tanpa keterampilan pemrograman.

Stoney
sumber
0

Artikel wikipedia ini berisi banyak informasi tentang masalah ini, termasuk daftar 15 crawler web open-source:

Perayap web

harrymc
sumber