Laba-laba web untuk Ubuntu

11

Saya mencari spider web untuk Ubuntu seperti ini Webripper - Calluna Software . Anda dapat mengunduh seluruh situs seperti yang Anda bisa lakukan

wget -r -m example.com

tetapi fitur yang saya cari adalah Anda dapat memasukkan istilah pencarian seperti "Linux" dan mencari di Web dan mengunduhnya. Apakah ada program di Ubuntu seperti ini?

zeitue
sumber

Jawaban:

4

Anda dapat menggunakan Google Alerts untuk membuat semacam halaman pencarian yang dikirim ke feed dan kemudian menggunakan pembaca RSS atau Thunderbird untuk membacanya.

Saya menggunakan Thunderbird untuk RSS. Saya tidak tahu apakah ada pembaca RSS yang dapat mengekspor umpan ke html sederhana.

Melakukan
sumber
3

Anda dapat mencoba http ripper .

Berikut adalah beberapa fitur yang diposting di situs web:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png Tangkapan layar

Tonton tutorial, dari pengembang httpripper sendiri:

Tautan unduhan:

Ini bekerja untuk saya di Ubuntu 11.10 x64

blade19899
sumber
-1

Ada modul yang memadai di Perl CPAN. Anda hanya perlu sedikit skrip perl.

Secara khusus, lihat modul WWW: Mekanisasi di WWW: modul Mechanize .

chris
sumber