Bagaimana cara mengekstrak semua tautan eksternal halaman web dan menyimpannya ke file?

11

Bagaimana cara mengekstrak semua tautan eksternal halaman web dan menyimpannya ke file?

Jika Anda memiliki alat baris perintah yang bagus.

RogerioO
sumber

Jawaban:

18

Anda membutuhkan 2 alat, lynx dan awk , coba ini:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Jika Anda membutuhkan garis penomoran, gunakan perintah nl , coba ini:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Ielton
sumber
Saya tidak berpikir ini akan berfungsi untuk url relatif
Sridhar Sarnobat
8

Berikut ini adalah peningkatan pada jawaban lelton: Anda tidak perlu awk sama sekali karena lynx punya beberapa opsi berguna.

lynx -listonly -nonumbers -dump http://www.google.com.br

jika Anda ingin nomor

lynx -listonly -dump http://www.google.com.br
Maks
sumber
0
  1. Gunakan Beautiful Soup untuk mengambil halaman web yang dimaksud.
  2. Gunakan awk untuk menemukan semua URL yang tidak mengarah ke domain Anda

Saya akan merekomendasikan Beautiful Soup melalui teknik menggores layar.

Wesley
sumber
0

jika baris perintah bukan suatu kekuatan Anda dapat menggunakan ekstensi Copy All Links Firefox.

Majid Azimi
sumber