Dapatkan daftar URL dari situs [ditutup]

97

Saya menerapkan situs pengganti untuk klien tetapi mereka tidak ingin semua halaman lama mereka berakhir dengan 404-an. Mempertahankan struktur URL lama tidak mungkin karena itu mengerikan.

Jadi saya menulis penangan 404 yang harus mencari halaman lama yang diminta dan melakukan pengalihan permanen ke halaman baru. Masalahnya adalah, saya memerlukan daftar semua URL halaman lama.

Saya dapat melakukan ini secara manual, tetapi saya akan tertarik jika ada aplikasi yang akan memberi saya daftar relatif (misalnya: / halaman / jalur, bukan http: /.../ halaman / jalur) URL yang hanya diberi beranda halaman. Seperti laba-laba tetapi yang tidak peduli dengan konten selain menemukan halaman yang lebih dalam.

Oli
sumber
superuser.com/questions/329736/…
Ciro Santilli 郝海东 冠状 病 六四 事件 法轮功

Jawaban:

65

Saya tidak bermaksud menjawab pertanyaan saya sendiri, tetapi saya hanya berpikir untuk menjalankan generator peta situs. Pertama saya menemukan http://www.xml-sitemaps.com memiliki output teks yang bagus. Sempurna untuk kebutuhan saya.

Oli
sumber
Tetapi ada batasan 5.000 tautan! .. :( Saya sedang mencari skrip generator peta situs php gratis.
Jenson M John
13
Batas saat ini adalah 500 - semakin kecil ...
Oli Studholme
Itu kesalahan bagi saya: ::::::: Terjadi kesalahan Ada kesalahan saat mengakses URL yang ditentukan: 159.121.ssss Pastikan untuk menentukan URL situs web yang benar dan kirim ulang permintaan Anda.
JustJohn
FYI: Jika Anda menggunakan perutean frontend, Anda tidak akan mendapatkan rute tersebut dari metode ini.
jasonleonhard
FYI: jika situs web menggunakan otentikasi dan / atau otorisasi, Anda juga tidak akan mendapatkan semua rute.
jasonleonhard
47

melakukan wget -r -l0 www.oldsite.com

Maka hanya find www.oldsite.comakan mengungkapkan semua url, saya yakin.

Atau, tayangkan saja halaman kustom yang tidak ditemukan itu di setiap permintaan 404! Yaitu jika seseorang menggunakan tautan yang salah, dia akan mendapatkan laman yang mengatakan bahwa laman itu tidak ditemukan, dan memberikan beberapa petunjuk tentang konten situs.

alamar
sumber
16
Khususnya, karena ini mengembalikan daftar file , bukan URL, ini hanya akan benar-benar berfungsi untuk situs yang merupakan kumpulan file HTML statis. Jika situs memiliki parameter kueri URL, URL yang ditulis ulang sisi server, atau jenis include/ require/ etc. merakit halaman, ini tidak akan berfungsi.
TJ Schuck
Saya mungkin salah paham. Saya pikir 'wget' adalah untuk mengunduh konten situs?
Cosmic Hawk
@Doomsy ya, tetapi ketika Anda telah mengunduh semua konten, Anda pasti tahu semua URL ke konten itu, dan tanpa mengunduh tidak ada cara untuk menemukan URL.
alamar
1
Pertimbangkan kedalaman default. gnu.org/software/wget/manual/html_node/…
PJ Brunet
1
@alamar Ya, ada "-r -l inf" untuk rekursi tak terbatas, tapi saya sarankan orang memeriksa dokumentasinya - begitu banyak opsi keren! Opsi "-m" akan mencerminkan dan saya akan mencoba "-R.jpg, .jpeg, .gif, .png" yang menurut saya melompati gambar.
PJ Brunet
24

Berikut adalah daftar generator peta situs (yang jelas Anda bisa mendapatkan daftar URL dari situs): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Generator Peta Situs Web

Berikut ini adalah tautan ke alat yang menghasilkan atau memelihara file dalam format Peta Situs XML, standar terbuka yang ditentukan di sitemaps.org dan didukung oleh mesin pencari seperti Ask, Google, Microsoft Live Search dan Yahoo !. File peta situs biasanya berisi kumpulan URL di situs web bersama dengan beberapa meta-data untuk URL ini. Alat berikut biasanya menghasilkan Peta Situs XML "jenis web" dan file daftar URL (beberapa mungkin juga mendukung format lain).

Harap Diperhatikan: Google belum menguji atau memverifikasi fitur atau keamanan perangkat lunak pihak ketiga yang terdaftar di situs ini. Harap tujukan pertanyaan apa pun tentang perangkat lunak kepada pembuat perangkat lunak. Kami harap Anda menikmati alat ini!

Program Sisi Server

  • Enarion phpSitemapsNG (PHP)
  • Generator Peta Situs Google (Linux / Windows, 32 / 64bit, open-source)
  • Outil en PHP (Prancis, PHP)
  • Generator Peta Situs Perl (Perl)
  • Generator Peta Situs Python (Python)
  • Peta Situs Sederhana (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • Generator peta situs untuk OS / 2 (skrip REXX)
  • Generator Peta Situs XML (PHP) $

CMS dan Plugin Lainnya:

  • ASP.NET - Sitemaps.Net
  • DotClear (Spanyol)
  • DotClear (2)
  • Drupal
  • Template ECommerce (PHP) $
  • Template E-niaga (PHP atau ASP) $
  • LifeType
  • Generator Peta Situs MediaWiki
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Alat yang Dapat Diunduh

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Pembuat Peta Situs Inspyder (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Kemarahan Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider dan generator Sitemap (Windows / Mac) $
  • Peta Situs Pro (Windows) $
  • Penulis Peta Situs (Windows) $
  • Generator Peta Situs oleh DevIntelligence (Windows)
  • Alat Peta Situs Sorrowmans (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Sitemap Generator (Aplikasi Java Webstart)
  • Weblight (Windows / Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Generator / Layanan Online

  • Generator Peta Situs AuditMyPc.com
  • AutoMapIt
  • Peta Otomatis $
  • Enarion phpSitemapsNG
  • Generator Peta Situs Gratis
  • Generator Peta Situs Neuroticweb.com
  • Generator Peta Situs ROR
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (Italia)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • Generator Peta Situs XML
  • Generator Peta Situs XML

CMS dengan generator Peta Situs terintegrasi

  • Beton5

Generator Peta Situs Google Berita Plugin berikut memungkinkan penerbit memperbarui file Peta Situs Google Berita, varian dari protokol sitemaps.org yang kami jelaskan di Pusat Bantuan kami. Selain properti normal file Peta Situs, Peta Situs Google Berita memungkinkan penerbit mendeskripsikan jenis konten yang mereka terbitkan, bersama dengan menentukan tingkat akses untuk setiap artikel. Informasi selengkapnya tentang Google Warta dapat ditemukan di Pusat Bantuan dan Forum Bantuan kami.

  • Plugin Google News WordPress

Cuplikan Kode / Perpustakaan

  • Skrip ASP
  • Skrip Emacs Lisp
  • Perpustakaan Java
  • Skrip Perl
  • Kelas PHP
  • Script generator PHP

Jika Anda yakin bahwa suatu alat harus ditambahkan atau dihapus karena alasan yang sah, silakan tinggalkan komentar di Forum Bantuan Webmaster.

Franck Dernoncourt
sumber
Adakah yang menyediakan printscreen dari semua url?
ValRob
6

Yang terbaik yang saya temukan adalah http://www.auditmypc.com/xml-sitemap.asp yang menggunakan Java, dan tidak memiliki batasan pada halaman, dan bahkan memungkinkan Anda mengekspor hasil sebagai daftar URL mentah.

Ini juga menggunakan sesi, jadi jika Anda menggunakan CMS, pastikan Anda keluar sebelum menjalankan perayapan.

Collins
sumber
3
terdengar bagus, tapi rusak.
NoobishPro
2

Jadi, dalam dunia yang ideal, Anda akan memiliki spesifikasi untuk semua halaman di situs Anda. Anda juga akan memiliki infrastruktur pengujian yang dapat mencapai semua halaman Anda untuk mengujinya.

Anda mungkin tidak berada di dunia yang ideal. Mengapa tidak melakukan ini ...?

  1. Buat pemetaan antara URL lama yang terkenal dan yang baru. Alihkan saat Anda melihat URL lama. Saya mungkin akan mempertimbangkan untuk menampilkan "laman ini telah dipindahkan, url barunya adalah XXX, Anda akan segera dialihkan".

  2. Jika Anda tidak memiliki pemetaan, berikan pesan "maaf - halaman ini telah pindah. Berikut link ke halaman muka" dan alihkan jika Anda mau.

  3. Catat semua pengalihan - terutama yang tanpa pemetaan. Seiring waktu, tambahkan pemetaan untuk halaman yang penting.

Martin Peck
sumber
2

wget dari kotak linux mungkin juga merupakan pilihan yang baik karena ada sakelar untuk spider dan mengubah keluarannya.

EDIT: wget juga tersedia di Windows: http://gnuwin32.sourceforge.net/packages/wget.htm

Thomas Schultz
sumber
0

Tulis laba-laba yang membaca di setiap html dari disk dan menampilkan setiap atribut "href" dari elemen "a" (dapat dilakukan dengan parser). Ingatlah link mana yang termasuk dalam halaman tertentu (ini adalah tugas umum untuk datastructre MultiMap). Setelah ini, Anda dapat menghasilkan file pemetaan yang bertindak sebagai input untuk 404 handler.

Mork0075
sumber
0

Saya akan melihat sejumlah alat pembuat peta situs online. Secara pribadi, saya telah menggunakan yang ini (berbasis java) di masa lalu, tetapi jika Anda melakukan pencarian google untuk "pembuat peta situs" saya yakin Anda akan menemukan banyak pilihan yang berbeda.

Eric Petroelje
sumber