Bisakah kita menggunakan regex di file robots.txt untuk memblokir URL?

23

Saya memiliki beberapa URL dinamis yang dihasilkan.

Bisakah saya menggunakan regex untuk memblokir URL ini dalam file robots.txt?

Sudheera Njs
sumber
Akan lebih baik jika menetapkan tag meta robot pada halaman yang tidak ingin Anda jelajahi / indeks.
Andrew Lott
@AndrewLott Dalam kasus saya, saya memiliki lebih dari 500 halaman, jadi saya pikir menggunakan regex di robots.txt ..
Sudheera Njs
Maka aturan dalam kode situs Anda mungkin lebih bermanfaat.
Andrew Lott

Jawaban:

27

Ekspresi Reguler tidak valid di robots.txt, tetapi Google, Bing dan beberapa bot lainnya mengenali beberapa pencocokan pola.

Katakanlah jika Anda ingin memblokir semua URL yang exampleada di mana saja di URL, Anda dapat menggunakan entri wild card *

User-agent: *
Disallow: /*example

Anda juga dapat menggunakan tanda dolar $ untuk menentukan bahwa URL harus berakhir seperti itu. Jadi, jika Anda ingin memblokir semua URL yang diakhiri dengan example, tetapi bukan URL yang memiliki tempat examplelain di URL yang dapat Anda gunakan:

User-agent: *
Disallow: /*example$

Info lebih mendalam untuk Google dapat ditemukan di sini: Spesifikasi Robots.txt , Bing di sini: Cara Membuat file Robots.txt dan ada panduan interaktif tentang Moz di sini

Maks
sumber
Sempurna, * berfungsi dengan baik, Diuji dalam alat master web .. Terima kasih Max ... :)
Sudheera Njs
Saya akan memperingatkan untuk tidak menggunakan arahan terlalu mewah dalam file robots.txt Anda; ini sangat, sangat sulit untuk di-debug nanti. Cobalah untuk menjaga hal-hal sesederhana mungkin. Juga ingat bahwa robots.txt peka terhadap huruf besar-kecil, jadi Anda mungkin perlu menambahkan versi alternatif dari arahan tergantung pada situs Anda.
John Mueller
akan lebih baik jika regex didukung
SuperUberDuper