beberapa situs web memiliki perbedaan $file_headers[0]pada halaman kesalahan. misalnya, youtube.com. halaman kesalahannya memiliki nilai tersebut sebagai HTTP/1.0 404 Not Found(selisih adalah 1.0 dan 1.1). lalu apa yang harus dilakukan?
Krishna Raj K
21
Mungkin menggunakan strpos($headers[0], '404 Not Found')mungkin melakukan trik
alexandru.topliceanu
12
@ Mark setuju! Untuk memperjelas, strpos($headers[0], '404')lebih baik!
alexandru.topliceanu
1
@ karim79 hati-hati dari serangan SSRF dan XSPA
M Rostami
55
Ketika mencari tahu apakah ada url dari php ada beberapa hal yang perlu diperhatikan:
Apakah url itu sendiri valid (string, tidak kosong, sintaks yang baik), ini cepat untuk memeriksa sisi server.
Menunggu respons mungkin membutuhkan waktu dan memblokir eksekusi kode.
Tidak semua header yang dikembalikan oleh get_headers () terbentuk dengan baik.
Gunakan ikal (jika Anda bisa).
Cegah mengambil seluruh tubuh / konten, tetapi hanya minta tajuk.
Pertimbangkan untuk mengalihkan url:
Apakah Anda ingin kode pertama dikembalikan?
Atau ikuti semua arahan ulang dan kembalikan kode terakhir?
Anda mungkin berakhir dengan angka 200, tetapi itu bisa mengarahkan ulang menggunakan meta tag atau javascript. Mencari tahu apa yang terjadi setelah itu sulit.
Perlu diingat bahwa metode apa pun yang Anda gunakan, perlu waktu untuk menunggu respons.
Semua kode mungkin (dan mungkin akan) berhenti sampai Anda tahu hasilnya atau permintaan telah habis.
Misalnya: kode di bawah ini bisa memakan waktu PANJANG untuk menampilkan halaman jika url tidak valid atau tidak dapat dijangkau:
<?php
$urls = getUrls();// some function getting say 10 or more external linksforeach($urls as $k=>$url){// this could potentially take 0-30 seconds each// (more or less depending on connection, target site, timeout settings...)if(! isValidUrl($url)){
unset($urls[$k]);}}
echo "yay all done! now show my site";foreach($urls as $url){
echo "<a href=\"{$url}\">{$url}</a><br/>";}
Fungsi-fungsi di bawah ini dapat membantu, Anda mungkin ingin memodifikasinya sesuai dengan kebutuhan Anda:
function isValidUrl($url){// first do some quick sanity checks:if(!$url ||!is_string($url)){returnfalse;}// quick check url is roughly a valid http request: ( http://blah/... ) if(! preg_match('/^http(s)?:\/\/[a-z0-9-]+(\.[a-z0-9-]+)*(:[0-9]+)?(\/.*)?$/i', $url)){returnfalse;}// the next bit could be slow:if(getHttpResponseCode_using_curl($url)!=200){// if(getHttpResponseCode_using_getheaders($url) != 200){ // use this one if you cant use curlreturnfalse;}// all good!returntrue;}function getHttpResponseCode_using_curl($url, $followredirects =true){// returns int responsecode, or false (if url does not exist or connection timeout occurs)// NOTE: could potentially take up to 0-30 seconds , blocking further code execution (more or less depending on connection, target site, and local timeout settings))// if $followredirects == false: return the FIRST known httpcode (ignore redirects)// if $followredirects == true : return the LAST known httpcode (when redirected)if(! $url ||! is_string($url)){returnfalse;}
$ch =@curl_init($url);if($ch ===false){returnfalse;}@curl_setopt($ch, CURLOPT_HEADER ,true);// we want headers@curl_setopt($ch, CURLOPT_NOBODY ,true);// dont need body@curl_setopt($ch, CURLOPT_RETURNTRANSFER ,true);// catch output (do NOT print!)if($followredirects){@curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,true);@curl_setopt($ch, CURLOPT_MAXREDIRS ,10);// fairly random number, but could prevent unwanted endless redirects with followlocation=true}else{@curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,false);}// @curl_setopt($ch, CURLOPT_CONNECTTIMEOUT ,5); // fairly random number (seconds)... but could prevent waiting forever to get a result// @curl_setopt($ch, CURLOPT_TIMEOUT ,6); // fairly random number (seconds)... but could prevent waiting forever to get a result// @curl_setopt($ch, CURLOPT_USERAGENT ,"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1"); // pretend we're a regular browser@curl_exec($ch);if(@curl_errno($ch)){// should be 0@curl_close($ch);returnfalse;}
$code =@curl_getinfo($ch, CURLINFO_HTTP_CODE);// note: php.net documentation shows this returns a string, but really it returns an int@curl_close($ch);return $code;}function getHttpResponseCode_using_getheaders($url, $followredirects =true){// returns string responsecode, or false if no responsecode found in headers (or url does not exist)// NOTE: could potentially take up to 0-30 seconds , blocking further code execution (more or less depending on connection, target site, and local timeout settings))// if $followredirects == false: return the FIRST known httpcode (ignore redirects)// if $followredirects == true : return the LAST known httpcode (when redirected)if(! $url ||! is_string($url)){returnfalse;}
$headers =@get_headers($url);if($headers && is_array($headers)){if($followredirects){// we want the the last errorcode, reverse array so we start at the end:
$headers = array_reverse($headers);}foreach($headers as $hline){// search for things like "HTTP/1.1 200 OK" , "HTTP/1.0 200 OK" , "HTTP/1.1 301 PERMANENTLY MOVED" , "HTTP/1.1 400 Not Found" , etc.// note that the exact syntax/version/output differs, so there is some string magic involved hereif(preg_match('/^HTTP\/\S+\s+([1-9][0-9][0-9])\s+.*/', $hline, $matches)){// "HTTP/*** ### ***"
$code = $matches[1];return $code;}}// no HTTP/xxx found in headers:returnfalse;}// no headers :returnfalse;}
+1 sebagai satu-satunya jawaban untuk berurusan dengan arahan ulang. Mengubah return $codeuntuk if($code == 200){return true;} return false;memilah-satunya keberhasilan
Birrel
@PKHunter: Tidak. Regex preg_match cepat saya adalah contoh sederhana dan tidak akan cocok dengan semua url yang tercantum di sana. Lihat url tes ini: regex101.com/r/EpyDDc/2 Jika Anda menginginkan yang lebih baik, ganti dengan yang tercantum di tautan Anda ( mathiasbynens.be/demo/url-regex ) dari diegoperini; tampaknya cocok dengan mereka semua, lihat testlink ini: regex101.com/r/qMQp23/1
Karena banyak orang yang meminta karim79 untuk memperbaikinya adalah solusi CURL, inilah solusi yang saya buat hari ini.
/**
* Send an HTTP request to a the $url and check the header posted back.
*
* @param $url String url to which we must send the request.
* @param $failCodeList Int array list of code for which the page is considered invalid.
*
* @return Boolean
*/publicstaticfunction isUrlExists($url, array $failCodeList = array(404)){
$exists =false;if(!StringManager::stringStartWith($url,"http")and!StringManager::stringStartWith($url,"ftp")){
$url ="https://". $url;}if(preg_match(RegularExpression::URL, $url)){
$handle = curl_init($url);
curl_setopt($handle, CURLOPT_RETURNTRANSFER,true);
curl_setopt($handle, CURLOPT_SSL_VERIFYPEER,false);
curl_setopt($handle, CURLOPT_HEADER,true);
curl_setopt($handle, CURLOPT_NOBODY,true);
curl_setopt($handle, CURLOPT_USERAGENT,true);
$headers = curl_exec($handle);
curl_close($handle);if(empty($failCodeList)or!is_array($failCodeList)){
$failCodeList = array(404);}if(!empty($headers)){
$exists =true;
$headers = explode(PHP_EOL, $headers);foreach($failCodeList as $code){if(is_numeric($code)and strpos($headers[0], strval($code))!==false){
$exists =false;break;}}}}return $exists;}
Biarkan saya menjelaskan opsi ikal:
CURLOPT_RETURNTRANSFER : kembalikan string alih-alih menampilkan halaman panggilan di layar.
CURLOPT_SSL_VERIFYPEER : cUrl tidak akan membatalkan sertifikat
CURLOPT_HEADER : sertakan header dalam string
CURLOPT_NOBODY : jangan sertakan isi dalam string
CURLOPT_USERAGENT : beberapa situs membutuhkan itu berfungsi dengan baik (misalnya: https://plus.google.com )
Catatan tambahan : Dalam fungsi ini saya menggunakan regex Diego Perini untuk memvalidasi URL sebelum mengirim permintaan:
const URL ="%^(?:(?:https?|ftp)://)(?:\S+(?::\S*)?@|\d{1,3}(?:\.\d{1,3}){3}|(?:(?:[a-z\d\x{00a1}-\x{ffff}]+-?)*[a-z\d\x{00a1}-\x{ffff}]+)(?:\.(?:[a-z\d\x{00a1}-\x{ffff}]+-?)*[a-z\d\x{00a1}-\x{ffff}]+)*(?:\.[a-z\x{00a1}-\x{ffff}]{2,6}))(?::\d+)?(?:[^\s]*)?$%iu";//@copyright Diego Perini
Catatan tambahan 2 : Saya meledakkan string header dan header pengguna [0] untuk memastikan hanya memvalidasi hanya kode dan pesan yang dikembalikan (contoh: 200, 404, 405, dll.)
Catatan tambahan 3 : Kadang memvalidasi hanya kode 404 tidak cukup (lihat tes unit), jadi ada parameter opsional $ failCodeList untuk memasok semua daftar kode untuk ditolak.
Dan, tentu saja, inilah tes unit (termasuk semua jaringan sosial populer) untuk melegitimasi pengkodean saya:
saya mendapatkan exceptionn ini ketika url ada: Tidak dapat memanggil CURLOPT_HEADERFUNCTION
safiot
3
Semua solusi di atas + gula tambahan. (Solusi Ultimate AIO)
/**
* Check that given URL is valid and exists.
* @param string $url URL to check
* @return bool TRUE when valid | FALSE anyway
*/function urlExists ( $url ){// Remove all illegal characters from a url
$url = filter_var($url, FILTER_SANITIZE_URL);// Validate URIif(filter_var($url, FILTER_VALIDATE_URL)=== FALSE
// check only for http/https schemes.||!in_array(strtolower(parse_url($url, PHP_URL_SCHEME)),['http','https'],true)){returnfalse;}// Check that URL exists
$file_headers =@get_headers($url);return!(!$file_headers || $file_headers[0]==='HTTP/1.1 404 Not Found');}
Ini adalah solusi yang hanya membaca byte pertama kode sumber ... mengembalikan false jika file_get_contents gagal ... Ini juga akan berfungsi untuk file jarak jauh seperti gambar.
function urlExists($url){if(@file_get_contents($url,false,NULL,0,1)){returntrue;}returnfalse;}
Cara lain untuk memeriksa apakah URL valid atau tidak bisa:
<?php
if(isValidURL("http://www.gimepix.com")){
echo "URL is valid...";}else{
echo "URL is not valid...";}function isValidURL($url){
$file_headers =@get_headers($url);if(strpos($file_headers[0],"200 OK")>0){returntrue;}else{returnfalse;}}?>
get_headers () mengembalikan array dengan header yang dikirim oleh server sebagai tanggapan terhadap permintaan HTTP.
$image_path ='https://your-domain.com/assets/img/image.jpg';
$file_headers =@get_headers($image_path);//Prints the response out in an array//print_r($file_headers); if($file_headers[0]=='HTTP/1.1 404 Not Found'){
echo 'Failed because path does not exist.</br>';}else{
echo 'It works. Your good to go!</br>';}
Satu hal yang perlu dipertimbangkan ketika Anda memeriksa header untuk 404 adalah kasus di mana sebuah situs tidak menghasilkan 404 segera.
Banyak situs memeriksa apakah halaman ada atau tidak dalam sumber PHP / ASP (dan lain-lain) dan meneruskan Anda ke halaman 404. Dalam kasus tersebut header pada dasarnya diperpanjang oleh header 404 yang dihasilkan. Dalam kasus-kasus itu kesalahan 404 bukan di baris pertama dari header, tetapi kesepuluh.
Saya menjalankan beberapa tes untuk melihat apakah tautan di situs saya valid - beri tahu saya ketika pihak ketiga mengubah tautannya. Saya mengalami masalah dengan situs yang memiliki sertifikat yang dikonfigurasi dengan buruk yang berarti get_headers php tidak berfungsi.
JADI, saya membaca ikal yang lebih cepat dan memutuskan untuk mencobanya. kemudian saya punya masalah dengan linkedin yang memberi saya kesalahan 999, yang ternyata menjadi masalah agen pengguna.
Saya tidak peduli jika sertifikatnya tidak valid untuk tes ini, dan saya tidak peduli jika jawabannya langsung.
Kemudian saya pikir menggunakan get_headers jika ikal gagal ....
Mencobanya....
/**
* returns true/false if the $url is present.
*
* @param string $url assumes this is a valid url.
*
* @return bool
*/privatefunction url_exists (string $url):bool{
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_NOBODY, TRUE);// this does a head request to make it faster.
curl_setopt($ch, CURLOPT_HEADER, TRUE);// just the headers
curl_setopt($ch, CURLOPT_SSL_VERIFYSTATUS, FALSE);// turn off that pesky ssl stuff - some sys admins can't get it right.
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);// set a real user agent to stop linkedin getting upset.
curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36');
curl_exec($ch);
$http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);if(($http_code >= HTTP_OK && $http_code < HTTP_BAD_REQUEST)|| $http_code ===999){
curl_close($ch);return TRUE;}
$error = curl_error($ch);// used for debugging.
curl_close($ch);// just try the get_headers - it might work!
stream_context_set_default(array('http'=> array('method'=>'HEAD')));
$file_headers =@get_headers($url);if($file_headers){
$response_code = substr($file_headers[0],9,3);return $response_code >=200&& $response_code <400;}return FALSE;}
Jawaban:
Sini:
Dari sini dan tepat di bawah pos di atas, ada solusi keriting :
sumber
$file_headers[0]
pada halaman kesalahan. misalnya, youtube.com. halaman kesalahannya memiliki nilai tersebut sebagaiHTTP/1.0 404 Not Found
(selisih adalah 1.0 dan 1.1). lalu apa yang harus dilakukan?strpos($headers[0], '404 Not Found')
mungkin melakukan trikstrpos($headers[0], '404')
lebih baik!Ketika mencari tahu apakah ada url dari php ada beberapa hal yang perlu diperhatikan:
Perlu diingat bahwa metode apa pun yang Anda gunakan, perlu waktu untuk menunggu respons.
Semua kode mungkin (dan mungkin akan) berhenti sampai Anda tahu hasilnya atau permintaan telah habis.
Misalnya: kode di bawah ini bisa memakan waktu PANJANG untuk menampilkan halaman jika url tidak valid atau tidak dapat dijangkau:
Fungsi-fungsi di bawah ini dapat membantu, Anda mungkin ingin memodifikasinya sesuai dengan kebutuhan Anda:
sumber
return $code
untukif($code == 200){return true;} return false;
memilah-satunya keberhasilanjadi kapan saja Anda menghubungi situs web dan mendapatkan sesuatu yang lain dari 200 ok itu akan berhasil
sumber
return strpos(@get_headers($url)[0],'200') === false ? false : true
. Mungkin bermanfaat.Anda tidak dapat menggunakan ikal di server tertentu Anda dapat menggunakan kode ini
sumber
sumber
sumber
Saya menggunakan fungsi ini:
sumber
solusi get_headers () karim79 tidak bekerja untuk saya karena saya mendapatkan hasil yang gila-gilaan dengan Pinterest.
Bagaimanapun, pengembang ini menunjukkan bahwa cURL jauh lebih cepat daripada get_headers ():
http://php.net/manual/fr/function.get-headers.php#104723
Karena banyak orang yang meminta karim79 untuk memperbaikinya adalah solusi CURL, inilah solusi yang saya buat hari ini.
Biarkan saya menjelaskan opsi ikal:
CURLOPT_RETURNTRANSFER : kembalikan string alih-alih menampilkan halaman panggilan di layar.
CURLOPT_SSL_VERIFYPEER : cUrl tidak akan membatalkan sertifikat
CURLOPT_HEADER : sertakan header dalam string
CURLOPT_NOBODY : jangan sertakan isi dalam string
CURLOPT_USERAGENT : beberapa situs membutuhkan itu berfungsi dengan baik (misalnya: https://plus.google.com )
Catatan tambahan : Dalam fungsi ini saya menggunakan regex Diego Perini untuk memvalidasi URL sebelum mengirim permintaan:
Catatan tambahan 2 : Saya meledakkan string header dan header pengguna [0] untuk memastikan hanya memvalidasi hanya kode dan pesan yang dikembalikan (contoh: 200, 404, 405, dll.)
Catatan tambahan 3 : Kadang memvalidasi hanya kode 404 tidak cukup (lihat tes unit), jadi ada parameter opsional $ failCodeList untuk memasok semua daftar kode untuk ditolak.
Dan, tentu saja, inilah tes unit (termasuk semua jaringan sosial populer) untuk melegitimasi pengkodean saya:
Sukses besar untuk semua,
Jonathan Parent-Lévesque dari Montreal
sumber
sumber
cukup cepat:
sumber
Semua solusi di atas + gula tambahan. (Solusi Ultimate AIO)
Contoh:
sumber
untuk memeriksa apakah url online atau offline ---
sumber
sumber
Ini adalah solusi yang hanya membaca byte pertama kode sumber ... mengembalikan false jika file_get_contents gagal ... Ini juga akan berfungsi untuk file jarak jauh seperti gambar.
sumber
cara sederhananya adalah ikal (dan LEBIH CEPAT)
sumber
Cara lain untuk memeriksa apakah URL valid atau tidak bisa:
sumber
get_headers () mengembalikan array dengan header yang dikirim oleh server sebagai tanggapan terhadap permintaan HTTP.
sumber
cURL dapat mengembalikan kode HTTP Saya rasa semua kode tambahan itu tidak perlu?
sumber
Satu hal yang perlu dipertimbangkan ketika Anda memeriksa header untuk 404 adalah kasus di mana sebuah situs tidak menghasilkan 404 segera.
Banyak situs memeriksa apakah halaman ada atau tidak dalam sumber PHP / ASP (dan lain-lain) dan meneruskan Anda ke halaman 404. Dalam kasus tersebut header pada dasarnya diperpanjang oleh header 404 yang dihasilkan. Dalam kasus-kasus itu kesalahan 404 bukan di baris pertama dari header, tetapi kesepuluh.
sumber
Saya menjalankan beberapa tes untuk melihat apakah tautan di situs saya valid - beri tahu saya ketika pihak ketiga mengubah tautannya. Saya mengalami masalah dengan situs yang memiliki sertifikat yang dikonfigurasi dengan buruk yang berarti get_headers php tidak berfungsi.
JADI, saya membaca ikal yang lebih cepat dan memutuskan untuk mencobanya. kemudian saya punya masalah dengan linkedin yang memberi saya kesalahan 999, yang ternyata menjadi masalah agen pengguna.
Saya tidak peduli jika sertifikatnya tidak valid untuk tes ini, dan saya tidak peduli jika jawabannya langsung.
Kemudian saya pikir menggunakan get_headers jika ikal gagal ....
Mencobanya....
sumber
semacam utas lama, tapi .. saya melakukan ini:
sumber