„Ręczne” zgłoszenie strony do zindeksowania cz. II
Niektóre roboty (np. Googlebot, pracujący dla wyszukiwarki Google) zabierają ze sobą kopię strony, która następnie jest prezentowana pod wynikami przeszukiwania. Jeśli sobie tego nie życzymy, możemy wydać robotom zakaz archiwizowania strony. Służy do tego specjalny znacznik:
Obok znaczników, do komunikacji twórcy strony z robotami służy też specjalny plik umieszczany na serwerze – robots.txt. Plik ten jest zwykłym dokumentem tekstowym, może zawierać przykładowo następującą treść:
– User-Agent:
– Allow: /
– Disallow: /prywatne
– Należy to odczytać jako następujące komendy:
– Treść przeznaczona dla wszystkich robotów
– Zezwalam na indeksowanie wszystkich dokumentów
– Nie zezwalam na indeksowanie dokumentów w katalogu /prywatne
W pliku robots.txt można podawać też inne komendy, wyłączające na przykład z indeksowania określone rodzaje plików. Przykładowo, jeśli chcemy, by robot nie przeglądał znajdujących się na serwerze dokumentów w formacie .doc (MS Word), należy dopisać następujący wiersz polecenia w pliku ro- bots.txt:
Możliwości wydawania robotom poleceń jest więcej, ale to zagadnienie znacznie już wykracza poza temat tej książki. Wbrew powszechnie panującym opiniom, działalność robotów nie jest w żaden sposób szkodliwa (przypadki spowalniania pracy serwerów przez indeksujące strony roboty należą już raczej do przeszłości).
Obszerne wiadomości na temat fascynującego świata robotów internetowych można znaleźć na poświęconej im angielskojęzycznej witrynie, widocznej pod adresem www.robotstxt.org.
Leave a reply