Czasem z pewnych powodów jest konieczność wykluczenia danej strony lub jej części z indeksowania przez roboty internetowe.
Mogę to być powody takie jak na przykład:
strona jest w budowie, a znajduje się na serwerze,
witryna nękana jest przez niewiadomego pochodzenia robota internetowego, który sztucznie generuje ruch, a nie chcemy żeby indeksował witrynę.
Należy wtedy umieścić w katalogu głównym serwera plik o nazwie robots.txt. Jest to standardowy protokół wykluczania z indeksu serwera lub katalogu.
Aby zapobiec indeksowaniu całej witryny przez wszystkie roboty internetowe należy stworzyć plik robots.txt o następującej treści:
User-agent: *
Disallow: /
Aby usunąć witrynę tylko z wyszukiwarki Google i zapobiec przemierzaniu jej w przyszłości tylko przez Googlebota (robota internetowego wyszukiwarki Google):
User-agent: Googlebot
Disallow: /
Każdy port musi mieć oddzielny plik robots.txt. Jeśli serwer udostępnia zawartość za pośrednictwem protokołu http oraz HTTPS, dla każdego z nich należy stworzyć osobny plik robots.txt i umieścić go w odpowiedniej lokalizacji. Aby na przykład zezwolić robotom na indeksowanie wszystkich stron HTTP, a zakazać indeksowania stron HTTPS, należy przygotować pliki w następujący sposób:
Dla protokołu HTTP (http://serwer.pl/robots.txt):
User-agent: *
Allow: /
Kilka kolejnych przykładów
Aby usunąć dany katalog z listy indeksowanych zasobów
User-agent: Googlebot
Disallow: /katalog/danykatalog
Aby usunąć wszystkie pliki określonego typu (na przykład .jpg):
User-agent: Googlebot
Disallow: /*.jpg$
Aby usunąć strony generowane dynamicznie:
User-agent: Googlebot
Disallow: /*?
Aby usunąć z indeksu wszystkie grafiki:
User-agent: Googlebot-Image
Disallow: /
Należy oczywiście pamiętać, aby pod żadnym pozorem nie wykluczać z indeksowania plików CSS – może to zostać potraktowane jako spam (uniemożliwi robotom odczytanie formatowania i wykrycia np. tekstu w kolorze tła).
Szczegółowe informacje na temat pliku robots.txt znajdują się na stronie http://www.robotstxt.org/wc/norobots.html.
Copyright © 2008-2010 EPrace oraz autorzy prac.