www.eprace.edu.pl » pozycjonowanie-stron-www » Techniki pozycjonowania – projektowanie stron przyjaznych wyszukiwarkom i katalogom » Określenie preferencji dotyczących zachowań robotów internetowych

Określenie preferencji dotyczących zachowań robotów internetowych

Czasem z pewnych powodów jest konieczność wykluczenia danej strony lub jej części z indeksowania przez roboty internetowe.

Mogę to być powody takie jak na przykład:

Należy wtedy umieścić w katalogu głównym serwera plik o nazwie robots.txt. Jest to standardowy protokół wykluczania z indeksu serwera lub katalogu.

Aby zapobiec indeksowaniu całej witryny przez wszystkie roboty internetowe należy stworzyć plik robots.txt o następującej treści:

User-agent: *

Disallow: /

Aby usunąć witrynę tylko z wyszukiwarki Google i zapobiec przemierzaniu jej w przyszłości tylko przez Googlebota (robota internetowego wyszukiwarki Google):

User-agent: Googlebot

Disallow: /

Każdy port musi mieć oddzielny plik robots.txt. Jeśli serwer udostępnia zawartość za pośrednictwem protokołu http oraz HTTPS, dla każdego z nich należy stworzyć osobny plik robots.txt i umieścić go w odpowiedniej lokalizacji. Aby na przykład zezwolić robotom na indeksowanie wszystkich stron HTTP, a zakazać indeksowania stron HTTPS, należy przygotować pliki w następujący sposób:

Dla protokołu HTTP (http://serwer.pl/robots.txt):

User-agent: *

Allow: /

Kilka kolejnych przykładów

Aby usunąć dany katalog z listy indeksowanych zasobów

User-agent: Googlebot

Disallow: /katalog/danykatalog

Aby usunąć wszystkie pliki określonego typu (na przykład .jpg):

User-agent: Googlebot

Disallow: /*.jpg$

Aby usunąć strony generowane dynamicznie:

User-agent: Googlebot

Disallow: /*?

Aby usunąć z indeksu wszystkie grafiki:

User-agent: Googlebot-Image

Disallow: /

Należy oczywiście pamiętać, aby pod żadnym pozorem nie wykluczać z indeksowania plików CSS – może to zostać potraktowane jako spam (uniemożliwi robotom odczytanie formatowania i wykrycia np. tekstu w kolorze tła).

Szczegółowe informacje na temat pliku robots.txt znajdują się na stronie http://www.robotstxt.org/wc/norobots.html.



komentarze

Copyright © 2008-2010 EPrace oraz autorzy prac.