Robots.txt jest plikiem tekstowym, znajdującym się w katalogu głównym strony internetowej. Robots.txt służy do regulacji botów wyszukiwarek internetowych i umożliwia webmasterom informowanie wyszukiwarek, które pliki lub katalogi warto odwiedzić lub nie.
Plik robots.txt można utworzyć przy pomocy łatwego edytora tekstowego. Boty wyszukiwarek analizują poszczególne wiersze.
Każdy wpis w pliku robots.txt składa się z dwóch części:
Pierwsza nosi nazwę User Agent.Ta część wskazuje na konkretnego User Agent (jak np. bot Google).
Jeżeli wiersz rozpoczyna się frazą User-agent*, oznacza to, że boty wyszukiwarek powinny uwzględnić wszystkie znajdujące się poniżej instrukcje.
W drugiej części bot wyszukiwarki optymalizowany jest komendami allow i disallow. Instrukcje te informują boty wyszukiwarek, czy mają one dostęp do danych katalogów.
Jeżeli wiersz rozpoczyna komenda Disallow:/ oznacza to, że boty nie mogą odwiedzić załączonego pliku lub katalogu.
Prosty plik robots.txt zawiera dwa wiersze i umożliwia wszystkim botom przeszukanie wszystkich dokumentów i katalogów danej witryny:
# Udostępnić całą stronę
User-agent: *
Disalllow:
W następującym przykładzie cała strona została wyłączona z indeksowania (przejęcia w indeksie wyszukiwarek):
# Zablokować całą stronę dla wszystkich robotów
User-agent: *
Disallow: /
Dostępu do konkretnych plików lub katalogów można odmówić w następujący sposób:
User-agent: *
Disallow: /news/
Disallow: /daily.htm
Aby zablokować dostęp do Twojej strony tylko dla niektórych botów, należy je nazwać w części User Agent dla każdego wpisu:
User-agent: Googlebot
Disallow: /
Za pomocą komendy allow możesz wyraźnie udzielić dostępu botom do danego pliku:
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/plikprzykladowy.html
Wszystkie katalogi, których nie potrzebujesz w indeksie wyszukiwarki internetowej, mogą zostać wykluczone z indeksowania. Mogą być to, na przykład, niepotrzebne katalogi zdjęć.
Dodatkową, bardzo pomocną opcją przy pliku robots.txt, jest odsyłacz do pliku sitemap.xml. Plik ten udostępnia botom wyszukiwarek dalsze treści:
User-Agent: *
Disallow:
Sitemap: http://www.twojastrona.pl/sitemap.xml
Dotyczy to też map witryn dla filmów wideo i zdjęć:
User-Agent: *
Disallow:
Sitemap: http://www. twojastrona.pl/sitemap.xml
Sitemap: http://www. twojastrona.pl/wideo-sitemap.xml
Sitemap: http://www. twojastrona.pl/zdjecia-sitemap.xml
Dowiedz się wszystkiego, co musisz wiedzieć, aby przenieść swój marketing na wyższy poziom. Poprowadź swój biznes na drogę do sukcesu!
Darmowy PDFX