Co to jest robots.txt?

16 kwi, 2015

Udostępnij na:

Co to jest plik robots.txt?

Robots.txt jest plikiem tekstowym, znajdującym się w katalogu głównym strony internetowej. Robots.txt służy do regulacji botów wyszukiwarek internetowych i umożliwia webmasterom informowanie wyszukiwarek, które pliki lub katalogi warto odwiedzić lub nie.

Jak zbudowany jest plik robots.txt?

Plik robots.txt można utworzyć przy pomocy łatwego edytora tekstowego. Boty wyszukiwarek analizują poszczególne wiersze.

Każdy wpis w pliku robots.txt składa się z dwóch części:

Pierwsza nosi nazwę User Agent.Ta część wskazuje na konkretnego User Agent (jak np. bot Google).

Jeżeli wiersz rozpoczyna się frazą User-agent*, oznacza to, że boty wyszukiwarek powinny uwzględnić wszystkie znajdujące się poniżej instrukcje. 

W drugiej części bot wyszukiwarki optymalizowany jest komendami allow i disallow. Instrukcje te informują boty wyszukiwarek, czy mają one dostęp do danych katalogów. 

Jeżeli wiersz rozpoczyna komenda Disallow:/ oznacza to, że boty nie mogą odwiedzić załączonego pliku lub katalogu. 

Jak wygląda prosty plik robots.txt?

Prosty plik robots.txt zawiera dwa wiersze i umożliwia wszystkim botom przeszukanie wszystkich dokumentów i katalogów danej witryny:

# Udostępnić całą stronę

User-agent: *

Disalllow:

W następującym przykładzie cała strona została wyłączona z indeksowania (przejęcia w indeksie wyszukiwarek):

# Zablokować całą stronę dla wszystkich robotów

User-agent: *

Disallow: /

Dostępu do konkretnych plików lub katalogów można odmówić w następujący sposób: 

User-agent: *

Disallow: /news/

Disallow: /daily.htm

Aby zablokować dostęp do Twojej strony tylko dla niektórych botów, należy je nazwać w części User Agent dla każdego wpisu:

User-agent: Googlebot

Disallow: /

Za pomocą komendy allow możesz wyraźnie udzielić dostępu botom do danego pliku: 

User-agent: Googlebot 

Disallow: /folder1/ 

Allow: /folder1/plikprzykladowy.html

Jakie treści mogą zostać wyłączone z pliku robots.txt:

Wszystkie katalogi, których nie potrzebujesz w indeksie wyszukiwarki internetowej, mogą zostać wykluczone z indeksowania. Mogą być to, na przykład, niepotrzebne katalogi zdjęć. 

Dodatkową, bardzo pomocną opcją przy pliku robots.txt, jest odsyłacz do pliku sitemap.xml. Plik ten udostępnia botom wyszukiwarek dalsze treści: 

User-Agent: *

Disallow:

Sitemap: http://www.twojastrona.pl/sitemap.xml

Dotyczy to też map witryn dla filmów wideo i zdjęć:

User-Agent: *

Disallow:

Sitemap: http://www. twojastrona.pl/sitemap.xml

Sitemap: http://www. twojastrona.pl/wideo-sitemap.xml

Sitemap: http://www. twojastrona.pl/zdjecia-sitemap.xml

5 faktów, które należy znać o pliku robots.txt:

  • plik robots.txt znajduje się w katalogu głównym (na tym samym poziomie co index.php domain.de/robots.txt), a boty wyszukiwarek odwiedzają go bezpośrednio „przy wejściu" do danej witryny
  • duże boty wyszukiwarek zachowują się z reguły według instrukcji w pliku robots.txt
  • strona wykluczona przez roboty indeksujące może wciąż dostać się do indeksu wyszukiwarki internetowej. Jest to możliwe, gdy przekierowują na nią linki wychodzące. Boty wyszukiwarek uważają je wtedy za istotne i włączają  do indeksu
  • ważne: postępuj ostrożnie podczas tworzenia pliku robots.txt i zwracaj uwagę na komendy, które zapisałeś. Popełniony w pośpiechu błąd może doprowadzić do wykluczenia całej strony z indeksowania, co w konsekwencji doprowadzi do spadku pozycji rankingowych
  • aby sprawdzić , czy Twój plik robots.txt został utworzony poprawnie i nie zawiera błędów, użyj Google Webmaster Tools.

Udostępnij na:

Book_image

Pobierz e-booka ZA DARMO 36 Podstaw Marketingu Cyfrowegodla rozwoju Twojej biznesu

Dowiedz się wszystkiego, co musisz wiedzieć, aby przenieść swój marketing na wyższy poziom. Poprowadź swój biznes na drogę do sukcesu!

download_iconDarmowy PDF

X