Wat is een robots.txt bestand?

Geschreven door Marjolein | 16-apr-2015 12:04:00

robots.txt is een klein tekstbestandje in de root van een website. Het zorgt er voor, dat zoekmachine-bots gestuurd kunnen worden en het biedt de webbeheerder een goede mogelijkheid de zoekmachine te informeren, welke gegevens of mappen gecrawld (bezocht/geïndexeerd) mogen worden en welke niet.

Hoe is de robots.txt opgebouwd?

De robots.txt kan met behulp van een eenvoudige teksteditor gemaakt worden. Het gaat ook om een paar regels die door de zoekmachine-bots (crawlers) geanalyseerd worden.

Elke invoer in de robots.txt bestaat uit 2 delen:

Het eerste deel wordt User Agent genoemd. In dit gedeelte wordt naar een bepaalde User Agent (bijvoorbeeld Google-Bot) verwezen.

Als een regel begint met User-agent: *, dan betekent dit, dat vanaf hier alle zoekmachine-bots zich aan de regels eronder moeten houden.

In het tweede deel gebruikt men de begrippen allow en disallow. Met behulp van deze instructie weet een zoekmachine-bot of hij een bestand of een map mag crawlen.

Als een regel begint met Disallow: / dan betekent dit, dat de hiervoor bedoelde bots een bepaald bestand of map niet mogen bezoeken.

Hoe ziet eenvoudige robots.txt er uit?

Een robots.txt die alle bots alle bestanden en mappen kan crawlen:

User-agent: *

Disallow:

In het volgende voorbeeld wordt een complete website voor indexering (opname in zoekmachine-index) uitgesloten:

User-agent: *

Disallow: /

De toegang naar bepaalde bestanden of mappen blokkeren:

User-agent: *

Disallow: /news/

Disallow: /daily.html

Om de toegang naar uw website voor bepaalde bots te blokkeren moet de desbetreffende bot in het User-agent-deel worden genoemd:

User-agent: Googlebot

Disallow: /

Met Allow kun je de bots de toegang tot bepaalde bestanden of mappen expliciet verlenen:

User-agent: Googlebot

Disallow: /map1/

Allow: /map1/voorbeeldbestand.html

Wat kan er in een robots.txt "uitgeschakeld" worden?

In de robots.txt kunnen alle mappen voor indexering worden uitgesloten, die je niet in een zoekmachine wilt hebben. Dit kunnen bijvoorbeeld fotomappen zijn.

Een extra optie, die in een robots.txt prima werkt is een verwijzing naar de sitemap.xml. Dit bestand geeft extra inhoud aan bots om te verwerken:

User-Agent: *

Disallow:

Sitemap: http://www.jouwwebsite.nl/sitemap.xml

Dit geldt ook voor video- en foto-sitemaps:

User-Agent: *

Disallow:

Sitemap: http://www.jouwwebsite.nl/sitemap.xml

Sitemap: http://www.jouwwebsite.nl/video-sitemap.xml

Sitemap: http://www.jouwwebsite.nl/foto-sitemap.xml

5 belangrijke feiten over robots.txt:

De robots.txt moet aanwezig zijn in de root (hetzelfde niveau als de index.php) en wordt door zoekmachine-bots direct als eerste bezocht
De bots van grote zoekmachines houden zich in de regel aan de opdrachten zoals in de robots.txt staat
In het algemeen kan iedere, voor de crawl uitgesloten, pagina in de index van een zoekmachine terecht komen. Dit komt voor, als er op een pagina externe links staan, die de zoekmachine belangrijk vindt.
Let op: ga bij de opstelling van een robots.txt omzichtig te werk en let op de opdrachten die je daar gemaakt heeft. Een kleine fout kan tot grote gevolgen (bijvoorbeeld het totaal uitsluiten van de website uit de index) leiden. Zulke fouten leiden dan weer tot rankingverlies.
Je kunt jouw robots.txt bij Google Webmaster Tools op fouten testen

Volledig bericht weergeven