robots.txt is een klein tekstbestandje in de root van een website. Het zorgt er voor, dat zoekmachine-bots gestuurd kunnen worden en het biedt de webbeheerder een goede mogelijkheid de zoekmachine te informeren, welke gegevens of mappen gecrawld (bezocht/geïndexeerd) mogen worden en welke niet.
De robots.txt kan met behulp van een eenvoudige teksteditor gemaakt worden. Het gaat ook om een paar regels die door de zoekmachine-bots (crawlers) geanalyseerd worden.
Elke invoer in de robots.txt bestaat uit 2 delen:
Het eerste deel wordt User Agent genoemd. In dit gedeelte wordt naar een bepaalde User Agent (bijvoorbeeld Google-Bot) verwezen.
Als een regel begint met User-agent: *, dan betekent dit, dat vanaf hier alle zoekmachine-bots zich aan de regels eronder moeten houden.
In het tweede deel gebruikt men de begrippen allow en disallow. Met behulp van deze instructie weet een zoekmachine-bot of hij een bestand of een map mag crawlen.
Als een regel begint met Disallow: / dan betekent dit, dat de hiervoor bedoelde bots een bepaald bestand of map niet mogen bezoeken.
Een robots.txt die alle bots alle bestanden en mappen kan crawlen:
User-agent: *
Disallow:
In het volgende voorbeeld wordt een complete website voor indexering (opname in zoekmachine-index) uitgesloten:
User-agent: *
Disallow: /
De toegang naar bepaalde bestanden of mappen blokkeren:
User-agent: *
Disallow: /news/
Disallow: /daily.html
Om de toegang naar uw website voor bepaalde bots te blokkeren moet de desbetreffende bot in het User-agent-deel worden genoemd:
User-agent: Googlebot
Disallow: /
Met Allow kun je de bots de toegang tot bepaalde bestanden of mappen expliciet verlenen:
User-agent: Googlebot
Disallow: /map1/
Allow: /map1/voorbeeldbestand.html
In de robots.txt kunnen alle mappen voor indexering worden uitgesloten, die je niet in een zoekmachine wilt hebben. Dit kunnen bijvoorbeeld fotomappen zijn.
Een extra optie, die in een robots.txt prima werkt is een verwijzing naar de sitemap.xml. Dit bestand geeft extra inhoud aan bots om te verwerken:
User-Agent: *
Disallow:
Sitemap: http://www.jouwwebsite.nl/sitemap.xml
Dit geldt ook voor video- en foto-sitemaps:
User-Agent: *
Disallow:
Sitemap: http://www.jouwwebsite.nl/sitemap.xml
Sitemap: http://www.jouwwebsite.nl/video-sitemap.xml
Sitemap: http://www.jouwwebsite.nl/foto-sitemap.xml