Le fichier robots.txt est un fichier texte dans le répertoire racine d'un site Web. Il dirige les robots et offre la possibilité aux webmasters de décider quels fichiers ou répertoires doivent être suivis par les moteurs de recherche - avec le robots.txt vous dirigez quel pages vont être visités et quel pages seront écartés.
Des fiches robots.txt peuvent être créé tout simplement avec un éditeur de texte, souvent il s'agit d'une seule ligne pertinente qui va être analysé par les robots.
Le robots.txt est composé de deux parties :
La première est appelée User Agent.
Cette section est l'endroit où vous définissez un certain agent comme par exemple Google Bot.
Ne ligne commençant avec User-agent: *, indique à tout les robots de suivre les instruction indiqués en dessous.
La deuxième partie le « allow » et le « disallow » indiquent aux robots quels fichiers ou répertoires il doivent traçer et lesquels ils doivent ignorer.
Disallow: /par exemple indique que les robots doivent ignorer cet répertoire ou document.
Un fichier robots.txt simple contient deux lignes et permet tous les robots de tous les documents et répertoires à analyser un site :
# Activer page entière
User-agent: *
Disallow:
Dans l'exemple suivant, le site est exclue d'indexer complètement :
# Bloquer le site entier pour les robots
User-agent: *
Disallow: /
L'accès à certains fichiers ou répertoires peut être refusée de la façon suivante :
User-agent: *
Disallow: /news/
Disallow: /daily.html
Pour désactiver l'accès à votre site Web pour des robots spécifiques, vous devez nommer chaque robots individuelement pour chacune de vos entrées dans la partie UserAgent :
User-agent: Googlebot
Disallow: /
Avec Allow vous indiquez spécifiquement aux robots de traçer une certaine page :
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/exemple.html
Dans le fichier robots.txt tous les répertoires peuvent être écartés de l'indexation que vous ne nécessitez pas pour l'index d'un moteur de recherche - tels que des dossiers d'images inutiles.
Une option aditionelle, qui fonctionne bien dans le fichier robots.txt est un renvoi au sitemap.xml. Ce fichier fournit beaucoup de contenu aditionels pour les robots :
User-Agent: *
Disallow: Sitemap: http://www.votresiteweb.com/sitemap.xml
Idem pour les sitemaps vidéo ou des images :
User-Agent: *
Disallow:
Sitemap: http://www.votresiteweb.com/sitemap.xml
Sitemap: http://www.votresiteweb.com/video-sitemap.xml
Sitemap: http://www.votresiteweb.com/imagenes-sitemap.xml
Apprenez tout ce que vous devez savoir pour faire passer votre marketing à la vitesse supérieure. Faites en sorte que votre entreprise soit prête à réussir !
Télécharger gratuitement le PDFX