rankingCoach Blog

¿Que es robots.txt?

Escrito por Maria | 16-abr-2015 12:51:00

El archivo robots.txt es un archivo de texto en el directorio raíz de un sitio web. Se utiliza para controlar los bots de los motores de búsqueda y ofrecer a los webmasters la posibilidad de decidir qué archivos o directorios son necesarios rastrear o no (del inglés, crawl), lo que significa básicamente cual se visitan o no. 

¿Como es la estructura del archivo robots.txt? 

El mismo se puede crear fácilmente con un simple editor de texto; a continuación, le mostraremos qué líneas son analizadas por los robots de los motores de búsqueda (o crawlers, en inglés). 

Cada entrada en el archivo robots.txt consiste de dos partes: 

La primera se llama User Agent. En esta sección es donde se menciona o se hace referencia a un user agent, como por ejemplo Google Bot. Comience agregando la línea User-agent: *, el cual hace posible que todo lo que se escriba a continuación sea tomado en cuenta por todos los bots de motores de búsqueda. En la segunda parte ingresaremos las líneas allowy disallow, que permiten decidir que archivos o directorios se van a permitir rastrear y cuales no. Escriba la línea Disallow: /para que dichos bots antes mencionados no puedan asistir al directorio o archivo adjunto. 

¿Qué es un archivo robots.txt simple? 

Un archivo robots.txt simple contiene dos líneas y permite a todos los bots ser rastreados y leer todos los archivos y páginas de un sitio web. 

# Habilitar página completa: 

User-agent: * 

Disallow: 

En el siguiente ejemplo, la página web está excluida de la indexación por completo 

# Todo el sitio para todos los robots 

User-agent: * 

Disallow: / 

El acceso a determinados archivos o directorios se puede negar de la siguiente manera: 

User-agent: * 

Disallow: /news/ 

Disallow: /daily.html 

Para desactivar el acceso a su sitio web para bots de motores de búsqueda específicos, debe llamar a los bots adecuados en la parte UserAgentde cada entrada: 

User-agent: Googlebot 

Disallow: / 

Con Allowpuede especificar qué bots están permitidos acceder al archivo: 

User-agent: Googlebot 

Disallow: /folder1/ 

Allow: /folder1/ejemplodedato.html 

¿Qué tipo de contenido puede ser "apagado" en un archivo robots.txt? 

En el archivo robots.txt todos los directorios pueden bloquearse de la indexación que usted no necesita ingresar a un motor de búsqueda. Como por ejemplo, las carpetas innecesarias con imágenes. 

Adicionalmente una opción que funciona bien en el archivo robots.txt es la referencia a sitemap.xml. Este archivo ofrece más contenido para el bot del motor de búsqueda disponible: 

User-Agent: * 

Disallow: 

Sitemap: http://www.susitioweb.com/sitemap.xml 

Lo mismo va para sitemaps de vídeo o imágenes: 

User-Agent: * 

Disallow: 

Sitemap: http://www.susitioweb.com/sitemap.xml 

Sitemap: http://www.susitioweb.com/video-sitemap.xml 

Sitemap: http://www.susitioweb.com/imagenes-sitemap.xml 

5 puntos a saber sobre el archivo robots.txt 

  • El archivo robots.txt siempre se encuentra en el directorio raiz (en el mismo nivel que index.php dominio.com/robots.txt) y siempre será verificado primero por los bots de los motores de búsqueda cuando visitin su sitio web. 
  • Los mayores bots de motores de búsqueda usualmente siguen las instrucciones que se encuentran en el archivo robots.txt 
  • Puede suceder que una de páginas negadas o sitios web completos terminen aún en el índice del motor de búsqueda. Esto puede suceder si hay enlaces externos que direccionan a esa página. Es por eso que el motor de búsqueda puede encontrar su página negada y considerarla importante, y agregarla al índice igualmente. 
  • Importante: siempre tenga cuidado cuando cree o altere su archivo robots.txt. Simples errores pueden hacer que su sitio completo no sea rastreado, y asegurarse así que no aparezca en los motores de búsqueda, y rápidamente perder los rankings que tenía. 
  • Puede usar las Herramientas de Google para Webmasters para verificar si su archivo robots.txt es correcto y no contiene errores.