¿Que es robots.txt?

16 abr, 2015

Compartir en:

El archivo robots.txt es un archivo de texto en el directorio raíz de un sitio web. Se utiliza para controlar los bots de los motores de búsqueda y ofrecer a los webmasters la posibilidad de decidir qué archivos o directorios son necesarios rastrear o no (del inglés, crawl), lo que significa básicamente cual se visitan o no. 

¿Como es la estructura del archivo robots.txt? 

El mismo se puede crear fácilmente con un simple editor de texto; a continuación, le mostraremos qué líneas son analizadas por los robots de los motores de búsqueda (o crawlers, en inglés). 

Cada entrada en el archivo robots.txt consiste de dos partes: 

La primera se llama User Agent. En esta sección es donde se menciona o se hace referencia a un user agent, como por ejemplo Google Bot. Comience agregando la línea User-agent: *, el cual hace posible que todo lo que se escriba a continuación sea tomado en cuenta por todos los bots de motores de búsqueda. En la segunda parte ingresaremos las líneas allowy disallow, que permiten decidir que archivos o directorios se van a permitir rastrear y cuales no. Escriba la línea Disallow: /para que dichos bots antes mencionados no puedan asistir al directorio o archivo adjunto. 

¿Qué es un archivo robots.txt simple? 

Un archivo robots.txt simple contiene dos líneas y permite a todos los bots ser rastreados y leer todos los archivos y páginas de un sitio web. 

# Habilitar página completa: 

User-agent: * 

Disallow: 

En el siguiente ejemplo, la página web está excluida de la indexación por completo 

# Todo el sitio para todos los robots 

User-agent: * 

Disallow: / 

El acceso a determinados archivos o directorios se puede negar de la siguiente manera: 

User-agent: * 

Disallow: /news/ 

Disallow: /daily.html 

Para desactivar el acceso a su sitio web para bots de motores de búsqueda específicos, debe llamar a los bots adecuados en la parte UserAgentde cada entrada: 

User-agent: Googlebot 

Disallow: / 

Con Allowpuede especificar qué bots están permitidos acceder al archivo: 

User-agent: Googlebot 

Disallow: /folder1/ 

Allow: /folder1/ejemplodedato.html 

¿Qué tipo de contenido puede ser "apagado" en un archivo robots.txt? 

En el archivo robots.txt todos los directorios pueden bloquearse de la indexación que usted no necesita ingresar a un motor de búsqueda. Como por ejemplo, las carpetas innecesarias con imágenes. 

Adicionalmente una opción que funciona bien en el archivo robots.txt es la referencia a sitemap.xml. Este archivo ofrece más contenido para el bot del motor de búsqueda disponible: 

User-Agent: * 

Disallow: 

Sitemap: http://www.susitioweb.com/sitemap.xml 

Lo mismo va para sitemaps de vídeo o imágenes: 

User-Agent: * 

Disallow: 

Sitemap: http://www.susitioweb.com/sitemap.xml 

Sitemap: http://www.susitioweb.com/video-sitemap.xml 

Sitemap: http://www.susitioweb.com/imagenes-sitemap.xml 

5 puntos a saber sobre el archivo robots.txt 

  • El archivo robots.txt siempre se encuentra en el directorio raiz (en el mismo nivel que index.php dominio.com/robots.txt) y siempre será verificado primero por los bots de los motores de búsqueda cuando visitin su sitio web. 
  • Los mayores bots de motores de búsqueda usualmente siguen las instrucciones que se encuentran en el archivo robots.txt 
  • Puede suceder que una de páginas negadas o sitios web completos terminen aún en el índice del motor de búsqueda. Esto puede suceder si hay enlaces externos que direccionan a esa página. Es por eso que el motor de búsqueda puede encontrar su página negada y considerarla importante, y agregarla al índice igualmente. 
  • Importante: siempre tenga cuidado cuando cree o altere su archivo robots.txt. Simples errores pueden hacer que su sitio completo no sea rastreado, y asegurarse así que no aparezca en los motores de búsqueda, y rápidamente perder los rankings que tenía. 
  • Puede usar las Herramientas de Google para Webmasters para verificar si su archivo robots.txt es correcto y no contiene errores.

Compartir en:

Book_image

Descárgate este ebook GRATIS 36 estrategias esenciales de Marketing Digital para hacer crecer tu negocio

Aprende todo lo que necesitas saber para llevar tu marketing al siguiente nivel. Pon tu negocio en el camino del éxito.

download_iconDescargar PDF gratis

X