¿Que es robots.txt?

Escrito por Maria | 16-abr-2015 12:51:00

El archivo robots.txt es un archivo de texto en el directorio raíz de un sitio web. Se utiliza para controlar los bots de los motores de búsqueda y ofrecer a los webmasters la posibilidad de decidir qué archivos o directorios son necesarios rastrear o no (del inglés, crawl), lo que significa básicamente cual se visitan o no.

¿Como es la estructura del archivo robots.txt?

El mismo se puede crear fácilmente con un simple editor de texto; a continuación, le mostraremos qué líneas son analizadas por los robots de los motores de búsqueda (o crawlers, en inglés).

Cada entrada en el archivo robots.txt consiste de dos partes:

La primera se llama User Agent. En esta sección es donde se menciona o se hace referencia a un user agent, como por ejemplo Google Bot. Comience agregando la línea User-agent: *, el cual hace posible que todo lo que se escriba a continuación sea tomado en cuenta por todos los bots de motores de búsqueda. En la segunda parte ingresaremos las líneas allowy disallow, que permiten decidir que archivos o directorios se van a permitir rastrear y cuales no. Escriba la línea Disallow: /para que dichos bots antes mencionados no puedan asistir al directorio o archivo adjunto.

¿Qué es un archivo robots.txt simple?

Un archivo robots.txt simple contiene dos líneas y permite a todos los bots ser rastreados y leer todos los archivos y páginas de un sitio web.

# Habilitar página completa:

User-agent: *

Disallow:

En el siguiente ejemplo, la página web está excluida de la indexación por completo

# Todo el sitio para todos los robots

User-agent: *

Disallow: /

El acceso a determinados archivos o directorios se puede negar de la siguiente manera:

User-agent: *

Disallow: /news/

Disallow: /daily.html

Para desactivar el acceso a su sitio web para bots de motores de búsqueda específicos, debe llamar a los bots adecuados en la parte UserAgentde cada entrada:

User-agent: Googlebot

Disallow: /

Con Allowpuede especificar qué bots están permitidos acceder al archivo:

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/ejemplodedato.html

¿Qué tipo de contenido puede ser "apagado" en un archivo robots.txt?

En el archivo robots.txt todos los directorios pueden bloquearse de la indexación que usted no necesita ingresar a un motor de búsqueda. Como por ejemplo, las carpetas innecesarias con imágenes.

Adicionalmente una opción que funciona bien en el archivo robots.txt es la referencia a sitemap.xml. Este archivo ofrece más contenido para el bot del motor de búsqueda disponible:

User-Agent: *

Disallow:

Sitemap: http://www.susitioweb.com/sitemap.xml

Lo mismo va para sitemaps de vídeo o imágenes:

User-Agent: *

Disallow:

Sitemap: http://www.susitioweb.com/sitemap.xml

Sitemap: http://www.susitioweb.com/video-sitemap.xml

Sitemap: http://www.susitioweb.com/imagenes-sitemap.xml

5 puntos a saber sobre el archivo robots.txt

El archivo robots.txt siempre se encuentra en el directorio raiz (en el mismo nivel que index.php dominio.com/robots.txt) y siempre será verificado primero por los bots de los motores de búsqueda cuando visitin su sitio web.
Los mayores bots de motores de búsqueda usualmente siguen las instrucciones que se encuentran en el archivo robots.txt
Puede suceder que una de páginas negadas o sitios web completos terminen aún en el índice del motor de búsqueda. Esto puede suceder si hay enlaces externos que direccionan a esa página. Es por eso que el motor de búsqueda puede encontrar su página negada y considerarla importante, y agregarla al índice igualmente.
Importante: siempre tenga cuidado cuando cree o altere su archivo robots.txt. Simples errores pueden hacer que su sitio completo no sea rastreado, y asegurarse así que no aparezca en los motores de búsqueda, y rápidamente perder los rankings que tenía.
Puede usar las Herramientas de Google para Webmasters para verificar si su archivo robots.txt es correcto y no contiene errores.

Ver post completo