ROBOTS TXT – USOS Y DEFINICIÓN – LlerosaDreams. Creación de páginas web y tiendas online

Contents

Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots web (normalmente robots de motores de búsqueda) sobre cómo rastrear páginas en su sitio web. El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan la forma en que los robots rastrean la web, acceden e indexan el contenido y lo ponen a disposición de los usuarios. El REP también incluye directivas como las de los meta robots, así como instrucciones para páginas, subdirectorios o sitios web sobre cómo deben tratar los motores de búsqueda los enlaces (como «follow» o «nofollow»).

En la práctica, los archivos robots.txt indican si ciertos agentes de usuario (programas de rastreo de la web) pueden o no rastrear partes de un sitio web. Estas instrucciones de rastreo se especifican «permitiendo» o «prohibiendo» el comportamiento de ciertos (o todos) agentes de usuario.

User-agent: [user-agent name ]Disallow: [URL PARA NO SER RASTREADA]

Juntas, estas dos líneas se consideran un archivo robots.txt completo, aunque un archivo de robots puede contener múltiples líneas de agentes y directivas de usuario (es decir, desactiva, permite, retrasa el rastreo, etc.).

Dentro de un archivo robots.txt, cada conjunto de directivas de agente de usuario aparece como un conjunto discreto, separado por un salto de línea

En un archivo robots.txt con múltiples directivas de agente de usuario, cada una de ellas sólo se aplica a los agentes de usuario especificados en ese conjunto de líneas separadas. Si el archivo contiene una regla que se aplica a más de un agente de usuario, un rastreador sólo prestará atención (y seguirá las directivas en) el grupo de instrucciones más específico.

Ejemplo robots.txt:

A continuación se presentan algunos ejemplos de robots.txt en acción para un sitio www.ejemplo.com:

Robots.txt URL: www.ejemplo.com/robots.txt

Bloqueo de todas las arañas web de todo el contenido

User-agent: * Disallow: /

El uso de esta sintaxis en un archivo robots.txt le diría a todos los rastreadores de la web que no rastreen ninguna página de www.example.com, incluyendo la página principal.

Permitiendo a todas las arañas web el acceso a todo el contenido

User-agent: * Disallow:

El uso de esta sintaxis en un archivo robots.txt le dice a los rastreadores web que rastreen todas las páginas de www.ejemplo.com, incluyendo la página principal.

Bloquear un rastreador web específico de una carpeta específica

User-agent: Googlebot Disallow: /ejemplo-subcarpeta/

su sintaxis sólo le dice al rastreador de Google (nombre de agente de usuario Googlebot) que no rastree ninguna página que contenga la cadena de URL www.ejemplo.com/ejemplo-subcarpeta/.

Bloqueo de un rastreador web específico de una página web específica

User-agent: Bingbot Disallow: /ejemplo-subcarpeta/pagina-bloqueada.html

Esta sintaxis sólo le dice al rastreador de Bing (nombre de usuario-agente Bing) que evite rastrear la página específica en www.ejemplo.com/ejemplo-subcarpeta/pagina-bloqueada.html.

¿Cómo funciona robots.txt?

Los motores de búsqueda tienen dos trabajos principales:

Rastrear la web para descubrir el contenido;
Indexar ese contenido para que pueda ser servido a los buscadores que buscan información.
Para rastrear los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro y, en última instancia, rastrean muchos miles de millones de enlaces y sitios web. Este comportamiento de rastreo se conoce a veces como «spidering».

Después de llegar a un sitio web, pero antes de arañarlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá ese archivo primero antes de continuar por la página. Debido a que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información que se encuentra allí instruirá a las arañas rastreadoras para que actúen en este sitio en particular. Si el archivo robots.txt no contiene ninguna directiva que impida la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información en el sitio.

Otros archivos rápidos robots.txt deben ser conocidos:

(se trata con más detalle a continuación)

Para ser encontrado, un archivo robots.txt debe ser colocado en el directorio de nivel superior de un sitio web.

Robots.txt es sensible a mayúsculas y minúsculas: el archivo debe llamarse «robots.txt» (no Robots.txt, robots.TXT, o cualquier otro).

Algunos agentes de usuario (robots) pueden optar por ignorar su archivo robots.txt. Esto es especialmente común con los rastreadores más nefastos como los robots de malware o los rascadores de direcciones de correo electrónico.

El archivo /robots.txt es de acceso público: sólo tiene que añadir /robots.txt al final de cualquier dominio raíz para ver las directivas de ese sitio web (¡si ese sitio tiene un archivo robots.txt!). Esto significa que cualquiera puede ver las páginas que haces o no quieres que sean rastreadas, así que no las uses para ocultar información privada de los usuarios.

Cada subdominio de un dominio raíz utiliza archivos robots.txt separados. Esto significa que tanto blog.example.com como example.com deben tener sus propios archivos robots.txt (en blog.example.com/robots.txt y example.com/robots.txt).

Por lo general, es una buena práctica indicar la ubicación de cualquier mapa de sitio asociado a este dominio en la parte inferior del archivo robots.txt.

Sintaxis de robots técnicos.txt

La sintaxis de Robots.txt puede ser pensada como el «lenguaje» de los archivos robots.txt. Hay cinco términos comunes con los que te puedes encontrar en un archivo de robots. Incluyen:

User Agent: El rastreador web específico al que le da instrucciones de rastreo (generalmente un motor de búsqueda). Una lista de la mayoría de los agentes de usuario se puede encontrar aquí.

Disallow: El comando usado para decirle a un agente de usuario que no rastree una URL en particular. Sólo se permite una línea «Disallow:» para cada URL.

Allow (Sólo aplicable a Googlebot): El comando para indicar a Googlebot que puede acceder a una página o subcarpeta aunque su página o subcarpeta principal no esté permitida.

Crawl Delay: Cuántos segundos debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Tenga en cuenta que Googlebot no reconoce este comando, pero la tasa de rastreo puede establecerse en la Consola de Búsqueda de Google.

Sitemap: Se utiliza para indicar la ubicación de cualquier sitemap XML asociado a esta URL. Tenga en cuenta que este comando solo es compatible con Google, Ask, Bing y Yahoo.

Coincidencia de patrones

Cuando se trata de las URL reales a bloquear o permitir, los archivos robots.txt pueden resultar bastante complejos ya que permiten el uso de la concordancia de patrones para cubrir un rango de posibles opciones de URL. Tanto Google como Bing honran dos expresiones regulares que pueden utilizarse para identificar las páginas o subcarpetas que un SEO desea excluir. Estos dos caracteres son el asterisco (*) y el signo de dólar ($).

* es un comodín que representa cualquier secuencia de caracteres
$ coincide con el final de la URL
Google ofrece una gran lista de posibles sintaxis y ejemplos de concordancia de patrones aquí.

¿Dónde va el robots.txt en un sitio?
Cada vez que llegan a un sitio, los motores de búsqueda y otros robots rastreadores de la web (como el rastreador de Facebook, Facebot) saben que deben buscar un archivo robots.txt. Pero sólo buscan ese archivo en un lugar específico: el directorio principal (normalmente su dominio raíz o página de inicio). Si un agente de usuario visita www.ejemplo.com/robots.txt y no encuentra un archivo de robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo en la página (y tal vez incluso en todo el sitio). Incluso si la página robots.txt existiera en, por ejemplo, example.com/index/robots.txt o www.example.com/homepage/robots.txt, no sería descubierta por los agentes de usuario y, por lo tanto, el sitio sería tratado como si no tuviera ningún archivo de robots.

Para asegurarse de que su archivo robots.txt se encuentre, inclúyalo siempre en su directorio principal o dominio raíz.

¿Por qué necesita el archivo robots.txt?

Los archivos robots.txt controlan el acceso de las arañas a ciertas áreas de su sitio. Aunque esto puede ser muy peligroso si accidentalmente impide que Googlebot rastree todo su sitio (!!), hay algunas situaciones en las que un archivo robots.txt puede ser muy útil.

Algunos casos de uso común incluyen:

Evitar que el contenido duplicado aparezca en las SERPs (tenga en cuenta que los meta robots suelen ser una mejor opción para esto)
Mantener secciones enteras de un sitio web en privado (por ejemplo, el sitio de puesta en escena de su equipo de ingeniería)
Evitar que las páginas de resultados de búsqueda interna aparezcan en una SERP pública
Especificar la ubicación de los mapas del sitio
Evitar que los motores de búsqueda indexen ciertos archivos de su sitio web (imágenes, PDF, etc.)
Especificar un retraso en el rastreo para evitar que sus servidores se sobrecarguen cuando los rastreadores cargan varios contenidos a la vez
Si no hay áreas en su sitio web a las que quiera controlar el acceso de los agentes de usuario, es posible que no necesite un archivo robots.txt en absoluto.

Comprobando si tiene un archivo robots.txt
¿No estás seguro de si tienes un archivo robots.txt? Simplemente escriba su dominio raíz, y luego agregue /robots.txt al final de la URL. Por ejemplo, el archivo de robots de Moz se encuentra en moz.com/robots.txt.

Si no aparece ninguna página .txt, no tienes actualmente una página (viva) de robots.txt.

Cómo crear un archivo robots.txt

Si descubres que no tienes un archivo robots.txt o quieres alterar el tuyo, crear uno es un proceso simple. Este artículo de Google recorre el proceso de creación del archivo robots.txt, y esta herramienta le permite comprobar si su archivo está configurado correctamente.

¿Busca práctica en la creación de archivos de robots? Esta entrada del blog recorre algunos ejemplos interactivos.

Mejores prácticas de SEO
Asegúrate de no bloquear ningún contenido o sección de tu sitio web que quieras rastrear.

Los enlaces en páginas bloqueadas por robots.txt no serán seguidos. Esto significa que 1.) A menos que también estén vinculados desde otras páginas accesibles a los motores de búsqueda (es decir, páginas no bloqueadas a través de robots.txt, meta robots o de otro modo), los recursos vinculados no serán rastreados y no podrán ser indexados. 2.) No se podrá pasar ningún recurso de enlace de la página bloqueada al destino del enlace. Si tiene páginas a las que desea que se pase la equidad, utilice un mecanismo de bloqueo diferente al de robots.txt.

No utilice el robots.txt para evitar que datos sensibles (como la información privada del usuario) aparezcan en los resultados de las SERP. Debido a que otras páginas pueden enlazar directamente con la página que contiene información privada (evitando así las directivas de robots.txt en su dominio raíz o página de inicio), aún puede ser indexada. Si desea bloquear su página de los resultados de la búsqueda, utilice un método diferente como la protección con contraseña o la meta directiva noindex.

Algunos motores de búsqueda tienen varios agentes de usuario. Por ejemplo, Google utiliza Googlebot para la búsqueda orgánica y Googlebot-Image para la búsqueda de imágenes. La mayoría de los agentes de usuario del mismo motor de búsqueda siguen las mismas reglas, por lo que no es necesario especificar directivas para cada uno de los múltiples rastreadores de un motor de búsqueda, pero el hecho de poder hacerlo le permite afinar la forma en que se rastrea el contenido de su sitio.

Un motor de búsqueda guardará en caché los contenidos del robots.txt, pero normalmente actualiza los contenidos guardados en caché al menos una vez al día. Si cambia el archivo y desea actualizarlo más rápidamente de lo que lo hace, puede enviar su url de robots.txt a Google.

Robots.txt vs. meta robots vs. x-robots

¡Cuántos robots! ¿Cuál es la diferencia entre estos tres tipos de instrucciones de los robots? En primer lugar, robots.txt es un archivo de texto real, mientras que meta y x-robots son meta directivas. Más allá de lo que son en realidad, los tres cumplen diferentes funciones. Robots.txt dicta el comportamiento de rastreo de sitios o directorios, mientras que los meta y x-robots pueden dictar el comportamiento de indexación a nivel de página individual (o elemento de página).