Archivo robots.txt ¿Qué es?¿Cómo se crea?

Antes se pensaba que cuanto más contenido indexaban los motores de búsqueda de mi web, mejor. Ahora, nos hemos dado cuenta de que eso no es así, sino que es mejor que indexe únicamente contenido de calidad.  Entonces… ¿Qué pasa si no quieres que indexen todas las páginas de tu web o blog? Pues existen 2 opciones. La primera es utilizar una etiqueta especial en cada página (Meta Robots) y la otra, usar un archivo para controlar la entrada de los robots. Éste es el archivo robots.txt, y es el que vamos a ver en profundidad en este artículo.

¿Qué es el archivo robots.txt?

 

El documento robots.txt es un archivo de texto con el que damos ciertas recomendaciones de indexación a los robots o crawlers de Google y de otros motores de búsqueda. Tal y como he comentado son recomendaciones, luego estos robots hacen un poco lo que les da la gana. Éstos desean indexar toda la información posible, así que rastrean hasta el último rincón de cada web.

Estoy hablando muy abiertamente de ellos pero no se todavía si sabes lo que son los robots o crawlers. Los robots o arañas son unos programas utilizados por los buscadores con el fin de rastrear las páginas web. Lo primero que hacen al llegar a un sitio web, es echar un vistazo al archivo robots.txt para ver las recomendaciones de rastreo que le estamos facilitando. Por lo tanto, si hay páginas que prefieres que no salgan en los buscadores, este es el documento que tienes que configurar.

En concreto, el archivo robots.txt lo puedes utilizar para evitar que ciertas páginas o directorios sean accesibles a los bucadores, bloquear el acceso a archivos de código o utilidades, impedir la indexación de contenido duplicado e indicar la localización del sitemap XML. Si no sabes qué es y cómo crear el sitemap XML, puedes visitar la guía del sitemap para WordPress: cómo crearlo y enviarlo a Google de bloggeris.

¿Cómo configuro el archivo robots.txt?

 

¿Ahí va la pierna o va el brazo?
¿Ahí va la pierna o va el brazo?

 

Lo primero que debes saber sobre el archivo robots.txt es que no es obligatorio. Sólo es necesario cuando quieres que ciertas páginas de tu sitio no aparezcan en los resultados de búsqueda. Crear el documento es muy sencillo, se puede hacer con un bloc de notas o editor de texto básico (wordpad, notepad). Una vez creado, habrá que darle el nombre “robots.txt” y subirlo al directorio raíz de nuestro sitio web.

La configuración es muy sencilla también, únicamente incluye dos parámetros: el robot al que nos dirigimos, y una instrucción dándole o quitándole permiso para indexar algo (un archivo, carpeta, etc…). El archivo robots.txt tiene el siguiente aspecto:

 

User-agent: *
Disallow: /

 

Estas instrucciones lo que hacen es denegar el acceso de robots a nuestra página. User-agent se refiere a que robot va dirigida la información. En este caso es para todos los robots ya que el “*” sirve como comodín. Y con la instrucción “Disallow: /” estamos indicando que no rastree ninguna página de nuestra web.

 

User-agent: Googlebot
Disallow: /files/*.doc

 

En este caso, el robot al que estamos dirigiendo la información de nuestro archivo robots.txt es al de Google. Le estamos indicando que no indexe cualquier archivo .doc que se encuentra en el directorio files.

No es necesario hacer varios archivos robots.txt para excluir a varios tipos de robots. Se debe utilizar el mismo archivo pero cada grupo de User-agent/Disallow debe estar separado por una línea en blanco.

Anteriormente he comentado que se puede facilitar la ubicación del sitemap XML a través del archivo robots.txt. Para esto, basta con poner al final del archivo la URL de nuestro sitemap. Por ejemplo: “Sitemap: http://www.dominio.com/sitemap_index.xml”

Los comandos que se utilizan para configurar el archivo robots.txt vienen del llamado Robots Exclusion Protocol. Por esta razón, solo se puede utilizar los comandos permitidos. Además, se deben respetar en todo caso las mayúsculas/minúsculas, la puntuación y los espacios.

A continuación os dejo los comandos más importantes con la explicación de qué significan:

  • User-agent: Indica a qué tipo de robot son dirigidas las recomendaciones.
  • Disallow: Deniega el acceso a un directorio o página concreta.
  • Allow: Funciona al contrario que Disallow, es lo mismo que si no se pone nada.
  • Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.

Además, también existen caracteres para aumentar o reducir la concordancia:

  • Asterisco (*): Es el comodín, con el podrás aumentar la concordancia de las restricciones. Por ejemplo, si queremos evitar que rastree las imágenes .jpg del directorio /verano/ utilizaríamos, Disallow: /verano/*.jpg. Incluso nos sirve si queremos evitar que indexe un directorio que empiece por textil Disallow:/textil*/.
  • Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que .jpg situado en cualquier directorio, Disallow:/*.jpg$.

 

Ejemplo práctico del archivo robots.txt

robots.txt configuracion

 

Todo esto puede parecer algo engorroso, por eso voy a utilizar el archivo robots.txt de mi página web y así enseñarte un ejemplo real. En este caso mi página está realizada en WordPress por lo que está orientado a este CMS.

Sin embargo, no significa que este archivo sea el ideal para tu web o blog aunque utilices WordPress. Dependiendo de la página puede que se necesite añadir o quitar restricciones o incluso utilizar etiquetas meta robots. Ten en cuenta que no hay un archivo robots.txt universal. Lo que puede funcionar bien para una web puede no funcionar para otra.

A continuación voy a mostrarte el archivo robots.txt que utilizo y posteriormente explicártelo para que comprendas mejor como funciona.

 

User-agent: *
Disallow: /wp-admin/
Disallow: /author/
Sitemap: http://www.roberflores.com/sitemap_index.xml

 

Como ya he comentado anteriormente, este es el archivo robots.txt de mi web. Ahora voy a explicarte cómo funciona para que entiendas mejor el funcionamiento de este documento.

  • Primera línea: User-agent: * Con esto estoy indicando que las instrucciones que vienen a continuación son para cualquier tipo de robots.
  • Segunda línea: Disallow: /wp-admin/ à Con esta indicación estoy denegando el acceso de los robots al directorio wp-admin. Este directorio es propio de WordPress.
  • Tercera línea: Disallow: /author/  Como he comentado en este artículo, es importante mostrar a Google contenido de calidad y que no sea duplicado. En este caso, al ser el único autor del blog, se iban a repetir tanto la página blog como la página de autor, incurriendo en contenido duplicado. Por esta razón he decidido denegar el acceso a los robots a la página autor de mi blog.
  • Cuarta línea: Sitemap: http://www.roberflores.com/sitemap_index.xml En este apartado estoy indicando a los robots dónde se encuentra el mapa XML de mi página web.

Mi recomendación es, que después de crear tu archivo robots.txt, compruebe si funciona como es esperado. Un simple error puede impedir el acceso a los robots y dejar de ser indexada tu página web. Para comprobarlo, puedes hacerlo a través de Google Search Console (antiguo Google Webmasters Tools), en el apartado Rastreo > probador de robots.txt.

Para más información puedes visitar el soporte de Google en el siguiente enlace: https://support.google.com/webmasters/answer/6062608?hl=es&from=35237&rd=2

Espero haber resuelto tus dudas respecto el archivo robots.txt y que te haya servido de ayuda para configurarlo sin problema. Muchas gracias por tu tiempo. Si te gustó el artículo te invito a que lo compartas. ¡Un saludo!

¿Te ha gustado el artículo? No te vayas sin votar
[Total:9    Promedio:3.6/5]

Únete a nuestra lista

Suscríbase a nuestra lista de correo y obtenga cosas interesantes y actualizaciones a su bandeja de entrada de correo electrónico.

Gracias por suscribirse.

Algo salió mal.

7 comentarios en “Archivo robots.txt ¿Qué es?¿Cómo se crea?

        • Ah ok, no te preocupes. La etiqueta allow resulta útil cuando quieres indexar un directorio o archivo específico de un directorio al que anteriormente has denegado su acceso. Es decir, si tu tienes por ejemplo, Disallow: /wp-content/ pero quieres que se indexe el directorio wp-content/uploads lo pones en el archivo robots.txt con la etiqueta allow, Allow: /wp-content/uploads. No se si me explico, funciona cómo etiqueta para eliminar restricciones ya existentes.
          Si por el contrario no tienes denegado el acceso anteriormente a wp-content, es como si no pusieras nada.
          Un saludo Sergio, espero que te haya servido la explicación.

Deja un comentario

 

Únete a nuestra lista

Suscríbase a nuestra lista de correo y obtenga cosas interesantes y actualizaciones a su bandeja de entrada de correo electrónico.

Gracias por suscribirse.

Algo salió mal.