¿Qué es el Archivo robots.txt?

Feb 2, 2021 | Marketing, SEO

El archivo robots

Para que nuestro sitio web sea correctamente rastreado e indexado y, además, solo se indexe lo que nosotros queramos, tenemos que usar dos archivos que sirven para informar a los robots de los buscadores sobre la manera en que deben hacerlo:

el archivo robots (robots.txt) y el archivo de mapa del sitio o sitemap (sitemap.xml)

El primero sirve para informar acerca de lo que no queremos indexar y el segundo sirve para informar de todos los recursos que queremos que se rastreen e indexen.

Robots.txt

Google cuenta con GoogleBot, un robot informático conocido como web crawler o araña web. Este «programita» llega a nuestra web, lo primero que hace es buscar el archivo robots.txt para comprobar las restricciones. Este archivo se debe ubicar siempre en la raíz del sitio web.

Una forma sencilla de comprobar la existencia del archivo robots.txt de cualquier web y poder visualizarlo es poner en la barra de direcciones de nuestro navegador lo siguiente:

http://misitioweb.com/robots.txt (donde misitioweb.com debe ser sustituido por el nombre de dominio que queramos comprobar)

El principal objetivo del archivo robots.txt es indicar las posibles restricciones a la hora de acceder al sitio web por parte de todos los robots de búsqueda, así como informar de la localización del mapa del sitio. Mediante diferentes instrucciones, podemos:

Bloquear el acceso a alguno o a todos los robots.
Bloquear el acceso a archivos, directorios, imágenes o URLs del sitio, que no queramos que se rastreen.
Ayudar a que no se indexe contenido duplicado
Informar de la ubicación del archivo sitemap.xml para que rápidamente lo localicen y tengan acceso a todas las páginas del sitio sin necesidad de rastrear los enlaces al navegar. De esta forma, las páginas que no están conectadas con otras (por ejemplo, porque nos interesaba tenerlas independizadas del resto del sitio) también pueden ser indexadas.

El hecho de que el archivo robots.txt no exista en nuestro sitio web no quiere decir que no vaya a ser indexado. De hecho, si no existe, todos los robots indexarán lo que puedan sin restricciones.

Un buen uso del archivo robots.txt nos permitirá realizar acciones como:

Impedir que nuestro sitio web sea indexado por los buscadores cuando tenemos la web en pruebas o queremos darle un uso privado.
Impedir que se indexen determinados contenidos de la web que no son relevantes o que no queremos que aparezcan en los resultados de búsqueda.
Evitar una sobrecarga de accesos a nuestra web. En una web suele haber gran cantidad de archivos que no tienen utilidad para el usuario y no necesitan ser rastreados. El intento de acceso de los robots a estos recursos puede producir lentitud en la carga del sitio y además que pierdan tiempo en ellos y se vayan del sitio sin haber rastreado lo que de verdad nos interesa. Por ejemplo, no tiene sentido que el robot acceda a los archivos de la zona de administración de una web.
Impedir la indexación de contenido duplicado, esto es muy importante, ya que es algo penalizado por los buscadores, especialmente por Google. El contenido duplicado es código que aparece en varias páginas, ya sea total o parcialmente. Por ejemplo, cuando tenemos un artículo y un listado de comentarios paginado, la página 2 no tiene sentido que se indexe, pues en ella la parte del contenido será igual que en la 1 y, por lo tanto, estaremos duplicando contenido. Lo que hace que nuestro SEO on-page no sea el adecuado.

Creación del archivo Robots.txt

Como lo indica su extensión el archivo robots.txt es un fichero de texto plano (sin formato) que se puede crear con cualquier editor de texto (bloc de notas, Wordpad, Notepad++…). Tiene la extensión .txt Las principales instrucciones que podemos utilizar en el robots.txt son:

User-agent:

Se utiliza para identificar el robot sobre el que vamos a aplicar las reglas indicadas a continuación. Es decir, podemos especificar reglas para cada robot, o bien reglas que se apliquen para todos a la vez o para el resto.

Disallow:

Se usa para identificar los recursos que queremos bloquear

Allow:

Se usa para identificar recursos a los que permitimos el acceso como excepción a la regla Disallow.

Sitemap:

Sirve para indicar la ruta donde está localizado el mapa del sitio.

Robots.txt es un archivo que realmente solo necesitamos crearlo una vez, y no suele ser necesario actualizarlo. No obstante, si nos equivocamos, puede haber graves consecuencias como, por ejemplo, que no se indexe ninguna página. Por ello debe crearse y editarse con cautela. Se recomienda validarlo a través de la herramienta online Google Search Console, una vez que demos de alta en ella nuestro sitio web y verifiquemos que somos los propietarios.

Conceptos de SEO

h

Índice de Contenido

$

Sail

Contacto

¿Qué es el Archivo robots.txt?

El archivo robots

Robots.txt

Creación del archivo Robots.txt

User-agent:

Disallow:

Allow:

Sitemap:

Conceptos de SEO

Índice de Contenido

Cómo hacer un análisis web: factores on-page

¿Qué son las KeyWords o Palabras Clave?

¿Qué es el Hosting o Alojamiento Web?

¿Qué es el archivo Robots.txt?

El Dominio Web en el SEO

VALIDACIÓN DEL CÓDIGO HTML Y CSS

formación de urls