fbpx
Que es el Archivo Robots.txt

¿Qué es el Archivo robots.txt?

2 de febrero de 2021

El archivo robots

Para que nuestro sitio web sea correctamente rastreado e indexado y, además, solo se indexe lo que nosotros queramos, tenemos que usar dos archivos que sirven para informar a los robots de los buscadores sobre la manera en que deben hacerlo:

el archivo robots (robots.txt) y el archivo de mapa del sitio o sitemap (sitemap.xml)

El primero sirve para informar acerca de lo que no queremos indexar y el segundo sirve para informar de todos los recursos que queremos que se rastreen e indexen.

Robots.txt

Google cuenta con GoogleBot, un robot informático conocido como web crawleraraña web. Este «programita» llega a nuestra web, lo primero que hace es buscar el archivo robots.txt para comprobar las restricciones. Este archivo se debe ubicar siempre en la raíz del sitio web.

Una forma sencilla de comprobar la existencia del archivo robots.txt de cualquier web y poder visualizarlo es poner en la barra de direcciones de nuestro navegador lo siguiente:

http://misitioweb.com/robots.txt (donde misitioweb.com debe ser sustituido por el nombre de dominio que queramos comprobar)

El principal objetivo del archivo robots.txt es indicar las posibles restricciones a la hora de acceder al sitio web por parte de todos los robots de búsqueda, así como informar de la localización del mapa del sitio. Mediante diferentes instrucciones, podemos:

  • Bloquear el acceso a alguno o a todos los robots.
  • Bloquear el acceso a archivos, directorios, imágenes o URLs del sitio, que no queramos que se rastreen.
  • Ayudar a que no se indexe contenido duplicado
  • Informar de la ubicación del archivo sitemap.xml para que rápidamente lo localicen y tengan acceso a todas las páginas del sitio sin necesidad de rastrear los enlaces al navegar. De esta forma, las páginas que no están conectadas con otras (por ejemplo, porque nos interesaba tenerlas independizadas del resto del sitio) también pueden ser indexadas.

El hecho de que el archivo robots.txt no exista en nuestro sitio web no quiere decir que no  vaya a ser indexado. De hecho, si no existe, todos los robots indexarán lo que puedan sin restricciones.

Un buen uso del archivo robots.txt nos permitirá realizar acciones como: 

  • Impedir que nuestro sitio web sea indexado por los buscadores cuando tenemos la web en pruebas o queremos darle un uso privado.
  • Impedir que se indexen determinados contenidos de la web que no son relevantes o que no queremos que aparezcan en los resultados de búsqueda.
  • Evitar una sobrecarga de accesos a nuestra web. En una web suele haber gran cantidad de archivos que no tienen utilidad para el usuario y no necesitan ser rastreados. El intento de acceso de los robots a estos recursos puede producir lentitud en la carga del sitio y además que pierdan tiempo en ellos y se vayan del sitio sin haber rastreado lo que de verdad nos interesa. Por ejemplo, no tiene sentido que el robot  acceda a los archivos de la zona de administración de una web.
  • Impedir la indexación de contenido duplicado, esto es muy importante, ya que es algo penalizado por los buscadores, especialmente por Google. El contenido duplicado es código que aparece en varias páginas, ya sea total o parcialmente. Por ejemplo, cuando tenemos un artículo y un listado de comentarios paginado, la página 2 no tiene sentido que se indexe, pues en ella la parte del contenido será igual que en la 1 y, por lo tanto, estaremos duplicando contenido. Lo que hace que nuestro SEO on-page no sea el adecuado.
Archivo Robots.txt - descripción

Creación del archivo Robots.txt

Como lo indica su extensión el archivo robots.txt es un fichero de texto plano (sin formato) que se puede crear con cualquier editor de texto (bloc de notas, Wordpad, Notepad++…). Tiene la extensión .txt Las principales instrucciones que podemos utilizar en el robots.txt son: 

User-agent:

Se utiliza para identificar el robot sobre el que vamos a aplicar las reglas indicadas a continuación. Es decir, podemos especificar reglas para cada robot, o bien reglas que se apliquen para todos a la vez o para el resto.

Disallow:

Se usa para identificar los recursos que queremos bloquear 

Allow:

Se usa para identificar recursos a los que permitimos el acceso como excepción a la regla Disallow.

Sitemap:

Sirve para indicar la ruta donde está localizado el mapa del sitio.

Robots.txt es un archivo que realmente solo necesitamos crearlo una vez, y no suele ser necesario actualizarlo. No obstante, si nos equivocamos, puede haber graves consecuencias como, por ejemplo, que no se indexe ninguna página. Por ello debe crearse y editarse con cautela. Se recomienda validarlo a través de la herramienta online Google Search Console, una vez que demos de alta en ella nuestro sitio web y verifiquemos que somos los propietarios.

Escrito por: JLMunoz

Escrito por: JLMunoz

CATEGORÍAS: <a href="https://romeoandjuliet.es/category/backend/">BackEnd</a>  <a href="https://romeoandjuliet.es/category/marketing/">Marketing</a>  <a href="https://romeoandjuliet.es/category/analitica/seo/">SEO</a>  <a href="https://romeoandjuliet.es/category/analitica/seo/seo-on-page/">SEO On-Page</a>  <a href="https://romeoandjuliet.es/category/diseno/desarrollo/wordpress/">Wordpress</a>

CATEGORÍAS: BackEnd Marketing SEO SEO On-Page Wordpress

Fecha de Publicación: Feb 2, 2021

Posts Relacionados

El dominio Web en el SEO

El dominio Web en el SEO

Una de las decisiones más importantes con que nos encontramos a la hora de comenzar
con un proyecto web es el nombre del dominio. Es muy importante seleccionar un dominio adecuado ya que cambiarlo a posteriori es algo bastante costoso y nada recomendado, y tiene implicaciones en el posicionamiento.

¿Qué son las KeyWords o Palabras Clave?

¿Qué son las KeyWords o Palabras Clave?

Las palabras clave o KeyWords El primer paso en cualquier estrategia de posicionamiento SEO es la selección de palabras clave por las cuales queremos posicionarnos.Esto es algo que se debe hacer antes de empezar con el proceso de optimización y, si es posible, antes...

¿Cómo hacer una Auditoría SEO?

¿Cómo hacer una Auditoría SEO?

Aquí te dejaremos una guía de CÓMO HACER UN ANÁLISIS WEB O AUDITORÍA WEB SEO. Aporta un montón de beneficios a la hora de posicionar tu págin web y corregir fallos de estructura, diseño o conceptos.

SEO desde el Principio

SEO desde el Principio

SEO es la abreviatura de “Search Engine Optimization” (Optimización en Motores de Búsqueda) y consiste en mejorar la visibilidad de un sitio web para que este aparezca más visible en los resultados naturales de los buscadores.

Guía Tutorial de SEO On-Page

Guía Tutorial de SEO On-Page

El objetivo principal del SEO On-Page es conseguir que los buscadores puedan indexar nuestra web con facilidad, entender el contenido de la misma y valorar su usabilidad.

Red de Mentoring Extremadura

Red de Mentoring Extremadura

Romeo &Juliet Marketing Agency pasa a formar parte de las red de mentores de extremadura      Nos sentimos orgullosos de pasar a formar parte de la red de mentores de Extremadura Avante. Deseosos de ponernos manos a la obra con el primer proyecto de mentorización...

comentarios

0 comentarios

Enviar un comentario