fbpx
Logotipo Romeo and Juliet Rose



Contacto

info@romeoandjuliet.es

+34 625040754

Gabriel y Galán 2 – Cáceres

Extremadura – Spain

¿Qué es el Archivo robots.txt?

El archivo robots.txt es un archivo de texto plano ubicado en el directorio raíz de un sitio web (ej: romeoandjuliet.es/robots.txt). Sigue el protocolo de exclusión de robots, indicando a los rastreadores de motores de búsqueda (como Googlebot) qué partes del sitio pueden o no ser indexadas y rastreadas.

¿Qué es el Archivo robots.txt?

El archivo robots.txt es un archivo de texto plano ubicado en el directorio raíz de un sitio web (ej: romeoandjuliet.es/robots.txt). Sigue el protocolo de exclusión de robots, indicando a los rastreadores de motores de búsqueda (como Googlebot) qué partes del sitio pueden o no ser indexadas y rastreadas.

Robots.txt: El Gorila de Disco Que Controla el Baile de Google en Tu Web

¡Hola, amantes del marketing digital! Hoy vamos a hablar de un archivo que, aunque no es tan famoso como Romeo o Julieta, juega un papel crucial en cómo Google ve tu web. Se llama robots.txt, y es como el gorila de discoteca que decide quién puede y quién no puede entrar a la pista de baile.

Érase una vez en Internet…

Imagina que tu sitio web es una fiesta épica. Tienes música increíble, luces de colores y un montón de contenido genial. Pero, ¿cómo se asegura Google de no tropezar con la zona VIP donde guardas tus secretos? Ahí es donde entra robots.txt.

El Gorila con la Lista VIP

Robots.txt es básicamente una lista de instrucciones para los robots de los motores de búsqueda. Es como decirle al gorila de la discoteca:

  • «Googlebot, puedes bailar en la página principal y en el blog, ¡pero mantente alejado de la sección de administración!«
  • «Bingbot, ¡eres bienvenido en todas partes, pero no toques la página de ofertas especiales!«

¿Por qué Necesitas un Gorila de Discoteca?

Bueno, hay varias razones por las que querrías tener un robots.txt bien configurado:

  1. Proteger tu privacidad: Si tienes partes de tu web que no quieres que se hagan públicas (como páginas de prueba o áreas de administración), robots.txt las mantiene ocultas.
  2. Optimizar el rastreo: Los robots de los motores de búsqueda tienen un «presupuesto de rastreo» limitado. Robots.txt les ayuda a concentrarse en las páginas más importantes.
  3. Evitar contenido duplicado: Si tienes varias versiones de la misma página, robots.txt puede indicar cuál es la versión «canónica» que quieres que Google indexe.

Cómo Hablar con el Gorila

La sintaxis de robots.txt es bastante sencilla. Se basa en dos comandos principales:

  • User-agent: Indica a qué robot te estás dirigiendo (ej: Googlebot, Bingbot).
  • Disallow: Especifica las páginas o directorios que quieres bloquear.

Aquí tienes un ejemplo:

User-agent: Googlebot
Disallow: /admin/
Disallow: /pruebas/

 

Esto le dice a Googlebot que no puede entrar en las carpetas «/admin/» y «/pruebas/».

¡No te Vayas Todavía!

Robots.txt es una herramienta poderosa, pero hay algunas cosas importantes que debes recordar:

  • No es infalible: Robots.txt es una solicitud, no una orden. Los robots malintencionados pueden ignorarlo.
  • No afecta el ranking: Robots.txt no impide que tus páginas aparezcan en los resultados de búsqueda, solo controla el rastreo.
  • Cuidado con los errores: Un error en robots.txt puede bloquear accidentalmente partes importantes de tu web.

¡A Bailar con Confianza!

Con un poco de conocimiento y cuidado, robots.txt puede ser tu mejor aliado para controlar cómo los motores de búsqueda interactúan con tu web. Así que ¡ponte tus zapatos de baile y empieza a crear tu propia lista VIP!

¿Necesitas ayuda para configurar tu robots.txt?

¡Romeo & Juliet Marketing Agency está aquí para ayudarte! Contáctanos y deja que nuestros expertos te guíen en la pista de baile digital.

El archivo robots.txt

Para que nuestro sitio web sea correctamente rastreado e indexado y, además, solo se indexe lo que nosotros queramos, tenemos que usar dos archivos que sirven para informar a los robots de los buscadores sobre la manera en que deben hacerlo:

el archivo robots (robots.txt) y el archivo de mapa del sitio o sitemap (sitemap.xml)

El primero sirve para informar acerca de lo que no queremos indexar y el segundo sirve para informar de todos los recursos que queremos que se rastreen e indexen.

Robots.txt

Google cuenta con GoogleBot, un robot informático conocido como web crawleraraña web. Este «programita» llega a nuestra web, lo primero que hace es buscar el archivo robots.txt para comprobar las restricciones. Este archivo se debe ubicar siempre en la raíz del sitio web.

Una forma sencilla de comprobar la existencia del archivo robots.txt de cualquier web y poder visualizarlo es poner en la barra de direcciones de nuestro navegador lo siguiente:

http://misitioweb.com/robots.txt (donde misitioweb.com debe ser sustituido por el nombre de dominio que queramos comprobar)

El principal objetivo del archivo robots.txt es indicar las posibles restricciones a la hora de acceder al sitio web por parte de todos los robots de búsqueda, así como informar de la localización del mapa del sitio. Mediante diferentes instrucciones, podemos:

  • Bloquear el acceso a alguno o a todos los robots.
  • Bloquear el acceso a archivos, directorios, imágenes o URLs del sitio, que no queramos que se rastreen.
  • Ayudar a que no se indexe contenido duplicado
  • Informar de la ubicación del archivo sitemap.xml para que rápidamente lo localicen y tengan acceso a todas las páginas del sitio sin necesidad de rastrear los enlaces al navegar. De esta forma, las páginas que no están conectadas con otras (por ejemplo, porque nos interesaba tenerlas independizadas del resto del sitio) también pueden ser indexadas.

El hecho de que el archivo robots.txt no exista en nuestro sitio web no quiere decir que no  vaya a ser indexado. De hecho, si no existe, todos los robots indexarán lo que puedan sin restricciones.

Un buen uso del archivo robots.txt nos permitirá realizar acciones como:

  • Impedir que nuestro sitio web sea indexado por los buscadores cuando tenemos la web en pruebas o queremos darle un uso privado.
  • Impedir que se indexen determinados contenidos de la web que no son relevantes o que no queremos que aparezcan en los resultados de búsqueda.
  • Evitar una sobrecarga de accesos a nuestra web. En una web suele haber gran cantidad de archivos que no tienen utilidad para el usuario y no necesitan ser rastreados. El intento de acceso de los robots a estos recursos puede producir lentitud en la carga del sitio y además que pierdan tiempo en ellos y se vayan del sitio sin haber rastreado lo que de verdad nos interesa. Por ejemplo, no tiene sentido que el robot  acceda a los archivos de la zona de administración de una web.
  • Impedir la indexación de contenido duplicado, esto es muy importante, ya que es algo penalizado por los buscadores, especialmente por Google. El contenido duplicado es código que aparece en varias páginas, ya sea total o parcialmente. Por ejemplo, cuando tenemos un artículo y un listado de comentarios paginado, la página 2 no tiene sentido que se indexe, pues en ella la parte del contenido será igual que en la 1 y, por lo tanto, estaremos duplicando contenido. Lo que hace que nuestro SEO on-page no sea el adecuado.
Archivo Robots.txt - descripción

Creación del archivo Robots.txt

Como lo indica su extensión el archivo robots.txt es un fichero de texto plano (sin formato) que se puede crear con cualquier editor de texto (bloc de notas, Wordpad, Notepad++…). Tiene la extensión .txt Las principales instrucciones que podemos utilizar en el robots.txt son: 

User-agent:

Se utiliza para identificar el robot sobre el que vamos a aplicar las reglas indicadas a continuación. Es decir, podemos especificar reglas para cada robot, o bien reglas que se apliquen para todos a la vez o para el resto.

Disallow:

Se usa para identificar los recursos que queremos bloquear 

Allow:

Se usa para identificar recursos a los que permitimos el acceso como excepción a la regla Disallow.

Sitemap:

Sirve para indicar la ruta donde está localizado el mapa del sitio.

Robots.txt es un archivo que realmente solo necesitamos crearlo una vez, y no suele ser necesario actualizarlo. No obstante, si nos equivocamos, puede haber graves consecuencias como, por ejemplo, que no se indexe ninguna página. Por ello debe crearse y editarse con cautela. Se recomienda validarlo a través de la herramienta online Google Search Console, una vez que demos de alta en ella nuestro sitio web y verifiquemos que somos los propietarios.

Mucho más…

¿qué es un backlink?

¿qué es un backlink?

¿Qué es un Backlink? La palabra backlinks o enlace de regreso te la encontrarás muy a menudo cuando intentes optimizar tu web ya que estos son muy importantes para tu posicionamiento SEO y tienen mucha relevancia para Google y sabemos que el buscador más importante....

leer más

¿Cómo se obtiene el Product Market Fit?

ÍNDICE DefiniciónProduct Market FitPara comprender mejor el concepto creado por Andreessen, comprendamos el significado del término. Product Market Fit, en traducción libre al español, puede entenderse como “adecuación del producto en el mercado” Debido a que Product...

leer más