Entendiendo robots.txt: por qué importa y cómo usarlo

Todos los que estáis en este mundo de Internet soléis querer dos cosas, tener tráfico web hacia vuestro portal o servicio y que este sea gratuito. Probablemente hayas oído hablar del SEO, hoy hablaremos de un tema importante que tiene que ver con él: el archivo robots.txt, por qué es importante y cómo usarlo.

Conseguir visibilidad para tu sitio apareciendo arriba en las páginas de resultados de Google o de cualquier otro motor de búsqueda, es un objetivo que creo que compartimos todos. Sin embargo, probablemente hay algunas páginas en las que preferirás no dirigir el tráfico, como un área de preproducción o algún contenido duplicado.

Afortunadamente, hay una manera simple de hacerlo en tu sitio WordPress o tu tienda WooCommerce. El uso de un archivo robots.txt alejará a los motores de búsqueda (y, por lo tanto, a los visitantes) de cualquier contenido que desees ocultar, reforzando tus esfuerzos de optimización en cuanto a SEO.

Introduciendo el fichero robots.txt

De forma breve podemos decir que robots.txt es un archivo de texto sin formato que se almacena en el directorio principal de nuestro sitio web. Su función es dar instrucciones a los rastreadores de motores de búsqueda antes de que exploren e indexen las páginas del sitio.

Para comprender el archivo robots.txt, debes conocer un poco sobre los rastreadores de motores de búsqueda. Estos son programas (o «bots») que visitan sitios web para conocer su contenido. La forma en que los rastreadores indexan las páginas de su sitio determina si terminan en los resultados de los motores de búsqueda, los llamados SERP (y qué tan alto se clasifican en los mismos).

Cuando un rastreador de motores de búsqueda llega a un sitio web, lo primero que hace es buscar un archivo robots.txt en el directorio principal del sitio. Si encuentra uno, tomará nota de las instrucciones que figuran en la lista y las seguirá al explorar el sitio.

Si no hay un archivo robots.txt, el bot simplemente rastreará e indexará todo el sitio (o la mayor parte del sitio que pueda encontrar). Esto no siempre es un problema, pero hay varias situaciones en las que podría resultar perjudicial para tu sitio y tu SEO.

¿Por qué importa el fichero robots.txt?

Uno de los usos más comunes de robots.txt es ocultar el contenido (o parte del contenido) del sitio web a los motores de búsqueda. Esto también se conoce como «no permitir» (del inglés disallow) que los robots rastreen ciertas páginas. Aunque parezca algo absurdo y contraproducente, es algo que suele ser necesario.

La primera razón es para proteger su clasificación en los resultados de los motores de búsqueda (a partir de ahora los llamaremos SERP). El contenido duplicado tiende a confundir a los rastreadores de los motores de búsqueda, ya que no pueden enumerar todas las copias en SERPs y, por lo tanto, tienen que elegir qué versión priorizar. Esto puede llevar a algo tan absurdo como que tu propio contenido compita consigo mismo por las primeras clasificaciones, lo cual como podéis comprender es contraproducente.

Otra razón por la que es posible que desee ocultar contenido de los motores de búsqueda es para evitar que muestren secciones de su sitio web que desea mantener en privado, como un área de preproducción o foros privados solo para miembros. Encontrar estas páginas puede crear confusión a tus usuarios y entonces alejar el tráfico del resto de su sitio.

Además de no permitir que los robots exploren ciertas áreas de su sitio, también puede especificar un «retraso de rastreo» en su archivo robots.txt. Esto evitará las sobrecargas del servidor causadas por la carga de robots y el rastreo de varias páginas en su sitio a la vez.

Cómo editar el fichero robots.txts en WordPress

Se puede hacer por varios medios, pero os voy a explicar el más sencillo. Usaremos el plugin Yoast SEO. También podríamos crearlo o editarlo con un editor de textos normal y luego subirlo vía FTP o SFTP pero este método requiere de menos herramientas. Lo primero será que instaléis ese plugin (como siempre en el escritorio de WordPress, en «Plugins», añadir nuevo y lo buscáis, instaláis y activáis).

Primer paso acceder al editor de archivos de Yoast

Una vez tengáis instalado y activo el plugin, sólo tendréis que ir a SEO, Herramientas; y dentro de él  en la pantalla que aparece elegís «Editor de archivos», tal como os muestro en la imagen siguiente.

Editor de archivo robots txt de Yoast

Si ya tienes un archivo robots.txt, se abrirá un editor de texto donde podrás realizar cambios. Si no tienes un archivo robots.txt, verás un botón para crearlo. Lo creará en el sitio adecuado con la ortografía adecuada, pensad que si os equivocáis en el sitio o en cómo se escribe, los buscadores, los ignorarán.

Dale forma a tu archivo robots.txt

Para comunicarse efectivamente con los rastreadores de motores de búsqueda, deberá asegurarse de que su archivo robots.txt esté escrito correctamente. Todos los archivos robots.txt incluyen un listado de reglas donde se especifica «agente de usuario» y luego «directivas» para que el agente las siga.

Un agente de usuario es un rastreador de motor de búsqueda específico al que se desea dar instrucciones. Por ejemplo:

  • bingbot
  • googlebot
  • slurp (Yahoo)
  • yandex

La segunda parte, las directivas son las instrucciones que desea que sigan los rastreadores de motores de búsqueda. Básicamente daremos dos tipos de directivas: no permitir y retrasar el rastreo. Cuando juntas estos dos elementos, obtienes un archivo robots.txt completo.

Otro elemento de formato importante es el «comodín». Este es un símbolo utilizado para indicar múltiples rastreadores de motores de búsqueda a la vez. Se usa como un  asterisco (*) y sustituye a todos los agentes de usuario, por lo que las directivas que siguen se aplicarán a cualquier bot que los lea.

El otro comodín de uso común es el símbolo del dólar ($). Puede representar el final de una URL y se usa para dar directivas que deberían aplicarse a todas las páginas con una finalización de URL específica.

Veamos un ejemplo:

User-agent: *
Disallow: /aqui_no_entres/
Disallow: /foro_privado?
Crawl-delay: 10

Línea por línea:

  1. A todos los agentes de usuario, es decir, a todos los buscadores
  2. No permitimos que se rastree la dirección /aqui_no_entres/
  3. No permitimos que se rastree cualquier dirección que empiece por /foro_privado
  4. Incluimos un retraso de 10 segundos

Referencia al sitemap en el robots.txt

También puedes incluir una referencia a dónde está tu sitemap, el mapa del sitio, en el robots.txt para facilitar a los buscadores que encuentren dicho fichero donde indicas tu contenido y su forma a estos motores de búsqueda.

Puedes indicarlo de esta forma:

  • Sitemap: https://misitio.com/sitemap.xml

Ejemplos de robots.txt

Muy fácil, al ser un fichero público para que lo vean los buscadores, tú también podrás encontrarlo haciendo lo siguiente: en tu navegador, incluye el dominio del sitio del que quiere ver su robots.txt e incluye robots.txt y con tu navegador podrá verlo, por ejemplo: http://sitioquequierover.com/robots.txt

Así podrás fisgonear los ficheros robots.txt de todo aquel sitio web que te interese.1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (Ninguna valoración todavía)

Cargando…

Almacenamos las IPs desde la que se envían las valoraciones para evitar fraudes

Carrito

loader
Powered by